기획서부터 배포까지: AI가 바꾼 개발 파이프라인 이야기

얼마 전까지만 해도 "AI 잘 쓰는 개발자"의 기준은 코드 자동완성을 얼마나 잘 활용하느냐였다.

어떤 AI 에디터를 쓰느냐. 그게 전부인 줄 알았다.

그런데 어느 순간부터 질문이 달라졌다.

"어떤 AI 에디터를 쓰냐"가 아니라 "어떤 파이프라인으로 개발하느냐"로.

AX 1세대와 2세대의 차이

2023년에 DX(디지털 전환)가 있었다면, 2025년엔 AX(AI 전환)가 왔다.

이름만 바뀐 게 아니다. 결이 다르다.

DX는 오프라인에 있던 것을 온라인으로 옮기는 작업이었다. 비교적 명확한 목적지가 있었다.

AX는 좀 다르다. "AI로 뭘 해야 하지?"라는 질문 자체가 출발점인 경우가 많다.

1세대 AI 도입: AI로 코드를 빠르게 짜는 것.

2세대 AI 도입: 기획서부터 배포까지, 산출물 전 공정에 AI가 읽고 쓸 수 있는 언어를 심는 것.

1세대에서 멈춘 팀과 2세대로 넘어간 팀 사이에 이미 격차가 벌어지고 있다.

직접 깨달은 것들

방향을 바꾸면서 달라졌다.

AI에게 코드를 맡기는 게 아니라, AI가 일할 수 있는 환경을 설계하는 것이 내 일이 됐다.

그 과정에서 몇 가지를 배웠다.

첫째, AI 환경에 훅(hook), 스킬(skill), 에이전트 계층을 직접 만들어 쌓았다. 처음엔 생산성이랑 무슨 관계가 있나 싶었다. 그런데 써보니 알겠더라. AI가 실수를 덜 하는 환경이 결국 생산성의 본체였다. AI 자체보다 AI를 둘러싼 구조가 더 중요했다.

둘째, 디자인을 코드로 자동 변환해봤다. 처음엔 기대가 컸다. 그런데 디자인 토큰이 정리 안 된 상태에서 돌리니 쓸 수 없는 코드가 나왔다. AI가 나쁜 게 아니었다. AI에게 줄 재료를 준비 안 한 거였다.

셋째, 환경변수 문제를 겪었다. AI가 검토한 코드에는 문제가 없었는데 런타임에서만 인증이 실패했다. 원인은 AI 코드가 아니라 우리가 AI에게 준 컨텍스트의 구멍이었다.

세 사례의 공통점: 문제는 언제나 AI 이전 단계에 있었다.

파이프라인 5단계

1단계 — PRD 표준화

PRD를 AI가 읽을 수 있는 형식으로 바꾸는 것에서 시작한다.

YAML 프론트매터에 기능 ID, 수용 기준, 의존성, 데이터 타입을 명시한다.

"사용자가 가입할 수 있다"가 아니라, "이메일 + 비밀번호를 받아 users 테이블에 INSERT하고, 중복 시 409를 반환한다"로 쓴다.

처음엔 귀찮다. 그런데 이게 이후 모든 단계의 재료가 된다.

2단계 — 디자인 시스템 토큰화

디자인 변수를 JSON 토큰으로 추출하고, 그것이 Tailwind 설정이나 CSS 변수로 자동 연동되게 한다.

디자이너가 브랜드 컬러를 바꾸면 코드가 따라 움직이는 구조.

이게 되어 있지 않으면, 컴포넌트를 AI가 아무리 잘 만들어도 스타일 불일치가 수동으로 쌓인다.

3단계 — API 스펙 먼저

PRD에서 정의한 요구사항이 OpenAPI 스펙 또는 Zod 스키마로 정리된다.

코드를 먼저 짜는 게 아니다. 어떤 데이터를 주고받을지를 먼저 정한다.

이 스펙이 명확하면 프론트엔드와 백엔드가 병렬로 개발해도 충돌이 없다.

AI도 스펙에서 시작하면 훨씬 정확한 코드를 만든다.

4단계 — 프론트엔드 조립

디자인 토큰, API 스펙, PRD 요구사항이 모두 AI가 읽을 수 있는 형태로 갖춰져 있으면 프론트엔드 개발은 AI가 상당 부분 조립한다.

사람은 설계를 검토하고 엣지 케이스를 판단한다.

5단계 — 하네스(검증 게이트)

하네스(harness)란 AI가 만든 결과물을 자동으로 검증하는 장치다.

타입 체크, 빌드 검증, 런타임 테스트, AI 코드 리뷰어.

이 게이트 없이 파이프라인을 돌리는 건 안전장치 없이 공장을 가동하는 것과 같다.

AI는 빠르게 많이 만든다. 그 속도만큼 실수도 빠르게 쌓인다.

핵심은 "상류를 정의하는 것"

파이프라인에는 순서가 있다.

상류가 제대로 정의되어야 하류가 흔들리지 않는다.

AI를 쓸수록 이 원칙이 더 선명해진다.

PRD가 모호하면 AI가 만든 API 스펙도 모호하다.

API 스펙이 모호하면 AI가 만든 컴포넌트도 맞지 않는다.

AI 파이프라인의 품질은 가장 상류에서 결정된다.

지금 우리 팀에 필요한 질문

우리 PRD는 AI가 읽을 수 있는 형식인가?
디자인 토큰이 코드와 연동되어 있는가?
API 스펙이 코드보다 먼저 확정되는가?
AI가 만든 결과물을 자동으로 검증하는 게이트가 있는가?

이 네 가지 질문에 "예"라고 답할 수 있을 때, AI는 비로소 팀의 생산성을 실제로 높인다.

AI 에디터를 바꾸기 전에, 파이프라인의 상류부터 정비해야 한다.