AI는 어떻게 만들어지나 — 사전학습·SFT·RLHF 3단계와 'AI가 모르는 것'의 정체

AI 모델 안의 가중치 수천억 개는 사람이 입력하지 않는다. 사전학습(Pre-training), 지도 미세조정(SFT), 인간 피드백 강화학습(RLHF)이라는 3단계 공정이 데이터로부터 그 값을 빚는다.

이 공정을 알면 "왜 AI가 작년 일을 모르나", "왜 대화해도 나를 학습하지 않나" 같은 질문이 한 번에 풀린다. AI 동작원리 시리즈 4편이다.

빌드 타임과 런타임을 가르는 것

AI 학습 3단계 도식
사전학습이 지능의 몸통을, SFT·RLHF가 태도를 만든다

개발자 비유가 제일 깔끔하다. 학습은 빌드 타임이고 대화(추론)는 런타임이다. 모델 파일은 빌드 산출물이라서, 일단 빌드가 끝나면 내용이 바뀌지 않는다.

대화 중에 모델이 무언가를 "기억"하는 것처럼 보여도 가중치는 1비트도 변하지 않는다. 그 착시의 정체는 시리즈 6편(컨텍스트 윈도우)에서 다루고, 이 글은 빌드 공정 자체를 본다.

1단계 사전학습: 지능의 99%가 여기서 나온다

인터넷 문서, 책, 코드 등 수조 개 토큰을 모델에 먹이면서 한 가지 게임만 시킨다. 다음 토큰 맞히기. 틀릴 때마다 가중치를 아주 조금씩 고치는 일(경사하강법)을 천문학적으로 반복한다.

이 단계가 시간과 비용의 거의 전부를 차지한다. 연구기관 Epoch AI의 분석에 따르면 GPT-4급 모델의 최종 학습 1회에 하드웨어 상각 기준 약 4천만 달러, 클라우드 임대 환산으로는 7,800만 달러 규모가 들었고, 최전선 모델의 학습 비용은 매년 2.4배씩 커지고 있다(Epoch AI 분석, 학술판).

사전학습이 끝난 모델은 똑똑하지만 무뚝뚝하다. 질문을 던지면 답을 하는 게 아니라 "그 질문 뒤에 올 법한 텍스트"를 이어 버린다. 질문 목록 사이에 끼어 있던 문장이라면 또 다른 질문을 생성하는 식이다.

2단계 SFT: 비서의 말투를 입힌다

그래서 사람이 직접 쓴 모범 문답 수만~수십만 개를 추가로 학습시킨다. "이런 질문에는 이렇게 답한다"라는 시연 데이터다. 이 지도 미세조정(Supervised Fine-Tuning)을 거치면 비로소 질문-답변 형식, 대화 스타일, 기본적인 안전 감각이 입혀진다.

3단계 RLHF: 사람의 선호를 점수판으로

마지막으로 모델이 만든 답변 여러 개를 사람이 보고 순위를 매긴다. 그 선호 데이터를 보상 신호 삼아 강화학습을 돌리면, 모델은 "사람이 더 좋아할 답"의 방향으로 정렬(align)된다.

이 방법을 정식화한 것이 OpenAI의 InstructGPT 논문(2022)이다. 13억 파라미터짜리 RLHF 모델의 답변이 100배 큰 1,750억 GPT-3보다 선호됐다는 결과가 상징적이다. 크기보다 정렬이 체감 품질을 좌우할 수 있다는 것. Anthropic은 사람 라벨 대신 원칙 목록으로 모델이 자기 답을 비평·수정하게 하는 Constitutional AI 변형을 쓴다. 모델이 거절을 하고, 말투가 공손한 이유가 다 이 단계에서 만들어진다.

단계데이터만들어지는 것비중
사전학습수조 토큰 (웹·책·코드)지식·문법·코드 패턴 = 지능의 몸통시간·비용의 ~99%
SFT수만~수십만 모범 문답대화 형식, 비서 말투작음
RLHF사람의 선호 순위안전·유용함 방향의 정렬작지만 체감 큼

knowledge cutoff: 가중치가 박제되는 순간

학습이 끝나면 가중치는 고정된다. 그 마감 시점이 knowledge cutoff이고, 모델이 그 이후의 사실을 모르는 이유다. 어제 뉴스를 물었을 때 AI가 답을 한다면, 그건 가중치에서 나온 게 아니라 검색 도구가 가져온 텍스트를 컨텍스트로 받아 읽은 것이다.

여기서 흔한 오해 셋을 짚는다. 첫째, 대화하면서 모델이 나를 학습하지 않는다. 가중치는 고정이고, 개인화는 컨텍스트 주입이라는 별도 장치다. 둘째, RLHF가 지능을 만드는 게 아니다. 지능의 몸통은 사전학습이 만들고 RLHF는 태도를 다듬는다. 셋째, 회사 지식을 모델에 넣는 방법으로 미세조정이 먼저 떠오르지만, 실무에서는 검색해서 컨텍스트에 넣어 주는 방식(RAG)이 더 싸고 흔하다.

자주 묻는 질문

Q. AI가 내 대화 내용을 학습할 수도 있지 않나?

실시간으로는 불가능하다. 다만 서비스 약관에 따라 대화 데이터가 다음 버전 모델의 학습 데이터에 포함될 수는 있다. 그래서 민감 정보는 옵트아웃 설정을 확인하고 쓰는 게 맞다.

Q. cutoff 이후 일을 아는 것처럼 보일 때가 있다.

검색 도구를 붙인 서비스라면 검색 결과를 읽고 답한 것이다. 도구 없이 답했다면 그럴듯하게 지어냈을 가능성을 의심해야 한다.

Q. 모델 업데이트는 그럼 뭔가?

새로 빌드한 산출물로 교체하는 것이다. 점진적으로 배우는 게 아니라 새 버전을 다시 학습해서 내놓는다.

Q. 파인튜닝하면 내 데이터로 모델을 바꿀 수 있나?

가능하다. 다만 비용과 관리 부담 때문에, 문서를 검색해 컨텍스트로 주입하는 RAG로 먼저 해결하는 게 업계 표준 순서다.

Q. 학습 데이터는 어디서 오나?

공개 웹, 도서, 코드 저장소, 라이선스 계약 데이터 등이다. 저작권 분쟁이 진행 중인 영역이라 회사별 정책 차이가 크다.

다음 편 예고

고정된 가중치로 답을 만들 때 무슨 일이 벌어지는지가 다음 주제다. 같은 질문에 답이 달라지는 이유와 AI가 자신 있게 틀리는 이유, 환각과 샘플링을 다룬다.

AI 동작원리 시리즈: ① 다음 토큰 예측 · ② 토큰과 요금 · ③ 어텐션 · ④ 학습 3단계(이 글) · ⑤ 환각과 샘플링 · ⑥ 컨텍스트 윈도우 · ⑦ 하네스 모델을 일상 자동화에 붙이는 실전은 AI 반복 업무 자동화 가이드에 있다. 내용은 2026년 6월 기준이며, 학습 기법은 빠르게 진화하니 세부는 링크한 1차 자료를 함께 보길 권한다.

댓글

이 블로그의 인기 게시물

마와린세 패스 완전정리 — 이세시마 여행 [1/9]

우분투 26.04 LTS 설치·개발환경 세팅 가이드

Windows 패키지 매니저 비교 — winget·Chocolatey·Scoop