챗GPT·Claude는 어떻게 작동하나 — 다음 단어 예측·어텐션·학습 완전 가이드

깔끔하게 정돈된 테크 개발 데스크

대규모 언어 모델(LLM)과 기계 학습 알고리즘을 연동한 모던한 개발 및 테스트 데스크 셋업 (AI로 생성)

ChatGPT나 Claude가 하는 일은 본질적으로 하나다. 지금까지의 텍스트 뒤에 올 다음 단어(정확히는 토큰)를 확률로 예측하는 것. 번역, 요약, 코딩, 심지어 추론처럼 보이는 것까지 전부 이 한 가지 메커니즘에서 나온다.

이 글 하나면 모델의 정체(다음 토큰 예측)부터, 그게 어떻게 가능한지(어텐션과 트랜스포머), 그 능력을 빚어내는 학습 3단계까지 한 번에 잡힌다. 매일 AI로 블로그와 코드를 굴리면서 원리를 노트로 정리한 내용을, 비개발자도 따라올 수 있게 풀었다. 원리를 알면 AI가 언제 강하고 언제 틀리는지가 보이기 시작한다.

1. 거대한 함수 하나가 돌고 있다

AI 모델의 정체는 입력 텍스트를 받아서 "다음에 올 토큰 후보와 확률"을 돌려주는 함수다. 개발자식으로 쓰면 이렇게 된다.

입력: "대한민국의 수도는"
출력: P("서울") = 0.92, P("부산") = 0.03, P("평양") = 0.01, ...

모델은 이 확률분포에서 토큰 하나를 뽑고, 그 토큰을 입력 끝에 붙여서 같은 함수를 다시 호출한다. 이 반복(autoregressive 생성)이 수천 번 이어진 결과가 우리가 받는 답변이다. 에세이 한 편을 "쓴다"는 행위도 실제로는 한 단어 예측 × 수천 회 반복이다. 계획을 세우고 글을 짓는 게 아니라, 매 순간 가장 그럴듯한 다음 토큰을 이어 붙인다.

2. 단어 맞히기에서 지능이 나오는 이유

다음 단어를 잘 맞히려면 생각보다 많은 것을 알아야 한다. "대한민국의 수도는" 뒤에 "서울"을 놓으려면 세계 지식이 필요하고, 긴 문장의 주어와 호응하는 동사를 고르려면 문법과 문맥 파악이 필요하다.

학습 단계에서 모델은 인터넷과 책, 코드 등 수조 개 토큰을 보며 이 예측 게임을 무한 반복한다. 그 과정에서 지식과 논리의 패턴이 수천억 개의 숫자(가중치)에 압축된다. 단순한 목표에 거대한 데이터와 모델을 부으면 복잡한 능력이 따라 나온다는 것, 이게 지난 몇 년 AI 판을 바꾼 "스케일링"의 핵심 직관이다. 창발(emergent abilities)이라는 이름으로 연구되는 주제이기도 하다. 관심 있으면 Wei et al.의 창발 능력 논문이 출발점이다.

3. 검색이 아니라 생성이라는 점이 모든 것을 가른다

여기서 실용적으로 중요한 구분이 나온다. 모델은 답을 데이터베이스에서 찾아오지 않는다. 그럴듯한 답을 그 자리에서 만들어 낸다.

흔한 오해	실제
AI가 답을 검색한다	검색이 아니라 생성이다. 그래서 없는 사실도 만들 수 있다
AI가 사실을 안다	사실에 해당하는 확률 패턴을 안다. 둘은 다르다
AI가 추론을 한다	추론처럼 보이는 토큰 시퀀스를 생성한다
AI가 대화를 기억한다	매 호출마다 백지에서 시작한다. 기억은 별도 장치가 만든다

자주 본 패턴은 정확하게 재현하고, 드문 사실은 그럴듯하게 지어낸다. AI가 유명 API 사용법은 잘 알려주면서 마이너한 라이브러리의 함수명은 천연덕스럽게 지어내는 이유가 여기 있다. 이 부작용이 환각(hallucination)인데, 원인과 대응은 후속편 — 환각과 AI 에이전트 구조에서 따로 다룬다.

4. 어텐션 — AI가 문맥을 읽는 단 하나의 장치

지금의 모든 대형 AI 모델(GPT, Claude, Gemini, LLaMA)은 트랜스포머(Transformer)라는 같은 뼈대를 쓴다. 그리고 트랜스포머의 심장이 어텐션(attention), 다음 토큰을 예측할 때 입력의 어느 부분에 얼마나 집중할지를 매번 새로 계산하는 장치다.

이 문장을 모델이 처리한다고 하자. "그 개발자는 PR을 올렸고, 그가 리뷰를 기다린다." "그가"라는 토큰을 해석하려면 앞의 "개발자"를 가리킨다는 걸 알아야 한다. 어텐션은 이걸 가중치 계산으로 푼다. "그가"는 "개발자"에 0.8, "PR"에 0.15, "리뷰"에 0.05 같은 식으로 관련도를 매기고, 그 가중평균으로 자기 자신의 표현을 갱신한다.

핵심은 모든 토큰이 다른 모든 토큰과의 관련도를 계산한다는 점이다. 토큰이 N개면 N×N짜리 관계망이 매 호출마다 새로 그려진다. 멀리 떨어진 단어 사이의 호응을 잡아내는 힘이 여기서 나온다.

트랜스포머 전체 구조는 의외로 단순하게 요약된다.

입력 토큰 → [어텐션 + 변환 네트워크] × 수십~수백 층 → 다음 토큰 확률분포

어텐션이 토큰 사이의 관계를 잡으면, 변환 네트워크(FFN)가 각 토큰의 표현을 다듬는다. 이 블록을 수십, 수백 층 쌓은 것이 모델이고, 그 안의 모든 가중치를 합친 개수가 "파라미터 수천억 개"라고 할 때의 그 숫자다. 모델 파일의 정체가 바로 이 가중치 덩어리다. 층마다 어텐션 "헤드"가 여러 개 있어서 같은 문장을 서로 다른 관점으로 본다.

구분	RNN/LSTM (이전)	트랜스포머 (2017~)
처리 방식	토큰을 순서대로 하나씩	모든 토큰을 한 번에 병렬로
긴 문맥	멀어질수록 약해짐	거리와 무관하게 직접 참조
GPU 활용	비효율	병렬 연산에 최적
대표 모델	번역기 초기 세대	GPT, Claude, Gemini 전부

구글 연구진의 2017년 논문 제목이 선언 그 자체였다. "Attention Is All You Need", 순환도 합성곱도 빼고 어텐션만으로 충분하다는 것. 모든 위치를 한 번에 병렬로 보는 구조가 GPU와 맞아떨어지면서, 모델을 키울수록 좋아지는 스케일링 시대가 열렸다.

N×N 관계망이라는 구조에서 사용자가 체감하는 특성 두 개가 바로 나온다. 첫째, 입력이 길수록 비용과 지연이 가파르게 는다. 토큰이 2배면 관계 계산은 4배에 가까워진다. 긴 문서를 통째로 넣는 것보다 필요한 부분만 추려 넣는 게 빠르고 싼 이유가 구조에 있다. 둘째, "모든 토큰을 본다"와 "모든 토큰을 똑같이 잘 쓴다"는 다르다. 아주 긴 컨텍스트의 중간 부분 정보가 상대적으로 묻히는 현상(lost in the middle)이 보고돼 있어서, 중요한 지시나 자료는 입력의 앞이나 뒤쪽에 두는 게 실전 요령으로 통한다.

더 깊이 보고 싶으면 그림으로 따라가는 The Illustrated Transformer와 시각화의 정점인 3Blue1Brown의 GPT 해부 영상이 표준 코스다.

5. 그 가중치 수천억 개는 어떻게 정해지나 — 학습 3단계

거대한 관계망의 가중치는 사람이 한 땀씩 넣는 게 아니라 학습이 정한다. 사전학습(Pre-training), 지도 미세조정(SFT), 인간 피드백 강화학습(RLHF)이라는 3단계 공정이 데이터로부터 그 값을 빚는다. 개발자 비유가 제일 깔끔하다. 학습은 빌드 타임이고 대화(추론)는 런타임이다. 모델 파일은 빌드 산출물이라서, 일단 빌드가 끝나면 내용이 바뀌지 않는다.

인터넷 문서, 책, 코드 등 수조 개 토큰을 모델에 먹이면서 한 가지 게임만 시킨다. 다음 토큰 맞히기. 틀릴 때마다 가중치를 아주 조금씩 고치는 일(경사하강법)을 천문학적으로 반복한다. 이 단계가 시간과 비용의 거의 전부를 차지한다. 연구기관 Epoch AI의 분석에 따르면 GPT-4급 모델의 최종 학습 1회에 하드웨어 상각 기준 약 4천만 달러, 클라우드 임대 환산으로는 7,800만 달러 규모가 들었고, 최전선 모델의 학습 비용은 매년 2.4배씩 커지고 있다(Epoch AI 분석, 학술판).

사전학습이 끝난 모델은 똑똑하지만 무뚝뚝하다. 질문을 던지면 답을 하는 게 아니라 "그 질문 뒤에 올 법한 텍스트"를 이어 버린다.

그래서 사람이 직접 쓴 모범 문답 수만~수십만 개를 추가로 학습시킨다. "이런 질문에는 이렇게 답한다"라는 시연 데이터다. 이 지도 미세조정(Supervised Fine-Tuning)을 거치면 비로소 질문-답변 형식, 대화 스타일, 기본적인 안전 감각이 입혀진다.

마지막으로 모델이 만든 답변 여러 개를 사람이 보고 순위를 매긴다. 그 선호 데이터를 보상 신호 삼아 강화학습을 돌리면, 모델은 "사람이 더 좋아할 답"의 방향으로 정렬(align)된다. 이 방법을 정식화한 것이 OpenAI의 InstructGPT 논문(2022)이다. 13억 파라미터짜리 RLHF 모델의 답변이 100배 큰 1,750억 GPT-3보다 선호됐다는 결과가 상징적이다. 크기보다 정렬이 체감 품질을 좌우할 수 있다는 것. Anthropic은 사람 라벨 대신 원칙 목록으로 모델이 자기 답을 비평·수정하게 하는 Constitutional AI 변형을 쓴다.

단계	데이터	만들어지는 것	비중
사전학습	수조 토큰 (웹·책·코드)	지식·문법·코드 패턴 = 지능의 몸통	시간·비용의 ~99%
SFT	수만~수십만 모범 문답	대화 형식, 비서 말투	작음
RLHF	사람의 선호 순위	안전·유용함 방향의 정렬	작지만 체감 큼

학습이 끝나면 가중치는 고정된다. 그 마감 시점이 knowledge cutoff이고, 모델이 그 이후의 사실을 모르는 이유다. 어제 뉴스를 물었을 때 AI가 답을 한다면, 그건 가중치에서 나온 게 아니라 검색 도구가 가져온 텍스트를 컨텍스트로 받아 읽은 것이다. 같은 이유로, 대화하면서 모델이 나를 학습하지는 않는다. 가중치는 고정이고 개인화는 컨텍스트 주입이라는 별도 장치다. 회사 지식을 넣을 때도 미세조정보다 검색해서 컨텍스트에 넣어 주는 방식(RAG)이 더 싸고 흔하다.

6. 일상에서 바로 써먹는 감각

원리를 알면 쓰는 방식이 달라진다. 2026년 6월 기준, 블로그 자동화와 코딩에 AI를 쓰면서 체감한 기준이다.

패턴이 많은 작업일수록 믿는다. 자주 쓰이는 코드, 표준 문서 형식, 흔한 번역은 학습 데이터에 패턴이 많아 정확도가 높다.
구체적인 숫자·이름·링크는 따로 검증한다. 확률적으로 생성된 값이라 가장 그럴듯한 오답이 나오기 쉽다. 가격이나 URL이 들어간 글은 반드시 원본 페이지를 다시 확인한다.
자료를 주고 시키는 일과 맨손으로 시키는 일을 구분한다. 요약·번역은 "주어진 텍스트를 잇는" 일이라 강하고, 빈 종이에서 사실을 꺼내는 일(연도·통계·인물)이 가장 약하다.
같은 질문에 답이 매번 달라져도 고장이 아니다. 확률분포에서 뽑기 때문이다. 오히려 답이 갈리면 모델이 확신하지 못하는 영역이라는 신호로 읽는다.

자주 묻는 질문

Q. LLM이 무슨 뜻인가?

Large Language Model, 대규모 언어 모델이다. 방대한 텍스트로 다음 토큰 예측을 학습한 모델을 가리키며 ChatGPT, Claude, Gemini가 모두 여기에 속한다.

Q. AI가 정말 생각을 하는 건가?

"생각처럼 보이는 토큰 시퀀스를 생성한다"가 정확하다. 내부에서 무슨 일이 벌어지는지는 해석 가능성(interpretability) 분야에서 활발히 연구 중이고, 단정적인 답은 아직 없다.

Q. 토큰이 단어와 다른 건가?

다르다. 단어보다 작은 조각(subword) 단위라서 한국어는 한 글자가 1~2토큰으로 쪼개지기도 한다. 그래서 같은 내용이라도 한국어가 영어보다 토큰을 더 먹고 요금도 더 나온다.

Q. 어텐션을 사람의 주의력에 비유해도 되나?

절반만 맞는 비유다. 실체는 관련도 점수의 가중평균 계산이고, 인지적인 의도 같은 건 없다. "트랜스포머가 곧 어텐션"이라는 요약도 부정확하다. 어텐션은 한 부품이고, 변환 네트워크와 정규화가 함께 있어야 돌아간다.

Q. 모델 업데이트는 그럼 뭔가?

새로 빌드한 산출물로 교체하는 것이다. 점진적으로 배우는 게 아니라 새 버전을 다시 학습해서 내놓는다.

Q. 이 원리를 알면 뭐가 좋아지나?

프롬프트를 어떻게 쓸지, 어떤 답을 검증해야 할지 기준이 생긴다. 도구를 다루는 사람과 원리를 아는 사람의 차이는 작업이 꼬였을 때 드러난다.

여기까지가 "모델이 어떻게 답을 만드나"의 뼈대다. 그런데 이 확률적 생성에는 그림자가 있다. 같은 메커니즘이 환각(그럴듯한 거짓말)을 낳고, 텍스트만 뱉던 모델이 파일을 고치고 검색을 하는 에이전트로 변하는 트릭이 따로 있다. 그 두 가지는 후속편 "챗GPT는 왜 거짓말을 할까 — 환각과 AI 에이전트 구조"에서 이어 다룬다. 본문 내용은 2026년 6월 기준이며, 모델과 용어는 빠르게 바뀌므로 세부는 각 공식 문서를 함께 확인하는 편이 안전하다.

마와린세 패스 완전정리 — 이세시마 여행 [1/9]

5월 29, 2026

자세한 내용 보기

이 블로그 검색

잘난코 블로그