AI는 다음 단어 맞히기만 한다 — 그런데 왜 코딩까지 가능한가

ChatGPT나 Claude가 하는 일은 본질적으로 하나다. 지금까지의 텍스트 뒤에 올 다음 단어(정확히는 토큰)를 확률로 예측하는 것. 번역, 요약, 코딩, 심지어 추론처럼 보이는 것까지 전부 이 한 가지 메커니즘에서 나온다.

이 사실을 알고 나면 AI가 언제 강하고 언제 틀리는지가 보이기 시작한다. 매일 AI로 블로그와 코드를 굴리면서 원리를 노트로 공부한 내용을, 비개발자도 따라올 수 있게 풀었다. AI 동작원리 시리즈의 첫 편이다.

거대한 함수 하나가 돌고 있다

다음 토큰 예측 반복 구조 도식
autoregressive 생성의 한 스텝. 이 반복이 글쓰기의 전부다 (노트 정리 기반 도식)

AI 모델의 정체는 입력 텍스트를 받아서 "다음에 올 토큰 후보와 확률"을 돌려주는 함수다. 개발자식으로 쓰면 이렇게 된다.

입력: "대한민국의 수도는"
출력: P("서울") = 0.92, P("부산") = 0.03, P("평양") = 0.01, ...

모델은 이 확률분포에서 토큰 하나를 뽑고, 그 토큰을 입력 끝에 붙여서 같은 함수를 다시 호출한다. 이 반복(autoregressive 생성)이 수천 번 이어진 결과가 우리가 받는 답변이다.

에세이 한 편을 "쓴다"는 행위도 실제로는 한 단어 예측 × 수천 회 반복이다. 계획을 세우고 글을 짓는 게 아니라, 매 순간 가장 그럴듯한 다음 토큰을 이어 붙인다.

단어 맞히기에서 지능이 나오는 이유

다음 단어를 잘 맞히려면 생각보다 많은 것을 알아야 한다. "대한민국의 수도는" 뒤에 "서울"을 놓으려면 세계 지식이 필요하고, 긴 문장의 주어와 호응하는 동사를 고르려면 문법과 문맥 파악이 필요하다.

학습 단계에서 모델은 인터넷과 책, 코드 등 수조 개 토큰을 보며 이 예측 게임을 무한 반복한다. 그 과정에서 지식과 논리의 패턴이 수천억 개의 숫자(가중치)에 압축된다. 단순한 목표에 거대한 데이터와 모델을 부으면 복잡한 능력이 따라 나온다는 것, 이게 지난 몇 년 AI 판을 바꾼 "스케일링"의 핵심 직관이다. 창발(emergent abilities)이라는 이름으로 연구되는 주제이기도 하다. 관심 있으면 Wei et al.의 창발 능력 논문이 출발점이다.

검색이 아니라 생성이라는 점이 모든 것을 가른다

여기서 실용적으로 중요한 구분이 나온다. 모델은 답을 데이터베이스에서 찾아오지 않는다. 그럴듯한 답을 그 자리에서 만들어 낸다.

흔한 오해실제
AI가 답을 검색한다검색이 아니라 생성이다. 그래서 없는 사실도 만들 수 있다
AI가 사실을 안다사실에 해당하는 확률 패턴을 안다. 둘은 다르다
AI가 추론을 한다추론처럼 보이는 토큰 시퀀스를 생성한다
AI가 대화를 기억한다매 호출마다 백지에서 시작한다. 기억은 별도 장치가 만든다

자주 본 패턴은 정확하게 재현하고, 드문 사실은 그럴듯하게 지어낸다. AI가 유명 API 사용법은 잘 알려주면서 마이너한 라이브러리의 함수명은 천연덕스럽게 지어내는 이유가 여기 있다. 이 부작용이 환각(hallucination)인데, 시리즈 5편에서 따로 다룬다.

일상에서 바로 써먹는 감각 세 가지

원리를 알면 쓰는 방식이 달라진다. 내가 2026년 6월 기준으로 블로그 자동화와 코딩에 AI를 쓰면서 체감한 기준이다.

첫째, 패턴이 많은 작업일수록 믿는다. 자주 쓰이는 코드, 표준 문서 형식, 흔한 번역은 학습 데이터에 패턴이 많아 정확도가 높다.

둘째, 구체적인 숫자·이름·링크는 따로 검증한다. 확률적으로 생성된 값이라 가장 그럴듯한 오답이 나오기 쉬운 영역이다. 나는 가격이나 URL이 들어간 글은 반드시 원본 페이지를 다시 확인한다.

셋째, 같은 질문에 답이 매번 달라져도 고장이 아니다. 확률분포에서 뽑기 때문에 원래 그렇다. 오히려 여러 번 물어서 답이 갈리면 모델이 확신하지 못하는 영역이라는 신호로 읽는다.

같은 이유로 작업 유형별 신뢰도 차이도 설명된다. 요약과 번역은 "주어진 텍스트를 다른 형태로 잇는" 일이라 패턴 예측이 강하게 먹히고, 빈 종이에서 사실을 꺼내는 일(연도, 통계, 인물 정보)은 가장 약하다. 자료를 주고 시키는 일과 맨손으로 시키는 일을 구분하는 것만으로 결과 품질이 한 단계 달라진다.

자주 묻는 질문

Q. LLM이 무슨 뜻인가?

Large Language Model, 대규모 언어 모델이다. 방대한 텍스트로 다음 토큰 예측을 학습한 모델을 가리키며 ChatGPT, Claude, Gemini가 모두 여기에 속한다.

Q. AI가 정말 생각을 하는 건가?

"생각처럼 보이는 토큰 시퀀스를 생성한다"가 정확하다. 내부에서 무슨 일이 벌어지는지는 해석 가능성(interpretability)이라는 분야에서 활발히 연구 중이고, 단정적인 답은 아직 없다.

Q. 토큰이 단어와 다른 건가?

다르다. 단어보다 작은 조각(subword) 단위라서 한국어는 한 글자가 1~2토큰으로 쪼개지기도 한다. 시리즈 2편에서 요금과 함께 자세히 다룬다.

Q. 모델이 대화 중에 배우기도 하나?

배우지 않는다. 학습이 끝나면 가중치는 고정이고, 대화 내용은 매번 입력으로 다시 주입될 뿐이다. 4편(학습)과 6편(컨텍스트)에서 이어진다.

Q. 이 원리를 알면 뭐가 좋아지나?

프롬프트를 어떻게 쓸지, 어떤 답을 검증해야 할지 기준이 생긴다. 도구를 다루는 사람과 원리를 아는 사람의 차이는 작업이 꼬였을 때 드러난다.

시리즈 안내와 다음 편

AI 동작원리 시리즈: ① 다음 토큰 예측(이 글) · ② 토큰과 요금 · ③ 어텐션 · ④ 학습 3단계 · ⑤ 환각과 샘플링 · ⑥ 컨텍스트 윈도우 · ⑦ 하네스 순서로 이어진다. 다음 편에서 모델이 글자를 어떻게 숫자로 바꾸는지, 그리고 왜 한국어가 영어보다 비싼지를 다룬다.

실전 활용 쪽이 궁금하면 프롬프트 엔지니어링 실전 패턴AI 반복 업무 자동화 가이드를 먼저 봐도 된다. 본문 내용은 2026년 6월 기준이며, 모델과 용어는 빠르게 바뀌므로 세부는 각 공식 문서를 함께 확인하는 편이 안전하다.

댓글

이 블로그의 인기 게시물

마와린세 패스 완전정리 — 이세시마 여행 [1/9]

우분투 26.04 LTS 설치·개발환경 세팅 가이드

Windows 패키지 매니저 비교 — winget·Chocolatey·Scoop