어텐션이란 무엇인가 — AI가 문맥을 읽는 단 하나의 장치

지금의 모든 대형 AI 모델(GPT, Claude, Gemini, LLaMA)은 트랜스포머(Transformer)라는 같은 뼈대를 쓴다. 그리고 트랜스포머의 심장이 어텐션(attention), 다음 토큰을 예측할 때 입력의 어느 부분에 얼마나 집중할지를 매번 새로 계산하는 장치다.

수식 없이 직관만으로 어텐션이 무슨 일을 하는지, 왜 2017년의 이 발명이 지금의 AI 붐을 만들었는지 푼다. AI 동작원리 시리즈 3편이다.

문장 하나를 해부해 보면

어텐션 계산 단계 도식
어텐션 한 스텝: 관련도 계산, 가중평균, 다층 반복 (노트 정리 기반 도식)

이 문장을 모델이 처리한다고 하자.

"그 개발자는 PR을 올렸고, 그가 리뷰를 기다린다"

"그가"라는 토큰을 해석하려면 앞의 "개발자"를 가리킨다는 걸 알아야 한다. 어텐션은 이걸 가중치 계산으로 푼다. "그가"는 "개발자"에 0.8, "PR"에 0.15, "리뷰"에 0.05 같은 식으로 관련도를 매기고, 그 가중평균으로 자기 자신의 표현을 갱신한다.

핵심은 모든 토큰이 다른 모든 토큰과의 관련도를 계산한다는 점이다. 토큰이 N개면 N×N짜리 관계망이 매 호출마다 새로 그려진다. 멀리 떨어진 단어 사이의 호응(누가 누구를 가리키나, 주어와 동사가 맞나)을 잡아내는 힘이 여기서 나온다.

트랜스포머는 어텐션을 쌓은 탑이다

트랜스포머 전체 구조는 의외로 단순하게 요약된다.

입력 토큰 → [어텐션 + 변환 네트워크] × 수십~수백 층 → 다음 토큰 확률분포

어텐션이 토큰 사이의 관계를 잡으면, 변환 네트워크(FFN)가 각 토큰의 표현을 다듬는다. 이 블록을 수십, 수백 층 쌓은 것이 모델이고, 그 안의 모든 가중치를 합친 개수가 "파라미터 수천억 개"라고 할 때의 그 숫자다. 모델 파일의 정체가 바로 이 가중치 덩어리다.

층마다 어텐션 "헤드"가 여러 개 있어서 같은 문장을 서로 다른 관점으로 본다. 어떤 헤드는 문법적 호응을, 어떤 헤드는 의미적 연관을 잡는 식의 분업이 학습 과정에서 저절로 생긴다.

2017년, 무엇이 바뀌었나

어텐션 이전의 주류였던 RNN 계열은 문장을 앞에서부터 순서대로 처리했다. 직렬 처리라 GPU 병렬화가 어려웠고, 문장이 길어지면 앞부분 정보가 흐려졌다.

구분RNN/LSTM (이전)트랜스포머 (2017~)
처리 방식토큰을 순서대로 하나씩모든 토큰을 한 번에 병렬로
긴 문맥멀어질수록 약해짐거리와 무관하게 직접 참조
GPU 활용비효율병렬 연산에 최적
대표 모델번역기 초기 세대GPT, Claude, Gemini 전부

구글 연구진의 2017년 논문 제목이 선언 그 자체였다. "Attention Is All You Need", 순환도 합성곱도 빼고 어텐션만으로 충분하다는 것. 모든 위치를 한 번에 병렬로 보는 구조가 GPU와 맞아떨어지면서, 모델을 키울수록 좋아지는 스케일링 시대가 열렸다.

어텐션을 알면 보이는 실전 감각

N×N 관계망이라는 구조에서 사용자가 체감하는 특성 두 개가 바로 나온다.

첫째, 입력이 길수록 비용과 지연이 가파르게 는다. 토큰이 2배면 관계 계산은 4배에 가까워진다. 긴 문서를 통째로 넣는 것보다 필요한 부분만 추려 넣는 게 빠르고 싼 이유가 구조에 있다. 생성 중에는 KV 캐시라는 장치가 이미 계산한 관계를 재활용해 속도를 벌지만, 입력 자체가 길면 첫 응답까지의 대기는 피할 수 없다.

둘째, "모든 토큰을 본다"와 "모든 토큰을 똑같이 잘 쓴다"는 다르다. 아주 긴 컨텍스트의 중간 부분 정보가 상대적으로 묻히는 현상(lost in the middle)이 보고돼 있고, 그래서 중요한 지시나 자료는 입력의 앞이나 뒤쪽에 두는 게 실전 요령으로 통한다. 프롬프트를 다듬을 때 순서를 바꾸는 것만으로 답이 달라지는 경험은 이 구조의 그림자다.

비유의 한계도 알아두기

어텐션을 "사람의 주의력"으로 옮기는 건 절반만 맞는 비유다. 실체는 관련도 점수의 가중평균 계산이고, 인지적인 의도 같은 건 없다.

"트랜스포머가 곧 어텐션"이라는 요약도 부정확하다. 어텐션은 트랜스포머의 한 부품이고, 변환 네트워크와 정규화 같은 다른 부품들이 함께 있어야 돌아간다. 층수가 깡패라는 말도 일정 지점까지만 사실이고, 그 너머에선 데이터 품질과 학습 효율이 더 중요해진다.

더 깊이 보고 싶으면 두 자료가 표준 코스다. 그림으로 따라가는 The Illustrated Transformer(여러 대학 강의 교재로 쓰인다), 그리고 시각화의 정점인 3Blue1Brown의 GPT 해부 영상. 영어지만 그림만 따라가도 절반은 온다.

용어 미니 사전

용어
어텐션토큰끼리 관련도를 계산해 가중평균으로 표현을 갱신하는 장치
트랜스포머어텐션 블록을 다층으로 쌓은 신경망 구조
헤드(head)한 층 안에서 서로 다른 관점으로 어텐션을 계산하는 단위
파라미터모델 안의 학습된 숫자(가중치). 수천억 개 규모
KV 캐시생성 중 어텐션 계산을 재활용해 속도를 높이는 추론 최적화

다음 편 예고

이 거대한 관계망의 가중치 수천억 개는 누가 정할까. 사람이 한 땀씩 넣는 게 아니라 학습이 정한다. 다음 편에서 사전학습, SFT, RLHF로 이어지는 3단계 제조 공정을 다룬다.

AI 동작원리 시리즈: ① 다음 토큰 예측 · ② 토큰과 요금 · ③ 어텐션(이 글) · ④ 학습 3단계 · ⑤ 환각과 샘플링 · ⑥ 컨텍스트 윈도우 · ⑦ 하네스 순서다. 도구 활용 쪽이 급하면 프롬프트 엔지니어링 실전 패턴부터 봐도 된다. 내용은 2026년 6월 기준이다.

댓글

이 블로그의 인기 게시물

마와린세 패스 완전정리 — 이세시마 여행 [1/9]

우분투 26.04 LTS 설치·개발환경 세팅 가이드

Windows 패키지 매니저 비교 — winget·Chocolatey·Scoop