AI 요금의 단위 '토큰' — 한국어가 영어보다 비싼 이유와 2026년 API 가격표
AI 모델은 글자를 모른다. 텍스트는 토큰(token)이라는 조각으로 잘려 정수 ID로 바뀌고, 모델은 그 숫자 시퀀스만 본다. 그리고 AI API 요금은 전부 이 토큰 개수로 매겨진다.
같은 내용이라도 한국어는 영어보다 토큰을 대략 1.5~2.5배 더 쓴다. 즉 같은 일을 시켜도 한국어가 더 비싸다. 토큰이 무엇인지, 2026년 6월 현재 주요 API 가격이 얼마인지, 비용을 줄이는 캐싱이 뭔지까지 다룬다. AI 동작원리 시리즈 2편이다.
토큰화: 글자도 단어도 아닌 조각

토큰은 단어보다 작고 글자보다 큰 subword 단위다. BPE(Byte Pair Encoding)라는 알고리즘이 학습 데이터에서 자주 붙어 다니는 글자 쌍을 반복 병합해서 어휘집을 만든다.
"hello world" → ["hello", " world"] → 2토큰 "워케이션" → ["워", "케이", "션"] → 3토큰
자주 등장하는 표현일수록 한 덩어리(1토큰)로 묶이고, 드문 표현은 잘게 쪼개진다. 영어 기준으로 1토큰은 대략 4글자, 0.75단어에 해당한다(Anthropic 공식 문서 기준). 내 문장이 몇 토큰인지는 OpenAI 토크나이저 페이지에 붙여 넣으면 바로 보인다.
한국어는 왜 더 비싼가
토크나이저의 어휘집이 영어 중심 데이터로 만들어졌기 때문이다. 영어 단어는 통째로 1~2토큰에 들어가지만, 한국어는 글자 단위로 쪼개지는 경우가 많다.
| 언어 | 대략적 토큰 효율 (2026년 6월 기준) |
|---|---|
| 영어 | 1단어 ≈ 1~2토큰 |
| 한국어 | 1글자 ≈ 1~2토큰, 같은 내용 기준 영어의 약 1.5~2.5배 |
| 비고 | 최신 토크나이저일수록 격차가 줄어드는 추세 |
CJK(한중일) 텍스트의 토큰 비효율은 실측 분석에서 영어 대비 2.36배까지 보고된 바 있고, 토크나이저 어휘집을 키운 최신 모델들에서는 격차가 좁혀지고 있다(관련 논문). 실무 감각으로는 "한국어 프롬프트는 영어의 두 배쯤 든다"로 잡으면 크게 어긋나지 않는다.
비용만의 문제가 아니다. 컨텍스트 한도(모델이 한 번에 볼 수 있는 양)도 토큰 단위라서, 같은 윈도우라도 한국어 문서는 영어의 절반 분량만 들어간다.
2026년 6월 주요 API 가격
요금은 입력 토큰과 출력 토큰에 각각 매겨진다. 100만(1M) 토큰당 달러 기준이고, 두 회사 공식 가격 페이지에서 2026년 6월 10일 확인한 값이다. 가격은 수시로 바뀌므로 결제 전 공식 페이지를 다시 보는 게 안전하다.
| 모델 | 입력 /1M | 출력 /1M |
|---|---|---|
| GPT-5.5 | $5.00 | $30.00 |
| GPT-5.4 | $2.50 | $15.00 |
| GPT-5.4-mini | $0.75 | $4.50 |
| Claude Opus 4.8 | $5.00 | $25.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| Claude Haiku 4.5 | $1.00 | $5.00 |
출처: OpenAI 가격 페이지 · Anthropic 가격 문서
눈에 띄는 패턴 두 가지. 출력이 입력보다 5~6배 비싸다(생성 비용이 크다). 그리고 같은 회사 안에서도 모델 등급에 따라 가격이 5~25배까지 갈린다. 간단한 분류 작업에 최상위 모델을 쓰는 건 택시로 택배를 보내는 셈이다.
캐싱과 배치: 같은 일을 싸게 하는 두 가지 장치
프롬프트 캐싱은 매번 똑같이 들어가는 앞부분(시스템 프롬프트, 참고 문서)을 서버에 잠시 저장해 두고 재사용하는 기능이다. 캐시에 맞은 입력은 두 회사 모두 표준가의 10% 수준, 즉 90% 할인이다.
급하지 않은 대량 작업이라면 배치(Batch) 처리도 있다. 24시간 안에 결과를 받는 조건으로 입력·출력 모두 50% 할인된다. 캐싱과 배치는 중첩 적용도 된다(Anthropic 캐싱 문서).
내 경우 블로그 파이프라인을 돌릴 때 변하지 않는 규칙 문서를 프롬프트 앞쪽에 고정하는 식으로 캐시 적중을 유도한다. 캐싱은 앞부분 일치(prefix) 기준이라, 매번 바뀌는 내용을 앞에 두면 적중이 깨진다. 구조만 바꿔도 청구액이 달라진다.
토큰 다이어트의 우선순위도 구조에서 나온다. 효과 순으로 보면 ①반복 주입되는 문서 줄이기(제일 크다) ②긴 자료는 통째 대신 필요한 부분만 ③출력 형식을 짧게 지정(출력이 더 비싸니까) ④그다음이 문장 다듬기다. 프롬프트 한두 문장 줄이는 건 체감상 마지막 순위였다.
자주 묻는 질문
Q. 챗봇 구독(월 요금제)도 토큰으로 과금되나?
구독은 정액이지만 내부적으로는 사용량 한도가 토큰 기준으로 걸려 있는 경우가 대부분이다. "이번 주 사용량 % 남음" 같은 표시가 바로 토큰 추적이다.
Q. 공백이나 줄바꿈도 토큰을 먹나?
먹는다. 전부 토큰으로 변환된다. 다만 의미 전달에 필요한 구조까지 줄여가며 아낄 정도는 아니다.
Q. 한국어로 쓰면 답 품질도 떨어지나?
이해는 한다. 비용과 컨텍스트 효율이 떨어질 뿐이다. 품질 차이는 토큰보다 학습 데이터 비중의 영향이 크고, 최신 대형 모델에서는 체감 차이가 많이 줄었다.
Q. 토큰 수를 미리 계산할 수 있나?
가능하다. OpenAI는 tiktoken 라이브러리, Anthropic은 토큰 카운팅 API를 무료로 제공한다.
Q. 프롬프트를 영어로 쓰면 돈이 덜 드나?
입력 토큰은 줄어든다. 다만 출력을 한국어로 받으면 출력 비용은 그대로라서, 전체 절감 폭은 생각보다 작다. 편의를 포기할 만큼은 아니라는 게 내 결론이다.
다음 편 예고
숫자 시퀀스가 된 텍스트는 트랜스포머라는 신경망으로 들어간다. 다음 편에서 그 내부의 핵심 장치인 어텐션을 비유로 푼다.
시리즈 1편 AI는 다음 단어 맞히기만 한다를 안 봤다면 먼저 읽는 걸 권한다.
AI 동작원리 시리즈: ① 다음 토큰 예측 · ② 토큰과 요금(이 글) · ③ 어텐션 · ④ 학습 3단계 · ⑤ 환각과 샘플링 · ⑥ 컨텍스트 윈도우 · ⑦ 하네스 API를 직접 쓸 일이 있다면 AI 반복 업무 자동화 가이드에 실전 패턴을 모아 뒀다. 가격·할인 정책은 변동이 잦으니 결제 전 공식 페이지 재확인을 권한다.
댓글
댓글 쓰기