ChatGPT는 왜 모르면서 아는 척할까 — AI 환각이 버그가 아니라 설계인 이유 (o3·o4-mini 환각율 비교)

AI가 그럴듯하게 틀린 답을 자신 있게 내뱉는 건 고장이 아니라 정상 출력이다. ChatGPT를 매일 쓰면서 "왜 모르면 모른다고 안 하지?"가 궁금한 사람, "모델이 커질수록 환각이 줄어든다"는 통념을 믿는 사람에게 유효하다. 이 글은 환각의 진짜 원인(확률 샘플링 + 평가 인센티브), "큰 모델이 더 환각한다"는 주장의 실체, 그리고 실전에서 AI 신뢰성을 끌어올리며 환각을 제어하는 법을 정리한다.

핵심 3줄 요약

질문	한 줄 답	근거
환각은 버그인가	"다음 토큰 확률 샘플링" 구조 + "찍기를 보상하는 평가"가 만든 예측 가능한 산물이다	arXiv 2509.04664
모델이 크면 환각이 주나	흔들렸다. o3는 33%, o4-mini는 48%로 옛 모델 o1(16%)보다 2~3배 높았다	TechCrunch, 2025-04-18
그럼 뭘 해야 하나	모델 크기 경쟁이 아니라 흐름 제어(근거 강제·검증 단계·도구 외부화)가 레버리지다	본문 참조

AI 환각이 뭔가? 왜 그럴듯하게 틀린 답을 자신 있게 말하나

환각(hallucination)은 모델이 사실이 아닌 내용을 사실인 것처럼 생성하는 현상이다. 핵심은 "자신 있게"다. 모델은 답을 데이터베이스에서 조회하는 게 아니라, 학습한 확률분포에서 가장 그럴듯한 다음 토큰을 뽑는다.

내가 정리한 LLM 동작원리 시리즈의 출발점이 이 한 줄이다. "LLM은 다음에 올 토큰을 확률로 예측하는 함수일 뿐"이다. 검색이 아니라 생성이라서, 입력이 같아도 출력이 매번 다를 수 있고, 같은 메커니즘에서 환각이 나온다.

그러니까 환각은 "어쩌다 회로가 타버린 오류"가 아니다. 함수가 설계대로 동작한 정상 출력 중 하나다. 사실인지 아닌지를 모델이 따로 판별하는 단계가 구조에 없을 뿐이다.

AI는 왜 모르는 걸 "모른다"고 안 하나

평가와 학습이 "모른다"보다 "그럴듯하게 찍기"를 더 높게 보상하기 때문이다. 이게 2025년 9월 OpenAI 연구진(Kalai, Nachum, Vempala, Zhang)의 논문 "Why Language Models Hallucinate"의 핵심 주장이다(arXiv 2509.04664, 2025-09-04).

비유는 시험장이다. 어려운 문제에서 학생이 빈칸으로 두면 0점, 찍으면 맞을 확률이 있다. 그러면 합리적인 학생은 찍는다. LLM도 똑같이 학습·평가됐다(OpenAI 블로그, 2025-09-05).

구체적으로, 논문은 널리 쓰이는 주요 벤치마크 다수가 "모른다(I don't know)" 응답에 점수를 주지 않는 이진 채점을 쓴다고 지적한다. 모르는 답을 틀린 답과 똑같이 취급하니, 모델은 기권보다 추측하도록 인센티브를 받는다(상세 수치는 arXiv 2509.04664 본문·부록 참조). 이 연구는 환각을 "트랜스포머의 결함"이 아니라 "학습 목표·평가 인센티브의 의도치 않은 결과"로 재정의했고, 2026년 들어 학계·산업계의 표준 설명 틀로 인용된다(OpenAI 블로그, 2025-09-05).

그래서 나는 환각을 "모델이 거짓말한다"는 도덕적 프레임으로 읽는 걸 경계한다. 모델은 우리가 설계한 시험을 정확히 잘 푼 것뿐이다. 채점표가 찍기를 보상하면 잘 찍는 모델이 나온다. 문제는 모델이 아니라 우리가 들이댄 평가자다.

모델이 클수록(똑똑할수록) 환각이 줄어드나, 늘어나나

표면적으로는 "더 커졌는데 더 환각하는" 사례가 확인됐다. 다만 단순히 "크면 더 거짓말한다"로 읽으면 오해다.

모델	출시순	환각율(PersonQA 기준)	출처
o1	구형	16%	TechCrunch, 2025-04-18
o3-mini	o1 이후	14.8%	〃
o3	신형	33%	〃
o4-mini	신형	48%	〃

수치는 2025년 4월 시점·PersonQA 벤치마크 기준이며 벤치마크·버전에 따라 달라진다. 최신값은 OpenAI 공식 문서에서 확인하는 게 안전하다. (서드파티 집계 블로그도 돌지만, 비공식 집계라 공식 문서 수치를 우선한다.)

원인은 아직 완전히 규명되지 않았다. OpenAI 본인도 기술 보고서에서 추론 모델 규모를 키울수록 환각이 왜 느는지 "더 많은 연구가 필요하다"고 밝혔다. 다만 "더 많은 주장을 하다 보니 정확한 주장도, 부정확한 주장도 함께 늘어난다"고 설명했다(TechCrunch, 2025-04-18).

즉 "큰 모델 = 더 거짓말"이 아니라, "주장 수가 많아지면 정답도 오답도 같이 증가한다"에 가깝다. 비영리 AI랩 Transluce는 o3가 "ChatGPT 밖 2021 맥북에서 코드를 돌렸다"며 하지도 않은 과정을 지어내는 걸 발견하기도 했다(TechCrunch, 2025-04-18). 여기서 짚을 점: 개인 블로그에서 도는 "특정 모델 94%" 같은 구체 수치는 단일 출처라 그대로 사실로 받아들이긴 어렵다. 원리(구조·인센티브)는 다출처로 검증됐지만, 모델별 정확한 숫자는 벤치마크 의존도가 크다.

이 대목이 내가 "모델 키우기 경쟁"에 회의적인 이유다. 더 크고 더 똑똑한 모델을 기다리면 환각이 알아서 줄어든다는 기대는 데이터가 배신했다. 파라미터를 늘려 풀 문제였다면 신형이 구형보다 나았어야 한다. 환각은 모델 안쪽의 스펙 싸움이 아니라, 모델을 어떻게 쓰고 무엇으로 채점하느냐의 바깥 문제다.

AI 환각을 없앨 수 있나? RAG·검색을 붙이면 해결되나

완전히 없애긴 어렵고, 크게 줄이는 건 가능하다. "박멸"이 아니라 "제어"가 현실적 목표다.

줄이는 레버는 크게 셋이다.

1. 평가·인센티브 재설계 — "모른다"에 점수를 주도록 채점을 바꾸면 환각을 크게 줄일 수 있다. OpenAI 논문도 이걸 제시했다(arXiv 2509.04664). 즉 "본질이라 못 고친다"가 아니라 "인센티브 문제라 고칠 여지가 있다"에 가깝다.

2. RAG·그라운딩 — 외부 사실(검색·DB)을 붙여 답의 근거를 강제한다. 다만 완전히 사라지진 않는다. 스탠퍼드 RegLab의 2024년 평가에서 RAG를 앞세운 상용 법률 리서치 툴(Lexis+ AI, Westlaw AI 등)조차 17~33% 구간에서 환각이 보고됐다(Magesh et al., Stanford RegLab, 2024).

3. 검증 단계·도구 외부화 — 모델이 직접 "기억"하지 말고, 계산은 계산기에, 사실은 검색·DB에 맡기고 출력 전 한 번 더 확인하는 루프를 건다.

여기서 트레이드오프를 짚어야 한다. 환각을 0으로 만들려고 모델을 과하게 "모른다"로 기권시키면 유용성이 급감한다. 아무것도 단정 안 하는 비서는 쓸모가 없다. 그래서 AI 신뢰성과 유용성 사이 균형이 본질이고, 목표는 환각 박멸이 아니라 제어다.

AI가 지어낸 답인지 어떻게 구분하나? 어떤 질문에서 조심해야 하나

내가 직접 정리한 환각 고위험 영역부터 외운다(LLM 동작원리 시리즈 메모). 아래 영역에서는 AI 출력을 일단 의심하고 교차 확인한다.

구체적 숫자·통계 — 인구, 가격, 비율, 연도. 그럴듯한 자릿수로 지어낸다.
인용·출처 — 논문 제목, 저자, 페이지. 존재하지 않는 레퍼런스를 만든다.
API 함수명·메서드 시그니처 — 그럴듯하지만 실제로 없는 함수.
URL·링크 — 형식은 맞지만 깨진 주소.
고유명사 + 세부사항 조합 — "누가 언제 무엇을 했다"의 디테일.

체크리스트로 쓰면 이렇다.

점검	신호	대응
숫자·인용·코드·URL이 답에 있나	환각 고위험	1차 출처로 직접 확인
"확실하다"는 톤인데 검증 수단이 없나	과신 신호	검색·문서로 교차 확인
같은 질문을 다시 물어도 답이 일관되나	매번 다르면 불확실	샘플링 변동으로 의심
도구(검색·DB·계산기)로 외부화 가능한가	의존 줄일 여지	모델 기억에 의존 금지

정리하면 이렇다. 환각은 고쳐야 할 버그가 아니라, "다음 토큰 확률 샘플링"이라는 구조(arXiv 2509.04664)와 "찍기를 보상하는 평가"가 만든 예측 가능한 산물이다. 그러니 모델 크기 경쟁이나 "AI 금지"로 풀 문제가 아니다. 신형 o3·o4-mini가 구형보다 환각율이 높았다는 수치(TechCrunch, 2025-04-18)가 그 증거다. 모델 자체는 내가 못 바꾸지만, 레버리지는 그것을 감싸는 하네스 레이어에 있다고 본다. 어떤 도구를 붙이고, 어떤 검증 루프를 걸고, 어떤 질문에서 사람이 개입하는지를 설계하는 것 — 환각은 모델 속성이 아니라 흐름 제어의 문제다. AI 신뢰성은 모델을 두려워하거나 더 큰 모델을 기다릴 때가 아니라, 이 흐름을 직접 설계할 때 올라간다.

FAQ

Q. AI(ChatGPT)는 왜 모르는 걸 모른다고 안 하고 거짓말을 하나?

거짓말이라기보다, "모른다"고 기권하는 것보다 그럴듯하게 찍는 걸 더 높게 보상하도록 학습·평가됐기 때문이다. 시험에서 빈칸 0점, 찍기엔 가능성이 있는 것과 같은 구조다(arXiv 2509.04664).

Q. 모델이 클수록 환각이 줄어드나, 늘어나나?

"크면 준다"는 통념은 흔들렸다. OpenAI 추론 모델은 신형(o3 33%, o4-mini 48%)이 구형(o1 16%)보다 환각율이 높았다. 단 정확도가 떨어졌다기보다 주장 수가 늘며 정·오답이 함께 증가한 결과일 수 있다(TechCrunch, 2025-04-18).

Q. o3, o4-mini가 옛날 모델보다 환각이 더 심하다는 게 사실인가?

2025년 4월 PersonQA 벤치마크 기준으로는 그렇게 보고됐다. 다만 벤치마크·버전에 따라 수치가 달라지므로 공식 문서에서 최신값 확인을 권한다.

Q. RAG나 검색을 붙이면 환각이 해결되나?

줄지만 사라지진 않는다. 외부 근거를 붙이는 RAG·그라운딩은 효과적이지만, 스탠퍼드 RegLab 평가에선 상용 법률 리서치 툴조차 17~33%대 환각이 보고됐다(Magesh et al., Stanford RegLab, 2024). "도구로 외부화하면 끝"이라는 낙관은 과하다.

Q. AI 환각은 버그인가, 구조적으로 어쩔 수 없는 건가?

트랜스포머의 결함이라기보다 사전학습의 통계적 오류와 평가 인센티브에서 비롯된 예측 가능한 산물이다(arXiv 2509.04664). "수학적으로 불가피"라는 표현도 돌지만, 인센티브 설계로 줄일 여지가 있다는 게 더 정확하다.

Q. AI 신뢰성을 높이려고 환각을 0으로 만들면 안 되나?

권하지 않는다. 환각을 0으로 누르려고 모델을 과하게 기권시키면 유용성이 급감한다. AI 신뢰성과 유용성은 트레이드오프라, 목표는 박멸이 아니라 제어다.

마무리

환각은 "다음 토큰 예측 함수"의 정상 출력이고, "찍기를 보상하는 평가"가 이를 키운다. "큰 모델이 더 환각한다"는 표면 뉴스의 진짜 교훈은 간단하다. 모델 크기 경쟁이 아니라 흐름 제어(근거 강제·검증 단계·도구 외부화)가 답이다. 의심할 영역을 외우고, 출력 전 검증 루프를 하나 걸고, 도구로 사실을 외부화하면 AI 신뢰성은 그만큼 올라간다.

공식 출처: OpenAI "Why Language Models Hallucinate" · arXiv 2509.04664 · Stanford RegLab 법률 AI 환각 평가. 수치·벤치마크는 모델 버전에 따라 변동하므로 공식 문서에서 최신 값을 확인할 것.

마와린세 패스 완전정리 — 이세시마 여행 [1/9]

5월 29, 2026

자세한 내용 보기

이 블로그 검색

잘난코 블로그