AI는 모른다는 말을 못 한다 — 챗GPT가 당당하게 거짓말하는 진짜 이유

6월 10, 2026

객관식 시험에서 모르는 문제가 나오면 어떻게 하나. 빈칸으로 내면 0점이지만 찍으면 4분의 1 확률로 맞는다. 그래서 다들 찍는다. AI도 정확히 그렇게 배웠다. "모르겠다"고 답하면 0점, 그럴듯하게 찍으면 가끔 점수. 시험을 잘 보도록 훈련된 모델일수록 찍기의 달인이 되고, 우리는 그 찍기를 "당당한 거짓말"로 마주하게 된다.

그러니까 AI의 환각(hallucination)은 버그가 아니다. 모델이 답을 만드는 메커니즘 그 자체의 부작용이라서, 똑똑한 모델일수록 더 그럴듯하게 틀린다. 같은 질문에 답이 매번 달라지는 것도 같은 뿌리에서 나온다.

원리를 알면 어떤 답을 의심해야 하는지가 보인다. 환각이 발생하는 구조, 무작위성을 조절하는 temperature, 그리고 내가 블로그 팩트체크에 쓰는 실전 대응까지 다룬다. AI 동작원리 시리즈 5편이다.

답변 하나가 만들어지는 4단계

환각 발생 구조 도식 — 환각이 버그가 아니라 생성 메커니즘의 부작용인 이유 4가지

모델이 답을 생성하는 한 스텝은 이렇다.

1. 입력 토큰을 신경망에 통과
2. 어휘 전체에 대한 확률분포 산출  ex) P("서울")=0.92, P("부산")=0.03 ...
3. 그 분포에서 토큰 하나를 추첨 (샘플링)
4. 뽑힌 토큰을 입력 끝에 붙이고 1번으로 (반복)

포인트는 3번이 추첨이라는 것. 가장 확률 높은 토큰만 고르는 게 아니라 분포에서 뽑는다. 그래서 같은 질문에도 답이 매번 달라진다. 고장이 아니라 설계다.

temperature: 추첨의 과감함을 조절하는 손잡이

temperature(T)는 그 확률분포를 얼마나 뾰족하게 쓸지 정하는 파라미터다.

설정	동작	어울리는 일
T = 0	항상 최고 확률 토큰 선택	분류, 정답이 하나인 추출
T ≈ 0.7	적당한 다양성	일반 대화, 코딩
T ≥ 1.0	분포를 평탄하게, 과감한 추첨	브레인스토밍, 창작

비슷한 손잡이로 후보를 누적 확률 상위로 제한하는 top-p, 상위 k개로 자르는 top-k가 있다. API 문서 기준의 정의는 Anthropic Messages API 레퍼런스에 있고, 모델·벤더에 따라 노출되는 파라미터는 다르다(최신 모델 중에는 이 손잡이를 아예 제거한 경우도 있다).

주의할 점 하나. T=0이라고 정확해지는 게 아니다. 결정론적이 될 뿐이고, 모델이 틀린 패턴을 갖고 있으면 같은 오답을 매번 일관되게 반복한다.

환각은 같은 기계에서 나온다

모델은 사실을 조회하지 않는다. 그럴듯한 다음 토큰을 생성할 뿐이다. 학습 데이터에 많이 나온 패턴은 정확히 재현하지만, 드물거나 없는 사실 앞에서도 생성은 멈추지 않는다. 빈칸을 가장 그럴듯한 것으로 채워 버린다.

2025년 OpenAI가 낸 논문 "Why Language Models Hallucinate"는 여기에 구조적 이유를 하나 더 얹었다. 표준적인 학습과 평가 방식이 "모르겠다"보다 자신 있는 추측에 점수를 준다는 것. 생일을 찍으면 365분의 1로 맞지만 모른다고 하면 0점이니, 시험 잘 보는 모델일수록 찍기에 능해진다. 환각이 능력 부족이 아니라 채점 방식의 산물이기도 하다는 얘기다.

경험상 환각의 빈출 지대는 명확하다. 구체적인 숫자, 인용문, 논문 제목, API 함수명, URL. 전부 "그럴듯한 가짜를 만들기 쉬운" 형식이다.

직접 겪은 사례 하나. 여행 글 초안을 AI에게 맡겼더니 실존하는 식당 이름에 그럴듯한 영업시간과 가격을 붙여 놨는데, 공식 페이지를 열어 보니 절반이 달랐다. 식당이 존재하니 더 속기 쉬웠다. 진짜 절반과 가짜 절반이 한 문단에 섞여 나오는 것, 이게 환각의 가장 흔한 얼굴이다.

내가 쓰는 실전 대응 네 가지

블로그에 가격과 링크가 들어간 글을 매주 발행하다 보니, 환각 검증이 루틴이 됐다. 2026년 6월 기준 내 기준은 이렇다.

검증을 외부화한다. 사실 확인이 필요한 글은 AI에게 웹 검색을 시키고 출처 URL까지 받아서, 그 페이지를 직접 연다. 이 글의 가격·논문 링크도 전부 그렇게 확인했다.

형식이 구체적일수록 의심한다. 멀쩡해 보이는 URL과 논문 제목이 제일 위험하다. 존재 확인 전에는 인용하지 않는다.

모르는 게 정상인 질문을 던져 본다. 마이너한 주제를 물었을 때 출처 없이 매끈한 답이 나오면 경계 신호다. 답이 매번 갈리는 질문도 모델이 확신하지 못한다는 표시로 읽는다.

길다고 믿지 않는다. 생성이 길어질수록 누적 오류 확률은 오히려 올라간다. 신뢰도와 분량은 무관하다.

자주 묻는 질문

Q. 환각은 언젠가 완전히 사라지나?

생성 메커니즘에 내재한 성질이라 0이 되긴 어렵다는 게 중론이다. 대신 검색·계산기·DB 같은 도구로 사실 확인을 외부화하는 방향으로 실용적 해결이 진행 중이다.

Q. 유료 모델은 환각이 없나?

적을 뿐 없지 않다. 상위 모델일수록 환각의 빈도는 줄지만 문장은 더 그럴듯해져서, 남은 오류를 잡기는 오히려 어려워진다.

Q. AI에게 "확실해?"라고 물으면 효과 있나?

재검토 효과가 있을 때도 있지만 보장이 없다. 자기 답을 다시 그럴듯하게 옹호하는 경우도 흔하다. 외부 출처 확인이 정공법이다.

Q. temperature를 0으로 두면 업무용으로 안전한가?

일관성은 얻지만 정확성은 별개다. 형식이 고정된 추출·분류엔 좋고, 사실성 보장 장치는 아니다.

Q. 챗봇이 "최신 정보를 확인했다"며 틀린 답을 준다.

검색 결과를 읽고도 잘못 요약하는 경우다. 도구가 붙어도 마지막 합성은 생성이라서, 중요한 결정엔 원문 링크를 직접 여는 습관이 필요하다.

다음 편 예고

모델은 매 호출 백지에서 시작한다고 했다. 그런데 대화는 어떻게 이어질까. 다음 편에서 컨텍스트 윈도우와 stateless 트릭, "AI의 기억"의 진짜 정체를 다룬다.

AI 동작원리 시리즈: ① 다음 토큰 예측 · ② 토큰과 요금 · ③ 어텐션 · ④ 학습 3단계 · ⑤ 환각과 샘플링(이 글) · ⑥ 컨텍스트 윈도우 · ⑦ 하네스 AI 출력의 품질을 끌어올리는 입력 설계는 프롬프트 엔지니어링 실전 패턴에 모아 뒀다. 내용은 2026년 6월 기준이다.

이 블로그 검색

잘난코 여행·맛집 가이드