챗GPT는 왜 거짓말을 할까 — AI 환각의 원인과 에이전트(하네스) 구조

다양한 정보 처리를 수행하는 스마트 기기들

거대 AI 모델의 정보 탐색과 에이전트 도구 호출 연산을 묘사하는 모바일 디바이스 장비들 (AI로 생성)

2026년, 미국 법정에서 좀처럼 보기 힘든 액수의 벌금이 떨어졌다. 오리건의 한 연방 법원이 변호사 두 명에게 합쳐서 11만 달러(약 1억 5천만 원)를 물렸다. AI 환각으로 인한 제재로는 미국 법 역사상 최대 규모였다. 이들이 법원에 제출한 서면에는 존재하지도 않는 판례 15건과 통째로 지어낸 인용문 8개가 섞여 있었다. 담당 판사는 그 서면을 두고 "정도와 양 모두에서 악명 높은 이상치"라고 적었다(ABA Journal).

문제는 이게 부주의한 변호사 한 명의 해프닝이 아니라는 데 있다. 프랑스 HEC Paris의 연구원 다미앵 샤를로탱이 운영하는 AI 환각 판례 데이터베이스는, 법원이 "한쪽 당사자가 AI가 만들어낸 허위 내용에 의존했다"고 명시적으로 인정한 사건만 추려 모은다. 2026년 6월 기준 수록 건수는 1,600건을 넘겼고, 지금도 매일 몇 건씩 쌓이고 있다. 미국에서는 하루에만 17건의 판결이 AI 환각 의심을 언급한 날도 있었다.

비슷한 장면은 계속 반복된다. 오리건 대법원은 가짜 AI 인용이 담긴 청원을 아예 기각해 버렸고, 뉴욕주 법원 시스템은 2026년 6월 1일부터 AI로 작성한 서면을 겨냥한 모델 규칙(Part 161)을 새로 도입했다(National Law Review). 더 씁쓸한 사례도 있다. 어느 변호사는 초안에서 이미 가짜 인용이 발견됐는데도, AI에게 "그럼 그거 고쳐 줘"라고만 시키고는 다시 검토하지 않은 채 그대로 제출했다가 또 걸렸다.

웃어넘길 일이 아니다. 이건 사실 확인이 직업인 전문가들이, AI가 너무도 그럴듯하게 말하니까 그대로 믿어서 벌어진 일이다. 어제 당신이 챗GPT에게 물어본 그 통계, 그 식당 영업시간, 그 인용구도 정확히 같은 메커니즘에서 나왔다. 운이 나빴다면 법정 대신 당신의 보고서나 블로그 글에 같은 일이 일어났을 뿐이다.

그런데 AI는 대체 왜 이렇게 당당하게 틀릴까. 객관식 시험에서 모르는 문제가 나오면 어떻게 하나. 빈칸으로 내면 0점이지만 찍으면 4분의 1 확률로 맞는다. 그래서 다들 찍는다. AI도 정확히 그렇게 배웠다. "모르겠다"고 답하면 0점, 그럴듯하게 찍으면 가끔 점수. 시험을 잘 보도록 훈련된 모델일수록 찍기의 달인이 되고, 우리는 그 찍기를 "당당한 거짓말"로 마주하게 된다.

그러니까 AI의 환각(hallucination)은 버그가 아니다. 모델이 답을 만드는 메커니즘 그 자체의 부작용이라서, 똑똑한 모델일수록 더 그럴듯하게 틀린다. 이 글은 두 가지를 잇는다. 앞부분은 환각이 왜 생기고 어떤 답을 의심해야 하는지, 뒷부분은 텍스트만 뱉는 모델이 어떻게 파일을 고치고 검색까지 하는 에이전트가 되는지. (모델의 기본 동작 원리는 앞선 완전 가이드 — 다음 단어 예측·어텐션·학습에서 다뤘다.)

1. 답변 하나가 만들어지는 4단계

모델이 답을 생성하는 한 스텝은 이렇다.

1. 입력 토큰을 신경망에 통과

2. 어휘 전체에 대한 확률분포 산출 (예: P("서울")=0.92, P("부산")=0.03 ...)

3. 그 분포에서 토큰 하나를 추첨 (샘플링)

4. 뽑힌 토큰을 입력 끝에 붙이고 1번으로 반복

포인트는 3번이 추첨이라는 것. 가장 확률 높은 토큰만 고르는 게 아니라 분포에서 뽑는다. 그래서 같은 질문에도 답이 매번 달라진다. 고장이 아니라 설계다.

temperature(T)는 그 확률분포를 얼마나 뾰족하게 쓸지 정하는 파라미터다.

설정	동작	어울리는 일
T = 0	항상 최고 확률 토큰 선택	분류, 정답이 하나인 추출
T ≈ 0.7	적당한 다양성	일반 대화, 코딩
T ≥ 1.0	분포를 평탄하게, 과감한 추첨	브레인스토밍, 창작

비슷한 손잡이로 후보를 누적 확률 상위로 제한하는 top-p, 상위 k개로 자르는 top-k가 있다. 파라미터 정의는 Anthropic Messages API 레퍼런스에 있고, 모델·벤더에 따라 노출되는 파라미터는 다르다. 주의할 점 하나. T=0이라고 정확해지는 게 아니다. 결정론적이 될 뿐이고, 모델이 틀린 패턴을 갖고 있으면 같은 오답을 매번 일관되게 반복한다.

2. 환각은 같은 기계에서 나온다

모델은 사실을 조회하지 않는다. 그럴듯한 다음 토큰을 생성할 뿐이다. 학습 데이터에 많이 나온 패턴은 정확히 재현하지만, 드물거나 없는 사실 앞에서도 생성은 멈추지 않는다. 빈칸을 가장 그럴듯한 것으로 채워 버린다.

2025년 OpenAI가 낸 논문 "Why Language Models Hallucinate"는 여기에 구조적 이유를 하나 더 얹었다. 표준적인 학습과 평가 방식이 "모르겠다"보다 자신 있는 추측에 점수를 준다는 것. 생일을 찍으면 365분의 1로 맞지만 모른다고 하면 0점이니, 시험 잘 보는 모델일수록 찍기에 능해진다. 환각이 능력 부족이 아니라 채점 방식의 산물이기도 하다는 얘기다.

경험상 환각의 빈출 지대는 명확하다. 구체적인 숫자, 인용문, 논문 제목, API 함수명, URL. 전부 "그럴듯한 가짜를 만들기 쉬운" 형식이다. 직접 겪은 사례 하나. 여행 글 초안을 AI에게 맡겼더니 실존하는 식당 이름에 그럴듯한 영업시간과 가격을 붙여 놨는데, 공식 페이지를 열어 보니 절반이 달랐다. 식당이 존재하니 더 속기 쉬웠다. 진짜 절반과 가짜 절반이 한 문단에 섞여 나오는 것, 이게 환각의 가장 흔한 얼굴이다.

블로그에 가격과 링크가 들어간 글을 매주 발행하다 보니, 환각 검증이 루틴이 됐다. 2026년 6월 기준 내 기준은 이렇다.

검증을 외부화한다. 사실 확인이 필요한 글은 AI에게 웹 검색을 시키고 출처 URL까지 받아서, 그 페이지를 직접 연다. 이 글의 가격·논문 링크도 전부 그렇게 확인했다.
형식이 구체적일수록 의심한다. 멀쩡해 보이는 URL과 논문 제목이 제일 위험하다. 존재 확인 전에는 인용하지 않는다.
모르는 게 정상인 질문을 던져 본다. 마이너한 주제에 출처 없이 매끈한 답이 나오면 경계 신호다.
길다고 믿지 않는다. 생성이 길어질수록 누적 오류 확률은 오히려 올라간다. 신뢰도와 분량은 무관하다.

3. 도구 호출의 실체는 '약속된 형식의 텍스트'

AI 모델은 텍스트를 입력받아 텍스트를 출력한다. 그게 전부다. 그런데 AI 에이전트는 파일을 읽고, 명령어를 실행하고, 웹을 검색한다. 이 간극을 메우는 소프트웨어 층이 하네스(harness)다. 모델이 파일을 읽는 과정을 분해하면 이렇다.

1. 하네스가 시스템 프롬프트에 도구 목록을 적어 준다 ("너는 Read(파일경로), Bash(명령어) 도구를 쓸 수 있다")

2. 모델 출력: `Read(file="notes/2026-06-10.md")` ← 그냥 텍스트다

3. 하네스가 그 텍스트를 파싱해서 실제로 파일을 읽는다

4. 읽은 내용을 다음 호출의 입력에 끼워 넣는다

5. 모델이 그 내용을 보고 다음 행동을 정한다 → 2번으로 반복

모델은 단 한 순간도 파일 시스템을 만지지 않는다. 도구를 부르고 싶다는 의사를 약속된 형식의 텍스트로 표현할 뿐이고, 실행은 전부 하네스가 한다. 데이터베이스 비유로 하면 모델은 쿼리문을 작성하는 쪽이고, 실행하고 결과를 가져오는 쪽은 하네스다.

위 과정의 2~5번 반복을 에이전트 루프(agentic loop)라고 부른다. 목표를 주면 모델이 도구 호출과 결과 확인을 거듭하며 스스로 일을 진행하는 것처럼 보이는 이유가 이 루프의 전부다. Anthropic의 Building effective agents 가이드는 유용한 구분을 한다. 미리 짠 코드 경로대로 모델을 부르는 건 워크플로우(workflow), 모델이 스스로 다음 도구와 순서를 정하는 게 에이전트(agent)다. 에이전트의 강점은 매 단계 도구 실행 결과라는 현실 피드백을 받아 경로를 수정한다는 데 있다.

내 블로그 파이프라인이 좋은 예다. "초안을 변환해서 발행 준비를 해 줘"라고 하면, 에이전트는 파일을 읽고, 변환 스크립트를 돌리고, 에러가 나면 메시지를 읽고 고쳐서 재시도한다. 각 단계는 평범한 도구 호출이지만 루프가 이어지니 일 맡길 만한 동료처럼 움직인다.

부품	역할
시스템 프롬프트	모델의 정체성, 규칙, 사용 가능한 도구 목록
도구(Tools)	파일 읽기/쓰기, 셸 명령, 웹 검색 등 실행 가능한 함수
MCP 서버	외부 서비스(노션, DB, 지도 등)를 표준 규격의 도구로 연결
메모리	매 호출 컨텍스트에 주입되는 영속 정보
권한 관리	어떤 도구를 자동 허용하고 어떤 건 사람 승인을 받나
세션 관리	대화가 길어지면 요약·압축으로 컨텍스트를 관리

같은 모델이라도 하네스가 다르면 전혀 다른 도구가 된다. 챗봇과 코딩 에이전트의 차이는 모델 차이가 아니라 대부분 이 레이어 차이다. MCP는 외부 연결의 표준 규격인데, 공식 사이트의 비유를 빌리면 "AI계의 USB-C 포트"다.

4. 하네스가 무너지는 지점들

에이전트를 몇 달 굴리면 실패도 패턴으로 보인다. 대부분 모델보다 하네스 설계의 문제다.

도구 호출 형식 오류. 모델이 약속된 형식을 살짝 어겨 파싱이 실패하는 경우. 좋은 하네스는 오류 메시지를 모델에게 돌려줘 재시도하게 만든다.
루프 폭주. 같은 실패를 반복하며 토큰만 태우는 상황이라 횟수 제한과 중단 조건이 필수다.
권한 사고. 파일 삭제나 외부 발행처럼 되돌리기 어려운 도구는 사람 승인을 끼워 넣는 게 정석이다. 나도 블로그 공개 발행만큼은 자동화에서 빼서 수동 확인으로 남겨 뒀다.

이 안전장치들 자체가 하네스의 일부다. 에이전트 신뢰성이라는 말의 실체는 결국 이 레이어가 얼마나 촘촘하냐는 얘기다.

5. 레버리지는 모델이 아니라 하네스에 있다

모델의 가중치는 사용자가 못 바꾼다. 바꿀 수 있는 건 하네스 쪽 전부다. 어떤 도구를 붙이고, 어떤 규칙 문서를 주입하고, 어떤 작업을 루프에 맡길지. 2026년 들어 모델 발표마다 "에이전트 신뢰성"(도구 호출 정확도, 다단계 계획, 오류 복구)이 핵심 지표로 등장하는 것도 같은 흐름이다. 모델 지능의 격차가 줄어들수록 그 지능을 어떤 환경에 앉히느냐가 결과를 가른다. 개인 사용자 차원에서도, 새 모델을 쫓는 시간보다 규칙 문서와 자동화 스크립트를 다듬는 시간이 생산성에 더 크게 돌아온다는 걸 반복해서 확인했다.

용어가 난립하는 시기라 정의를 박아 둔다. 모델은 텍스트를 받아 텍스트를 내는 확률 함수. 하네스는 그 함수를 도구·메모리·권한으로 감싼 런타임. 에이전트는 하네스 위에서 루프를 도는 모델, 즉 "모델 + 하네스 + 반복"의 합이다.

자주 묻는 질문

Q. 환각은 언젠가 완전히 사라지나?

생성 메커니즘에 내재한 성질이라 0이 되긴 어렵다는 게 중론이다. 대신 검색·계산기·DB 같은 도구로 사실 확인을 외부화하는 방향으로 실용적 해결이 진행 중이다.

Q. 유료(상위) 모델은 환각이 없나?

적을 뿐 없지 않다. 상위 모델일수록 환각 빈도는 줄지만 문장은 더 그럴듯해져서, 남은 오류를 잡기는 오히려 어려워진다.

Q. AI에게 "확실해?"라고 물으면 효과 있나?

재검토 효과가 있을 때도 있지만 보장이 없다. 자기 답을 다시 그럴듯하게 옹호하는 경우도 흔하다. 외부 출처 확인이 정공법이다.

Q. 챗봇이 "최신 정보를 확인했다"며 틀린 답을 준다.

검색 결과를 읽고도 잘못 요약하는 경우다. 도구가 붙어도 마지막 합성은 생성이라서, 중요한 결정엔 원문 링크를 직접 여는 습관이 필요하다.

Q. 모델과 에이전트는 뭐가 다른가?

모델은 텍스트 함수 하나고, 에이전트는 그 모델을 하네스로 감싸 도구를 쓰며 루프를 도는 것이다. 같은 GPT·Claude라도 챗봇으로 쓰느냐 코딩 에이전트로 쓰느냐는 하네스가 가른다.

Q. 개인이 AI를 더 잘 쓰려면 어디에 투자해야 하나?

모델 선택보다 하네스다. 규칙 문서(시스템 프롬프트), 검증 루틴, 자동화 스크립트를 다듬는 쪽이 체감 생산성에 더 크게 돌아온다.

이 그림이 머리에 있으면 새 AI 제품이 나와도 "모델이 좋아진 건가, 하네스가 좋아진 건가"부터 가려 볼 수 있게 된다. 도구 선택의 소음에 덜 흔들리는 데 이만한 백신이 없다. 내용은 2026년 6월 기준이며, 인용한 공식 가이드와 문서를 따라가면 더 깊은 층이 나온다.

마와린세 패스 완전정리 — 이세시마 여행 [1/9]

5월 29, 2026

자세한 내용 보기

이 블로그 검색

잘난코 블로그