Claude Fable 5 실사용기 — 사흘간 자동화·자가발전 루프를 직접 돌려본 기록

Claude의 5세대 모델 Fable 5를 기본 모델로 걸어 두고 사흘(2026년 6월 10~12일) 동안 실제 업무·블로그·자동화에 굴렸다. 그리고 얼마 뒤 이 모델은 외부 접근이 차단(suspended)됐다. 차단되기 전 사흘이 마침 집중 사용 구간이라, 세션 로그를 다시 집계해 실사용기로 복기했다. 사흘에 응답 4,778개·출력 토큰 645만·도구 호출 2,261회가 찍혔으니 "조금 써 본" 게 아니라 한 번 갈아 넣은 기록이다.

벤치마크·가격·구독 함정 같은 스펙 정리는 앞서 쓴 Claude Fable 5 총정리에서 다뤘다. 이 글은 그 다음 단계 — "내 워크플로에 깔고 사흘 돌렸더니 실제로 쓸 만했나", 특히 사람들이 가장 궁금해하는 자가수정 루프와 밤샘 자가발전이 정말 작동했나를 구체적인 숫자와 다른 사용자들의 반응까지 묶어 답한다.

사흘간 무슨 일을 시켰나?

응답은 6월 10~12일 사흘에 거의 균등하게 분포했다. 핵심 수치와 도구 사용 분포는 아래와 같다.

지표	수치
사용 기간	3일 (2026-06-10~12)
모델 응답 수	4,778개
출력 토큰	약 645만
캐시 읽기 토큰	약 13.3억
총 도구 호출	2,261회

도구	호출 수	비중
Bash (터미널 실행)	1,325	약 58%
Edit (파일 수정)	218	약 10%
WebFetch · WebSearch	208	약 9%
Read (파일 읽기)	186	약 8%
Write (파일 생성)	64	약 3%

도구의 절반 이상이 Bash다. "질문에 답하는 챗봇"이 아니라 터미널을 직접 두드려 작업을 끝내는 에이전트로 썼다는 뜻이다. 이렇게 텍스트만 뱉던 모델이 어떻게 파일을 고치고 명령을 실행하는지는 챗GPT·Claude 작동 원리 글로 정리해 뒀다. 실제로 시킨 일은 블로그 자동화(가장 큰 비중), 코드·버그 작업, 기술 검토 보고서 세 갈래였다.

자가수정 루프는 실제로 쓸 만했나?

결론부터: 백그라운드로 던져두고 잊어버려도 됐다. 이게 이번 모델의 가장 큰 실사용 가치였다.

사흘 로그에 예약 깨우기(스스로 시간을 잡아 다시 깨어남) 10회, 크론 등록, 백그라운드 감시가 찍혀 있다. 대표 장면 하나. 다른 채널에 글 15편을 미러 발행하면서, 한 건이 끝날 때마다 모델이 스스로 깨어나 "1편 완료, 2편 완료…"를 점검하고 실패를 잡아냈다. 내가 진행 상황을 묻지 않아도 루프가 알아서 돌았다.

예전 모델이 한 작업을 끝내고 멈췄다면, 이번엔 작업을 잘게 쪼개고 → 스스로 일정을 잡고 → 끝날 때까지 되돌아오는 흐름이 자연스러웠다. 한 세션은 응답이 960개까지 늘었는데 그 긴 사슬에서도 맥락이 크게 무너지지 않았다. 캐시 읽기 토큰이 13억을 넘긴 것도 같은 맥락 — 긴 컨텍스트를 계속 다시 참조하며 루프를 유지했다.

실제로 끝낸 것들 — 한 문장 지시의 레버리지

추상적인 "자율성"이 실무에서 어떤 차이를 만드는지, 사흘간 실제로 일어난 장면 네 개를 공개한다. 전부 개인 블로그 운영 작업이다.

① 한 번의 지시 → 26편 발행. "발행 대기 글을 점검하고 채워 달라"는 지시 하나로, 모델이 소재를 모아 시리즈 4개·13편을 새로 집필하고, 사실 보강을 위해 리서치 에이전트 5개를 병렬로 띄워 팩트를 주입한 뒤, 리뷰 패스를 거쳐 26편을 발행했다(라이브 누계 457→483편). 내가 한 건 방향 제시와 중간 피드백뿐이었다. 글 한 편이 점수 29.7 → 85.0으로 올라 발행 기준을 통과하는 식의 개선이 줄줄이 일어났다.

② 자는 동안 22편이 개선됐다. 6월 11일 밤부터 12일 새벽까지 블로그 품질 루프를 143 사이클 자율 운행했다. 세그먼트 10개를 예약 깨우기 20~50분 간격으로 띄워 토큰을 분산했고, 아침에 확인하니 라이브 글 22편이 표·도식 보강으로 갱신돼 있었다(타임스탬프가 23:46·04:15 등 새벽으로 찍혀 있었다). "밤새 돈다"가 말뿐이 아니었다.

③ 자기 실수를 스스로 잡았다. 구글 포토 사진 148장을 글에 자동 삽입하는 작업에서, 일부가 엉뚱하게 매칭됐다(제주 밭담 사진이 일본 노토로). 모델은 원인을 스스로 진단했다 — "검색어로 받아온 사진들이라 시각적으로 비슷한 내 사진이 오매칭됐다"는 것. 측정 작업 중 멈춰 세운 프로세스가 좀비로 남아 서로 충돌하던 것도 스스로 찾아내 Playwright 헤드리스 방식으로 갈아탔다.

④ 무거운 일은 다른 AI에 떠넘겼다. 토큰을 아끼려고, 시간이 오래 걸리는 측정·수집은 Codex·Gemini(agy) 같은 다른 CLI에 위임하고 결과만 받았다. 그렇게 아고다 예약 CID 8개를 실측한 결과 "기본·카카오페이·네이버페이 표시가는 동일(₩51,522)인데 카드사 제휴 CID는 오히려 더 비싸다"는 데이터를 건졌고, 그대로 글 한 편이 됐다. 메인 모델이 오케스트라 지휘자처럼 다른 도구를 부리는 구조가 자연스러웠다.

자가발전(밤샘 자기학습)은 어떻게 돌렸고, 결과는?

가장 궁금해할 부분이라 구체적으로 적는다. 붙인 도구는 SkillOpt-Sleep(Microsoft SkillOpt의 로컬 에이전트 통합)이다. 원리는 모델 가중치를 건드리는 게 아니라, 스킬 문서(자연어 규칙)를 학습 루프로 다듬는 방식이다. 한 사이클의 흐름은 이렇다.

수확 — 지난 세션 로그를 긁어 반복 작업을 찾는다.
재생(replay) — 그 작업을 현재 규칙으로 오프라인에서 다시 풀어 본다.
채점·게이트 — held-out 점수가 기준을 넘는 개선안만 통과(accept)시킨다.
채택(adopt) — 통과한 규칙만 실제 스킬 파일에 반영한다.

실제로 사흘에 걸쳐 세 번(Night 1~3) 돌렸고, 결과는 이렇게 갈렸다.

회차	결과	토큰
Night 1	기각 — 제안 4건이 테스트에 과적합된 규칙이라 게이트가 걸러냄 (0.111→0.111)	7,592
Night 2	0세션 — "새 세션만 본다"는 증분 함정에 걸려 수확 0	≈0
Night 3	게이트 통과 — held-out 0.120→0.578 (4.8배), 48세션→16작업 재생, 규칙 2건 채택·라이브 반영	19,618

핵심은 게이트가 제 역할을 했다는 점이다. Night 1은 그럴듯하지만 과적합된 규칙을 스스로 걸러 기각했고, Night 3에 와서야 점수가 4.8배 뛴 개선안만 통과시켜 스킬 파일에 반영했다. "AI가 밤새 스스로 똑똑해진다"가 마케팅 문구가 아니라 점수와 게이트로 검증되는 실제 절차로 돌아간 것이다.

한 가지 솔직한 메모. 처음엔 이 루프를 Claude 백엔드로 돌리려 했는데, 6월 중순 크레딧 정책 변경과 호환 문제가 겹쳐 백엔드를 codex(GPT 계열)로 바꿔 무료 쿼터에서 돌렸다. 즉 자가발전 자체는 작동했지만, "어떤 모델로, 얼마의 비용으로" 돌릴지는 별도 설계가 필요했다.

밤샘 루프를 받치는 두 장치

위 ②번 같은 밤샘 운행이 가능했던 건, "끝까지 도는 모델"에 두 가지 장치를 얹었기 때문이다.

예약 깨우기(분산). 한 번에 몰아 돌리면 토큰이 폭주하고 과부하 가드에 걸린다. 그래서 작업을 세그먼트로 끊고 사이를 예약 깨우기로 띄웠다 — "지금 2~3편 처리 → 잠시 대기 → 다시 깨어나 다음 묶음". 자는 동안 토큰이 한 번에 쏟아지지 않게 분산하는 안전장치다.

규칙 축적 파일(기억). 글을 검토하며 발견한 규칙을 파일에 쌓고, 다음 사이클 시작 때 자동으로 다시 불러온다. 그래서 사이클이 거듭될수록 같은 실수를 덜 하게 된다. 이 구조로 누적 472편 중 179편을 점검했고, "발행 전 같은 제목 검색", "내부 링크 URL 실제 확인" 같은 실수에서 나온 규칙 26개가 쌓였다.

나만 그렇게 느꼈나? — 해외 사용자 반응

내 체감이 특이한 건 아닌지, Hacker News의 Fable 5 토론을 같이 봤다. 평가가 내 사용기와 꽤 겹쳤다.

계획·자율성은 호평. 한 사용자는 "Fable은 Opus 대비 계획(planning)에서 큰 향상이었다"고 했고, 다른 사용자는 "워커홀릭처럼 그냥 일하러 갔다(went to work like a workaholic). 벌써 (목록에서) 내려가서 아쉽다"고 했다. 내가 느낀 "던져두면 끝까지 돈다"와 정확히 같은 지점이다. "새 모델들이 좋아지는 건 코드 생성이 아니라 계획 레이어이고, 그게 시니어 개발자의 영역"이라는 코멘트도 공감을 모았다.

코딩 실행 품질은 박했다. 토론 제목부터 "코딩 작업에선 mid-tier(중간 수준)", "GPT-5.5 대비 계획은 낫고 실행은 비슷"이었다. 한 사용자는 "버그 진단엔 좋은데 정작 고치는 건 부실하다", 또 다른 사용자는 "하루 종일 쓰다 보니 점점 나빠져서 결국 Opus로 되돌렸다"고 했다. 새 모델을 메인 코딩 도구로 곧장 갈아타기엔 일렀다는 뉘앙스다.

그리고 곧 "Mythos 5와 Fable 5 접근을 일시 중단했다"는 공지가 올라왔다. 내 사흘이 공교롭게 그 직전 집중 사용 구간이었던 셈이다.

체감 성능 — 강점과 한계는?

구분	내용
강점 1	계획·다단계 루프에서 맥락 유지가 좋다. 960응답 세션도 버텼다. (해외 반응과 일치)
강점 2	스스로 일정 잡고(예약·크론) 백그라운드로 끝까지 도는 자율성.
강점 3	자가발전 루프가 게이트 검증까지 실제로 작동했다(0.120→0.578).
강점 4	무거운 작업을 다른 AI(Codex·Gemini)에 위임하고 결과만 받는 오케스트레이션이 자연스러웠다.
자기 보정	사진 오매칭·좀비 프로세스 같은 자기 실수를 스스로 진단하고 고쳤다.
한계 1	코딩 "실행" 품질은 평범. 진단은 좋아도 수정은 들쭉날쭉이라는 평이 많았다.
한계 2	자율성이 높은 만큼 토큰을 많이 먹는다. 긴 루프엔 재시도·중복도 늘었다.

그래서 비용은 얼마나 드나?

Fable 5 사용 중 터미널 statusline — 토큰 사용량과 누적 비용 표시

▲ 작업 중 터미널 statusline. 모델명(Fable 5)·토큰 사용량(1000k 중 63%)·누적 비용($147.38)이 한 줄에 찍힌다. 비용을 실시간으로 보게 되니 "매일 돌릴 수 있나"를 계속 따지게 됐다.

가장 현실적인 결론이다. 사흘에 출력 토큰 645만, 캐시 읽기 13.3억은 "가볍게 굴린" 수치가 아니다. 자율성과 루프가 좋아질수록 토큰 소모도 같이 커진다. 자가발전 루프를 Claude 대신 무료 쿼터(codex)로 옮긴 것도 결국 비용 때문이었다. 비슷한 시기에 가성비를 계산해 본 구글 AI 플러스 요금 인하 글과 같은 고민이다 — 새 모델은 벤치 점수만큼이나 "내 워크플로에서 토큰을 얼마나 먹나"를 같이 봐야 한다.

FAQ

Q. Fable 5는 자가수정 루프가 정말 좋아졌나?
체감상 그렇다. 예약 깨우기·크론·백그라운드 감시를 스스로 걸고 끝까지 도는 흐름이 자연스러웠다. 해외 사용자들도 "계획(planning)이 크게 늘었다"는 평이 많았다.

Q. 밤샘 자가발전은 실제로 작동했나?
작동했다. 3번 돌려 1번(Night 3)은 점수가 0.120→0.578로 뛴 개선 규칙 2건이 게이트를 통과해 스킬에 반영됐다. 나머지는 게이트가 과적합 규칙을 걸러 기각했다 — 즉 검증이 살아 있었다는 뜻이다.

Q. 밤샘은 어떻게 돌리나?
작업을 세그먼트로 끊고 사이를 예약 깨우기로 띄워 토큰을 분산했다. 여기에 규칙을 파일로 축적해 다음 사이클이 자동으로 불러오게 했다. 블로그 품질 루프는 이 구조로 100사이클을 완주했다.

Q. 코딩은 잘하나?
"실행"은 평범했다. 해외 토론에서도 "버그 진단은 좋은데 수정은 부실", "하루 쓰다 Opus로 되돌렸다"는 평이 있었다. 계획은 강하지만 메인 코딩 모델로 곧장 갈아타기엔 일렀다.

Q. 토큰은 얼마나 먹나?
사흘 실사용 기준 출력 약 645만, 캐시 읽기 약 13.3억. 자율성이 높은 만큼 소모도 크다. 비용 모니터링은 필수다.

마무리

루프·계획·자율성: 한 단계 올라왔다. 던져두고 잊어도 끝까지 돌았고, 이는 해외 반응과도 일치했다.
자가발전: 게이트 검증까지 실제로 작동했다(0.120→0.578). 발목을 잡은 건 성능이 아니라 비용이었다.
한계: 코딩 실행은 평범, 토큰은 많이 먹는다. 평가 기준에 토큰 효율을 꼭 넣자.

이어서 읽기:

스펙·가격·구독 함정 정리 → Claude Fable 5 총정리
이 글에 나온 블로그 자동화 파이프라인 → Claude Code로 개인 블로그를 자동화한 실전기
모델이 파일을 고치고 검색하는 원리 → 챗GPT·Claude는 어떻게 작동하나

이 글은 실제 세션 로그(응답 수·토큰·도구 호출)와 자가발전 사이클 기록을 다시 집계해 복기한 개인 사용기다(2026년 6월 기준). 해외 사용자 반응은 Hacker News의 공개 토론에서 인용했다. 수치는 개인 사용 환경 기준이며, 모델 버전·요금 정책·접근 가능 여부는 시점에 따라 달라질 수 있다.

마와린세 패스 완전정리 — 이세시마 여행 [1/9]

5월 29, 2026

자세한 내용 보기

이 블로그 검색

잘난코 블로그