AI 에이전트에게 일을 맡길 때 지켜야 할 6가지 감독 원칙

AI 에이전트에게 일을 맡길 때 가장 중요한 것은 더 많이 시키는 것이 아니라, 사람이 계속 이해하고 검수할 수 있는 상태를 유지하는 것이다. 기준 없이 맡기면 속도는 빨라져도 결과를 믿기 어렵다.
AI 코딩 도구와 에이전트형 도구를 쓰다 보면 금방 유혹이 생긴다. "전체를 알아서 고쳐줘", "관련 자료를 전부 읽고 정리해줘", "끝날 때까지 계속 진행해줘"처럼 말하고 싶어진다.
실제로 에이전트는 긴 탐색, 반복 수정, 비교 작업에 강하다. 하지만 에이전트가 많은 일을 했다는 사실과 좋은 결과가 나왔다는 사실은 다르다. 작업이 끝났을 때 사람이 무엇을 읽었는지, 무엇을 바꿨는지, 어떤 기준으로 골랐는지, 어디가 아직 위험한지 설명할 수 있어야 한다.
AI 에이전트는 사람의 판단을 대체하기보다 확장해야 한다

AI 에이전트를 잘 쓰는 사람은 무작정 일을 크게 맡기지 않는다. 대신 사람이 판단해야 할 부분과 반복 처리할 수 있는 부분을 나눈다.
코드 작업이라면 AI에게 파일 탐색, 의심 지점 정리, 테스트 후보 작성은 맡길 수 있다. 하지만 실제 제품 의도, 배포 여부, 사용자 영향, 민감한 정보 공개 여부는 사람이 결정해야 한다.
노트 정리나 블로그 초안도 마찬가지다. AI에게 후보 발굴과 초안 구조는 맡길 수 있다. 하지만 공개 가능한 주제인지, 개인 정보가 섞였는지, 최신성 검증이 필요한지, 내 이름으로 올려도 되는지는 사람이 봐야 한다.
이 선을 정하지 않으면 AI는 빠르게 움직이지만 결과를 믿기 어려워진다. 반대로 선을 정하면 AI는 좋은 작업 파트너가 된다.
원칙 1: 시작 전에 입력, 판단, 출력을 나눈다
에이전트에게 일을 맡기기 전에는 세 가지를 먼저 써야 한다.
| 구분 | 질문 | 예시 |
|---|---|---|
| 입력 | 무엇을 읽어야 하나? | 특정 폴더, PR diff, 노트 묶음 |
| 판단 | 무엇을 기준으로 고르나? | 공개 가능성, 중복 여부, 테스트 실패, 검색 의도 |
| 출력 | 무엇을 만들어야 하나? | 수정 파일, 후보 표, 초안, 검증 기록 |
"블로그에 쓸만한 노트를 찾아줘"와 "여행이 아닌 노트 중 공개 가능한 후보를 카테고리로 묶고, 위험 태그와 초안 방향을 남겨줘"는 완전히 다른 요청이다.
입력, 판단, 출력을 나누면 작업 결과도 작게 확인할 수 있다. AI가 어디까지 읽어야 하는지 알 수 있고, 어떤 기준으로 고르는지 검토할 수 있으며, 마지막 산출물이 무엇인지 분명해진다.
원칙 2: 탐색, 수정, 검증을 한 번에 섞지 않는다
에이전트 작업이 위험해지는 순간은 탐색과 수정이 섞일 때다. AI가 아직 맥락을 파악하는 중인데 동시에 파일을 고치기 시작하면, 잘못된 가정이 그대로 결과물에 반영될 수 있다.
가능하면 작업을 세 단계로 나눈다.
| 단계 | AI에게 맡기기 좋은 일 | 사람이 확인할 일 |
|---|---|---|
| 탐색 | 관련 파일 찾기, 후보 분류, 중복 확인 | 탐색 범위가 맞는지 |
| 수정 | 정해진 파일에 좁은 변경 적용 | 의도와 다르게 바뀐 부분이 없는지 |
| 검증 | 테스트 실행, 링크 확인, 요약 작성 | 남은 위험을 받아들일지 |
이렇게 나누면 AI가 만든 결과를 중간마다 멈춰서 볼 수 있다. 작업 속도는 조금 느려 보여도 나중에 되돌리는 비용이 줄어든다.
원칙 3: 긴 탐색은 반드시 요약 산출물로 닫는다
AI가 수십 개 파일을 읽는 작업은 중간 과정이 쉽게 사라진다. 대화창에는 "확인했습니다"만 남고, 실제로 무엇을 제외했는지 기억하기 어렵다.
그래서 긴 탐색은 반드시 요약 산출물로 닫아야 한다.
| 산출물 | 목적 |
|---|---|
| 후보 표 | 다음 행동을 고르기 쉽게 만든다 |
| 근거 파일 목록 | 나중에 다시 검증할 수 있게 한다 |
| 위험 태그 | 공개 가능성과 추가 확인 범위를 분리한다 |
| 다음 배치 | 이어서 실행할 작업을 작게 만든다 |
특히 노트, 블로그, 리서치 작업에서는 이 기록이 중요하다. 후보를 찾는 데 시간을 썼다면 그 결과가 다음 작업에서 바로 이어져야 한다. 요약 산출물이 없으면 다음 세션은 다시 검색부터 시작하게 된다.
원칙 4: 수정 전후에는 검증 흔적을 남긴다
AI가 "수정했습니다"라고 말해도 그것만으로는 충분하지 않다. 무엇으로 확인했는지가 같이 남아야 한다.
코드 작업이라면 테스트, 타입체크, 린트, 빌드가 검증 흔적이 될 수 있다. 노트 작업이라면 경로 확인, 중복 확인, 링크 확인, 줄 수 확인이 될 수 있다. 블로그 작업이라면 공개 HTML 확인, 이미지 개수 확인, 모바일 폭 확인, 채널 매핑 확인이 될 수 있다.
검증 명령은 복잡할 필요가 없다. 중요한 것은 같은 기준으로 다시 확인할 수 있어야 한다는 점이다.
| 항목 | 남길 내용 |
|---|---|
| 바뀐 파일 | 실제 변경 파일 |
| 확인한 것 | 테스트, 링크, 경로, 줄 수 |
| 바꾸지 않은 것 | 공개 발행, 채널 매핑, 민감 파일 |
| 남은 일 | 공식 문서 확인, 라벨 정책 결정 |
이 기록이 있으면 하루 뒤에 다시 봐도 작업을 이어가기 쉽다.
원칙 5: 사람의 승인이 필요한 결정은 따로 남긴다
AI 에이전트가 잘한다고 해서 모든 결정을 자동화하면 안 된다. 특히 다음 항목은 사람이 직접 승인해야 한다.
| 사람 승인 필요 | 이유 |
|---|---|
| 공개 발행 | 이름과 책임이 붙는다 |
| 사내 정보 사용 | 익명화와 공개 가능성 판단이 필요하다 |
| 의료, 법률, 금융 조언 | 최신성과 책임 범위가 크다 |
| 개인 수치 공개 | 맥락 없이 오해될 수 있다 |
| 배포와 삭제 | 되돌리기 비용이 크다 |
AI에게 맡긴 작업의 결과에는 "완료"뿐 아니라 "사람이 결정할 것"도 남아야 한다. 그래야 자동화가 판단까지 가져가지 않는다.
원칙 6: 24시간 뒤에도 이해할 수 있게 기록한다
AI 작업은 그 순간에는 빠르게 보인다. 하지만 하루 뒤에 다시 보면 맥락이 사라지는 경우가 많다. 어떤 파일을 왜 바꿨는지, 어떤 기준으로 후보를 골랐는지, 어떤 위험을 남겼는지 기억나지 않으면 다시 확인해야 한다.
좋은 에이전트 작업은 24시간 뒤에도 이어서 할 수 있어야 한다.
| 기록 | 이유 |
|---|---|
| 핵심 판단 | 왜 이 방향을 택했는지 복원한다 |
| 변경 파일 | 실제 영향 범위를 확인한다 |
| 검증 결과 | 믿어도 되는 범위를 안다 |
| 남은 결정 | 다음 사람이 이어받을 수 있다 |
이 기록은 팀 작업뿐 아니라 개인 작업에도 필요하다. AI와 함께 일하면 작업 속도가 빨라지는 만큼, 맥락을 잃는 속도도 빨라질 수 있다.
바로 써먹는 감독 체크리스트
AI 에이전트에게 일을 맡기기 전후에 다음 체크리스트를 쓰면 된다.
| 시점 | 체크 |
|---|---|
| 시작 전 | 입력 범위를 정했는가? |
| 시작 전 | 판단 기준을 문장으로 썼는가? |
| 진행 중 | 탐색과 수정을 분리했는가? |
| 진행 중 | 사람 승인 항목을 따로 남겼는가? |
| 종료 전 | 변경 파일과 검증 결과를 남겼는가? |
| 종료 전 | 다음 작업자가 이어받을 수 있는가? |
이 체크리스트를 통과하면 AI가 만든 결과를 훨씬 편하게 검수할 수 있다.
FAQ
AI 에이전트에게 어디까지 맡겨도 되나?
읽기, 분류, 반복 수정, 초안 생성처럼 기준을 설명할 수 있는 일은 맡기기 좋다. 반대로 공개 판단, 민감정보 노출, 고위험 조언, 최종 배포 승인처럼 책임이 큰 일은 사람이 확인해야 한다.
에이전트가 많이 읽으면 더 좋은 결과가 나오나?
항상 그렇지는 않다. 많이 읽는 것보다 읽은 결과를 어떤 기준으로 압축했는지가 더 중요하다. 후보 표, 제외 기준, 검증 명령이 없으면 긴 탐색도 다시 쓰기 어렵다.
멀티 에이전트는 언제 쓰면 좋나?
후보 발굴, 위험 검토, 초안 작성, 검증처럼 관점이 다른 작업을 나눌 때 좋다. 같은 일을 여러 번 시키기보다 역할을 분리해야 효과가 있다.
AI 결과를 믿을 수 있게 만드는 최소 장치는 무엇인가?
작업 범위, 근거 파일, 변경 파일, 검증 명령, 남은 위험을 남기는 것이다. 이 다섯 가지가 있으면 나중에 결과를 다시 확인하기 쉽다.
AI가 만든 코드를 직접 이해하지 못하면 어떻게 해야 하나?
그 상태에서는 완료로 보지 않는 편이 낫다. 변경 요약, 핵심 함수 설명, 실패 가능성, 테스트 방법을 다시 요구하고 사람이 설명 가능한 수준까지 줄여야 한다.
마무리
여섯 개가 많아 보이면 하나만 고르자. 내 답은 원칙 4(검증 흔적)다. 나머지가 다 무너져도 "무엇이 바뀌었고 무엇을 확인했는지"가 남아 있으면 복구가 되고, 이것이 없으면 나머지가 다 있어도 결과를 믿을 수 없다. 감독 없는 위임은 위임이 아니라 방치라는 게 에이전트를 매일 쓰면서 굳어진 입장이다.
AI 에이전트는 일을 대신 끝내주는 마법 상자가 아니라, 사람이 이해할 수 있는 범위 안에서 작업 속도를 높여주는 도구다. 에이전트에게 더 많이 맡기고 싶다면 먼저 감독 기준을 만들어야 한다.
입력, 판단, 출력이 분리되어 있고, 탐색과 수정이 섞이지 않으며, 검증 흔적과 남은 결정이 기록되어 있다면 AI 작업은 훨씬 안전해진다.
이 원칙들을 실제 도구 위에서 굴리는 방법은 Claude Code 서브에이전트 완전 가이드에 적었고, 워크플로우와 에이전트를 가르는 이론적 배경은 Anthropic의 Building effective agents가 1차 자료다.
댓글
댓글 쓰기