AI 에이전트 다이어트 작전: 90k→10k로 줄이기

TL;DR

AI 에이전트가 살이 찌면 돈이 나갑니다. Snapkin 플러그인을 최적화해서 Context Window를 90k → 10.7k tokens (88% 절약) 달성했습니다. 월 $16.20 → $1.92로 연 $171 절감. 🎉

문제: 에이전트가 너무 많이 먹는다

AI 에이전트가 일할 때마다:

파일 전체를 읽고
응답에 파일 전체를 다시 보내고
같은 정보를 여러 에이전트에게 중복 전달

결과? 90k tokens 소비. 돈으로 환산하면 세션 60회/월 = $16.20/월.

라이벌 비교: Snapkin vs Session-Wrap

시스템	에이전트 수	Context 소비	효율
Snapkin (최초)	2개 + 스크립트	90k	기준
Session-Wrap	5개	105k	17% 더 비효율

Snapkin이 이미 더 날씬했지만, 여전히 살이 너무 많았습니다.

다이어트 3단계

P0: 응답 압축 (15분, 33k 절약)

문제: 에이전트가 작업 완료 후 파일 전체(25k+8k=33k)를 응답으로 돌려줌.

해결:

DO NOT include:
- Full LESSONS.md content
- Detailed lesson text

Respond with ONLY:
✓ LESSONS.md updated
- Added: 3 new lessons
- Categories: [Decision], [Insight]

효과: 33k → 200 tokens (99.4% 절약)
ROI: 2,000 tokens/분

P1: 시간 윈도우 + 헤더만 (1.5시간, 25k 절약)

문제:

LESSONS.md 전체(300개 레슨, 25k) 전달 → 3개월 전 레슨과 중복될 일 없음
CLAUDE.md 전체(8k) 전달 → 섹션 헤더만 있으면 충분

해결:

# 최근 14일 레슨만 추출
awk '/^## 2026-02-[01-15]/' LESSONS.md

# 섹션 헤더만 추출
grep "^## " CLAUDE.md

효과:

LESSONS.md: 25k → 7k (72% 절약)
CLAUDE.md: 8k → 500 (94% 절약)

ROI: 17,000 tokens/시간

P2: 역할별 diff 필터링 (3시간, 20k 절약)

문제: 같은 git diff를 두 에이전트에게 중복 전달 (12k × 2 = 24k)

해결: 역할별로 필요한 것만

# historian용: 코드 패턴만
git diff | grep -A15 "^+.*function\|class\|export"

# auditor용: 설정 변경만
git diff -- package.json *.config.* .env.*

효과: 24k → 3k (87.5% 절약)
ROI: 6,700 tokens/시간

최종 결과

Before → After

Before: 90k tokens
P0 적용: 57k (-36%)
P0+P1: 32k (-65%)
P0+P1+P2: 10.7k (-88%) ✅

비용 절감

항목	Before	After	절약
Tokens/월	5.4M	0.64M	88%
비용/월	$16.20	$1.92	$14.28
비용/년	$194.40	$23.04	$171

속도 개선

Context 88% 감소 → 에이전트 응답 시간 60% 단축

Before: 25초
After: 10초

보너스: P3는 하지 마세요

Semantic Dedup (벡터 검색으로 유사 레슨만 전달)을 고려했지만...

불필요한 이유:

복잡도 폭발: sentence-transformers, ChromaDB, 100MB 모델
낮은 ROI: 6k 절약에 8시간+ (750 tokens/시간)
실시간 오버헤드: 매 세션 3초 추가 지연
P1으로 충분: 14일 윈도우 = 50 lessons = 7k tokens

7k → 1k로 줄이는 건 over-engineering입니다.

교훈

1. 파일 전체를 주고받지 마라

에이전트 응답: 전체 말고 요약만
LESSONS.md: 300개 말고 최근 50개만
git diff: 전체 말고 역할별 필터링

2. 80%를 20%의 노력으로

최적화	절약	시간	ROI
P0	33k	15분	⭐⭐⭐⭐⭐
P1	25k	1.5시간	⭐⭐⭐⭐
P2	20k	3시간	⭐⭐⭐
P3	6k	8시간+	⭐

P2까지만 해도 충분합니다.

3. 언제 멈춰야 하는지

14일 윈도우로 7k tokens? ✅ 충분
벡터 검색으로 1k로 줄이기? ❌ 과잉

Simple > Complex

실전 적용

Quick Wins (15분)

에이전트 응답 압축만 적용:

## Output

**CRITICAL - Response Size Optimization**:
Your response must be under 200 tokens.
DO NOT include full file content.

즉시 30k tokens 절약!

당신의 에이전트는?

에이전트가 파일 전체를 응답으로 보내나요?
같은 데이터를 여러 에이전트에게 보내나요?
3개월 전 데이터도 매번 읽나요?

YES가 하나라도 있으면 → 다이어트 시작하세요!

결론

AI 에이전트 최적화는:

💰 돈을 아끼고 (월 $14 절약)
⚡ 속도를 높이고 (60% 빨라짐)
🧠 더 똑똑하게 만듭니다 (필요한 것만 집중)

Snapkin이 Session-Wrap보다 이제 10배 효율적입니다.

당신의 에이전트도 다이어트시켜 보세요! 🏃‍♂️

참고

Snapkin GitHub
Context Window 최적화 체크리스트
P0/P1/P2 구현 가이드

Keywords: AI Agent, Context Window Optimization, Token Reduction, Cost Saving, Snapkin, Multi-Agent System