TL;DR
AI 에이전트가 살이 찌면 돈이 나갑니다. Snapkin 플러그인을 최적화해서 Context Window를 90k → 10.7k tokens (88% 절약) 달성했습니다. 월 $16.20 → $1.92로 연 $171 절감. 🎉
문제: 에이전트가 너무 많이 먹는다
AI 에이전트가 일할 때마다:
- 파일 전체를 읽고
- 응답에 파일 전체를 다시 보내고
- 같은 정보를 여러 에이전트에게 중복 전달
결과? 90k tokens 소비. 돈으로 환산하면 세션 60회/월 = $16.20/월.
라이벌 비교: Snapkin vs Session-Wrap
| 시스템 | 에이전트 수 | Context 소비 | 효율 |
|---|---|---|---|
| Snapkin (최초) | 2개 + 스크립트 | 90k | 기준 |
| Session-Wrap | 5개 | 105k | 17% 더 비효율 |
Snapkin이 이미 더 날씬했지만, 여전히 살이 너무 많았습니다.
다이어트 3단계
P0: 응답 압축 (15분, 33k 절약)
문제: 에이전트가 작업 완료 후 파일 전체(25k+8k=33k)를 응답으로 돌려줌.
해결:
DO NOT include:
- Full LESSONS.md content
- Detailed lesson text
Respond with ONLY:
✓ LESSONS.md updated
- Added: 3 new lessons
- Categories: [Decision], [Insight]
효과: 33k → 200 tokens (99.4% 절약)
ROI: 2,000 tokens/분
P1: 시간 윈도우 + 헤더만 (1.5시간, 25k 절약)
문제:
- LESSONS.md 전체(300개 레슨, 25k) 전달 → 3개월 전 레슨과 중복될 일 없음
- CLAUDE.md 전체(8k) 전달 → 섹션 헤더만 있으면 충분
해결:
# 최근 14일 레슨만 추출
awk '/^## 2026-02-[01-15]/' LESSONS.md
# 섹션 헤더만 추출
grep "^## " CLAUDE.md
효과:
- LESSONS.md: 25k → 7k (72% 절약)
- CLAUDE.md: 8k → 500 (94% 절약)
ROI: 17,000 tokens/시간
P2: 역할별 diff 필터링 (3시간, 20k 절약)
문제: 같은 git diff를 두 에이전트에게 중복 전달 (12k × 2 = 24k)
해결: 역할별로 필요한 것만
# historian용: 코드 패턴만
git diff | grep -A15 "^+.*function\|class\|export"
# auditor용: 설정 변경만
git diff -- package.json *.config.* .env.*
효과: 24k → 3k (87.5% 절약)
ROI: 6,700 tokens/시간
최종 결과
Before → After
Before: 90k tokens
P0 적용: 57k (-36%)
P0+P1: 32k (-65%)
P0+P1+P2: 10.7k (-88%) ✅
비용 절감
| 항목 | Before | After | 절약 |
|---|---|---|---|
| Tokens/월 | 5.4M | 0.64M | 88% |
| 비용/월 | $16.20 | $1.92 | $14.28 |
| 비용/년 | $194.40 | $23.04 | $171 |
속도 개선
Context 88% 감소 → 에이전트 응답 시간 60% 단축
- Before: 25초
- After: 10초
보너스: P3는 하지 마세요
Semantic Dedup (벡터 검색으로 유사 레슨만 전달)을 고려했지만...
불필요한 이유:
- 복잡도 폭발: sentence-transformers, ChromaDB, 100MB 모델
- 낮은 ROI: 6k 절약에 8시간+ (750 tokens/시간)
- 실시간 오버헤드: 매 세션 3초 추가 지연
- P1으로 충분: 14일 윈도우 = 50 lessons = 7k tokens
7k → 1k로 줄이는 건 over-engineering입니다.
교훈
1. 파일 전체를 주고받지 마라
- 에이전트 응답: 전체 말고 요약만
- LESSONS.md: 300개 말고 최근 50개만
- git diff: 전체 말고 역할별 필터링
2. 80%를 20%의 노력으로
| 최적화 | 절약 | 시간 | ROI |
|---|---|---|---|
| P0 | 33k | 15분 | ⭐⭐⭐⭐⭐ |
| P1 | 25k | 1.5시간 | ⭐⭐⭐⭐ |
| P2 | 20k | 3시간 | ⭐⭐⭐ |
| P3 | 6k | 8시간+ | ⭐ |
P2까지만 해도 충분합니다.
3. 언제 멈춰야 하는지
- 14일 윈도우로 7k tokens? ✅ 충분
- 벡터 검색으로 1k로 줄이기? ❌ 과잉
Simple > Complex
실전 적용
Quick Wins (15분)
에이전트 응답 압축만 적용:
## Output
**CRITICAL - Response Size Optimization**:
Your response must be under 200 tokens.
DO NOT include full file content.
즉시 30k tokens 절약!
당신의 에이전트는?
- 에이전트가 파일 전체를 응답으로 보내나요?
- 같은 데이터를 여러 에이전트에게 보내나요?
- 3개월 전 데이터도 매번 읽나요?
YES가 하나라도 있으면 → 다이어트 시작하세요!
결론
AI 에이전트 최적화는:
- 💰 돈을 아끼고 (월 $14 절약)
- ⚡ 속도를 높이고 (60% 빨라짐)
- 🧠 더 똑똑하게 만듭니다 (필요한 것만 집중)
Snapkin이 Session-Wrap보다 이제 10배 효율적입니다.
당신의 에이전트도 다이어트시켜 보세요! 🏃♂️
참고
- Snapkin GitHub
- Context Window 최적화 체크리스트
- P0/P1/P2 구현 가이드
Keywords: AI Agent, Context Window Optimization, Token Reduction, Cost Saving, Snapkin, Multi-Agent System