TL;DR

AI 에이전트가 살이 찌면 돈이 나갑니다. Snapkin 플러그인을 최적화해서 Context Window를 90k → 10.7k tokens (88% 절약) 달성했습니다. 월 $16.20 → $1.92로 연 $171 절감. 🎉

문제: 에이전트가 너무 많이 먹는다

AI 에이전트가 일할 때마다:

  • 파일 전체를 읽고
  • 응답에 파일 전체를 다시 보내고
  • 같은 정보를 여러 에이전트에게 중복 전달

결과? 90k tokens 소비. 돈으로 환산하면 세션 60회/월 = $16.20/월.

라이벌 비교: Snapkin vs Session-Wrap

시스템 에이전트 수 Context 소비 효율
Snapkin (최초) 2개 + 스크립트 90k 기준
Session-Wrap 5개 105k 17% 더 비효율

Snapkin이 이미 더 날씬했지만, 여전히 살이 너무 많았습니다.

다이어트 3단계

P0: 응답 압축 (15분, 33k 절약)

문제: 에이전트가 작업 완료 후 파일 전체(25k+8k=33k)를 응답으로 돌려줌.

해결:

DO NOT include:
- Full LESSONS.md content
- Detailed lesson text

Respond with ONLY:
✓ LESSONS.md updated
- Added: 3 new lessons
- Categories: [Decision], [Insight]

효과: 33k → 200 tokens (99.4% 절약)
ROI: 2,000 tokens/분

P1: 시간 윈도우 + 헤더만 (1.5시간, 25k 절약)

문제:

  • LESSONS.md 전체(300개 레슨, 25k) 전달 → 3개월 전 레슨과 중복될 일 없음
  • CLAUDE.md 전체(8k) 전달 → 섹션 헤더만 있으면 충분

해결:

# 최근 14일 레슨만 추출
awk '/^## 2026-02-[01-15]/' LESSONS.md

# 섹션 헤더만 추출
grep "^## " CLAUDE.md

효과:

  • LESSONS.md: 25k → 7k (72% 절약)
  • CLAUDE.md: 8k → 500 (94% 절약)

ROI: 17,000 tokens/시간

P2: 역할별 diff 필터링 (3시간, 20k 절약)

문제: 같은 git diff를 두 에이전트에게 중복 전달 (12k × 2 = 24k)

해결: 역할별로 필요한 것만

# historian용: 코드 패턴만
git diff | grep -A15 "^+.*function\|class\|export"

# auditor용: 설정 변경만
git diff -- package.json *.config.* .env.*

효과: 24k → 3k (87.5% 절약)
ROI: 6,700 tokens/시간

최종 결과

Before → After

Before: 90k tokens
P0 적용: 57k (-36%)
P0+P1: 32k (-65%)
P0+P1+P2: 10.7k (-88%) ✅

비용 절감

항목 Before After 절약
Tokens/월 5.4M 0.64M 88%
비용/월 $16.20 $1.92 $14.28
비용/년 $194.40 $23.04 $171

속도 개선

Context 88% 감소 → 에이전트 응답 시간 60% 단축

  • Before: 25초
  • After: 10초

보너스: P3는 하지 마세요

Semantic Dedup (벡터 검색으로 유사 레슨만 전달)을 고려했지만...

불필요한 이유:

  1. 복잡도 폭발: sentence-transformers, ChromaDB, 100MB 모델
  2. 낮은 ROI: 6k 절약에 8시간+ (750 tokens/시간)
  3. 실시간 오버헤드: 매 세션 3초 추가 지연
  4. P1으로 충분: 14일 윈도우 = 50 lessons = 7k tokens

7k → 1k로 줄이는 건 over-engineering입니다.

교훈

1. 파일 전체를 주고받지 마라

  • 에이전트 응답: 전체 말고 요약만
  • LESSONS.md: 300개 말고 최근 50개만
  • git diff: 전체 말고 역할별 필터링

2. 80%를 20%의 노력으로

최적화 절약 시간 ROI
P0 33k 15분 ⭐⭐⭐⭐⭐
P1 25k 1.5시간 ⭐⭐⭐⭐
P2 20k 3시간 ⭐⭐⭐
P3 6k 8시간+

P2까지만 해도 충분합니다.

3. 언제 멈춰야 하는지

  • 14일 윈도우로 7k tokens? ✅ 충분
  • 벡터 검색으로 1k로 줄이기? ❌ 과잉

Simple > Complex

실전 적용

Quick Wins (15분)

에이전트 응답 압축만 적용:

## Output

**CRITICAL - Response Size Optimization**:
Your response must be under 200 tokens.
DO NOT include full file content.

즉시 30k tokens 절약!

당신의 에이전트는?

  1. 에이전트가 파일 전체를 응답으로 보내나요?
  2. 같은 데이터를 여러 에이전트에게 보내나요?
  3. 3개월 전 데이터도 매번 읽나요?

YES가 하나라도 있으면 → 다이어트 시작하세요!

결론

AI 에이전트 최적화는:

  • 💰 돈을 아끼고 (월 $14 절약)
  • ⚡ 속도를 높이고 (60% 빨라짐)
  • 🧠 더 똑똑하게 만듭니다 (필요한 것만 집중)

Snapkin이 Session-Wrap보다 이제 10배 효율적입니다.

당신의 에이전트도 다이어트시켜 보세요! 🏃‍♂️


참고

  • Snapkin GitHub
  • Context Window 최적화 체크리스트
  • P0/P1/P2 구현 가이드

Keywords: AI Agent, Context Window Optimization, Token Reduction, Cost Saving, Snapkin, Multi-Agent System