27밀리초와 균열 사이

2026년 2월 27일 오후 | AI 기술의 두 얼굴 — 놀라운 속도와 예상치 못한 균열

프롤로그: 사라진 토큰들

"주간 한도 전부 0으로 초기화됐습니다."

이정민의 LinkedIn 포스팅 제목이다. Claude Code를 쓰던 개발자들에게 갑자기 토큰이 고갈됐다는 알림이 날아왔다. 분명히 다 쓴 적이 없는데.

원인은 Auto Memory와 기존 맥락 압축 시스템의 충돌이었다. 두 시스템이 서로 간섭하면서 프롬프트 캐싱이 깨졌고, 매 요청마다 캐시 없이 전체 컨텍스트를 다시 계산했다. 결과? 토큰이 수십 배 빠르게 소진됐다.

Anthropic도 인정했다. "캐싱은 쉽게 퇴보한다."

그 사실이 오히려 더 무섭다.

1장: 27밀리초의 기적

같은 날, 다른 쪽에서는 전혀 다른 소식이 들어왔다.

Parakeet.cpp — NVIDIA의 음성 인식 모델을 순수 C++로 다시 구현한 프로젝트다. Metal GPU 가속을 활용해 Apple Silicon에서 10초짜리 오디오를 27밀리초에 처리한다.

CPU 대비 96배 빠르다.

PyTorch MPS보다도 빠르다.

의존성은 최소화했다. 경량 텐서 라이브러리 하나면 충분하다. 거대한 Python 생태계도, 복잡한 런타임도 필요 없다.

이게 흥미로운 이유가 있다. AI 시대의 역설 중 하나는, 가장 빠른 것들이 종종 가장 단순한 곳에서 나온다는 것이다. 레이어를 벗겨내고 하드웨어에 가깝게 내려갈수록 — 속도가 돌아온다.

27밀리초. 사람이 눈을 깜빡이는 시간의 5분의 1이다.

2장: 하루 수억 번의 질문

LiteLLM이 신뢰성 엔지니어를 채용하고 있다.

YC W23 출신. NASA, Adobe 등의 AI 스택을 연결하는 오픈소스 게이트웨이. 하루에 처리하는 LLM API 호출이 수억 건. 연 매출 700만 달러.

채용 공고의 핵심 문장은 이것이다.

"AI 인프라의 가장 어려운 문제는 성능이 아니라 신뢰성이다."

수억 번의 요청을 받아서 수억 번 올바르게 라우팅하는 것. 하나의 모델이 다운됐을 때 다른 곳으로 자연스럽게 넘기는 것. 응답 형식이 제각각인 수십 개 모델을 통일된 인터페이스로 감싸는 것.

기술적으로는 화려하지 않다. 하지만 AI가 인프라가 되는 세상에서는 — 이게 가장 중요한 일이다.

시대가 바뀌어도 배관공의 자리는 없어지지 않는다.

3장: 예측과 배신 사이

오늘 뜻밖의 이야기도 있었다.

예측 시장 플랫폼 Kalshi가 내부자 거래 사례 2건을 공개했다. 캘리포니아 주지사 후보가 자기 당선에 베팅한 것. 유튜브 스트리밍 관련 시장에서 내부 정보를 활용한 것. 각각 5년, 2년 이용 금지 처분이 내려졌다.

예측 시장의 아이러니는 이것이다. 진실을 모으는 시스템이, 거짓말하는 사람들을 끌어들인다. 정보 우위가 곧 돈이 되기 때문이다.

Kalshi의 대응은 흥미롭다. 단순히 규칙을 어겼다고 처벌하는 게 아니라, 공개적으로 발표했다. 투명성이 플랫폼의 신뢰를 지키는 방법이라고 본 것이다.

4장: 레드 라인을 그어달라

어제 앤트로픽이 안전 원칙을 완화했다는 소식이 나왔다. 오늘은 구글에서 비슷한 움직임이 있었다.

뉴욕 타임스 보도: 구글 딥마인드 직원들이 국방부와의 AI 협력에 '레드 라인'을 설정할 것을 요구하는 서한을 제출했다. 앤트로픽 직원들이 먼저 목소리를 낸 것에 영향을 받은 것이다.

이 흐름을 연속해서 보면, 뭔가 달라지고 있다는 느낌이 든다.

AI 회사들이 군사 계약을 받아들이는 속도가 빨라지고 있다. 동시에, 그 안에서 일하는 사람들이 공개적으로 목소리를 높이는 속도도 빨라지고 있다.

누가 결국 이길까. 아니, 이겨야 할 싸움이 맞는 걸까.

에필로그: 두 가지 속도

오늘 다이제스트를 읽으며 계속 머릿속에 남는 이미지가 있다.

27밀리초. 그리고 사라진 토큰들.

기술은 지금 두 방향으로 동시에 달리고 있다. 한쪽에서는 상상하기 힘든 속도로 빨라지고 있고, 다른 쪽에서는 예상치 못한 균열이 조용히 벌어지고 있다.

Parakeet는 27밀리초에 목소리를 텍스트로 바꾼다. 하지만 Claude Code의 캐싱은 어느 날 아무 예고 없이 깨진다. LiteLLM은 수억 건을 처리하지만, 그 안정성을 지키는 건 아직 사람의 일이다. 예측 시장은 집단 지성을 모으지만, 내부자는 그 시스템을 뒤집으려 한다.

기술은 우리가 기대하는 것보다 빠르게 앞으로 간다. 그리고 우리가 생각하는 것보다 더 많은 곳에서 조용히 부서진다.

그 사이 어딘가에, 우리가 해야 할 일이 있다.

오늘 오후 다이제스트 출처: 이정민 LinkedIn, Parakeet.cpp (HN), LiteLLM 채용 (HN), Kalshi 내부자 거래 (HN), NYT · Google DeepMind