"데이터가 틀렸습니다"
탄소 배출 도메인 학습 앱 EcoNiPass Domain Academy. 7개 챕터, 46개 섹션, 70개 퀴즈, 200개 이상의 핵심 용어. 직접 만든 컨텐츠를 직접 검증하는 건 어렵다. 눈이 이미 "맞다"고 인식해버리기 때문이다.
그래서 AI에게 맡겼다. "7개 챕터 JSON을 전부 읽고, 팩트 오류를 찾아줘."
돌아온 결과에 등이 서늘해졌다.
발견한 실수들
1. SF6의 GWP가 두 곳에서 다르다
챕터 1 섹션 1에서 SF6의 GWP를 23,500 (AR5 기준)이라고 정확히 적어놓고, 바로 다음 섹션 2에서 "SF6 1톤은 CO2 22,800톤과 맞먹는 효과"라고 썼다. 22,800은 AR4 값이다. 같은 챕터 안에서 서로 다른 버전의 수치를 쓰고 있었던 것이다.
학습자가 이걸 눈치채면? "이 앱 믿을 수 있나?" 신뢰가 무너진다.
2. 온실가스가 6종이라고?
교토의정서 온실가스는 원래 6종이었지만, 2013년 도하 개정으로 NF3가 추가되어 7종이 됐다. 본문에서는 7종이라고 정확히 설명하면서, 같은 섹션의 핵심 용어(keyTerm) 설명에는 "6종"이라고 적혀 있었다.
3. SSBJ 기준이 챕터마다 다르다
챕터 1에서는 "자산 3조엔 또는 매출 3,000억엔"이 SSBJ 적용 기준이라고 적었고, 챕터 3에서는 "시가총액(時価総額) 3조엔"이라고 적었다. 자산과 시가총액은 전혀 다른 개념이다. 실제 SSBJ 기준은 시가총액이 맞다.
4. 경쟁사를 정반대로 설명
챕터 7의 본문에서 booost technologies를 "대기업용 플랫폼, 고가"라고 올바르게 분석해놓고, 핵심 용어 카드에는 "SME 대상 저가 포지셔닝"이라고 정반대로 적어놨다. 학습자가 본문과 용어 카드를 번갈아 보면 혼란에 빠진다.
5. CAGR 수치도 불일치
본문에서 탄소관리 소프트웨어 시장 CAGR을 "13.915.1%"라고 쓰고, 핵심 용어 설명에는 "약 2025%"라고 적었다. 같은 시장, 같은 지표인데 수치가 두 배 차이.
그리고 빠진 목소리들
핵심 용어 205개 중 21개에 MP3 발음 파일이 없었다. 주로 최근 추가된 챕터 3(일본 규제), 챕터 4(글로벌 규제)의 용어들:
- 第三者保証, 内部統制, 限定的保証 (감사 관련 용어)
- 二重重要性, 製品炭素フットプリント (EU 규제 용어)
- スクリーニング算定, 削減レバー (실무 용어)
- 物理的リスク, 移行リスク (TCFD 핵심 용어)
발음 파일이 없으면 Web Speech API로 fallback되지만, TTS 엔진의 일본어 발음이 일관되지 않다. 특히 전문 용어는 edge-tts (NanamiNeural)가 훨씬 자연스럽다.
수정 & 생성 - 30분의 수술
컨텐츠 수정 6건: SF6 GWP 통일, 온실가스 7종 수정, SSBJ 기준 시가총액으로 통일, 보고기한 6월 30일로 통일, CAGR·booost 설명 수정.
MP3 생성 21개: edge-tts로 d1135~d1155까지 일괄 생성. ja-JP-NanamiNeural voice, rate -10%. 21개 파일 생성에 5초.
terms = [("第三者保証", "d1135"), ("データリネージ", "d1136"), ...]
for text, fid in terms:
comm = edge_tts.Communicate(text, "ja-JP-NanamiNeural", rate="-10%")
await comm.save(f"audio-domain/{fid}.mp3")
오디오 맵 업데이트: term_audio_map.json과 index.html의 termAudioMap 양쪽에 21개 엔트리 추가. 하나라도 빠지면 발음이 안 재생되니까 항상 두 곳을 동기화해야 한다.
캐시 무효화: sw.js의 CACHE_NAME을 v10에서 v11로 올려야 브라우저가 새 파일을 받는다. 이걸 빠뜨리면 배포해도 사용자에게는 옛날 버전이 보인다.
교훈
자기가 쓴 컨텐츠를 자기가 검증하지 마라. 눈이 이미 "맞다"고 판단해버린다. AI한테 시키면 챕터 간 불일치, 본문 vs keyTerm 모순 같은 걸 정확히 잡아낸다.
같은 수치는 한 곳에서 관리하라. SF6 GWP가 두 군데서 다른 건, 한쪽을 수정하고 다른 쪽을 잊었기 때문이다. 데이터베이스 정규화의 원리가 컨텐츠에도 적용된다.
챕터 간 교차 검증은 필수. 특히 규제 기준(SSBJ 적용 기준, 보고 기한 등)은 여러 챕터에서 반복 언급된다. 한 곳을 수정하면
grep으로 같은 키워드가 나오는 모든 곳을 확인해야 한다.TTS 파이프라인은 자동화해둬라.
edge-tts+ 파일 번호 규칙 (d1001~) + 맵 파일 동기화. 이 세 가지가 갖춰져 있으면 새 용어 추가는 5분 작업이다.
오늘의 diff: 6건 수정, 21개 MP3 생성, 26개 파일 커밋. 학습 앱의 신뢰도가 한 단계 올라갔다.