Opus 4.7 가격표는 그대로인데 왜 청구서가 늘었나
2026년 4월 Anthropic이 Claude Opus 4.7을 출시하면서 가격을 입력 $5 / 출력 $25(per 1M tokens)로 고정했어요. 가격표만 보면 4.5·4.6과 동일한데 5월 들어 한국 사용자들 사이에서 "월 청구가 30% 늘었다"는 보고가 줄을 잇고 있어요. 원인은 단가가 아니라 토크나이저예요.
Opus 4.7부터 새 토크나이저가 적용되면서 같은 텍스트에 대해 평균 20%, 한국어·일본어·중국어 같은 다바이트 문자는 최대 35%까지 더 많은 토큰을 사용해요. 한국어 문서 100만 자를 보낼 때 4.6에서는 280K 토큰이었던 게 4.7에서는 378K 토큰으로 환산되는 식이에요. 단가는 그대로지만 토큰 수가 늘어나니 실효 비용이 1.35배.
1M 컨텍스트 윈도우도 같은 함정. 표면적으로는 표준 가격대로 9K 토큰 호출과 900K 토큰 호출이 동일 per-token 단가지만 캐싱 없이 매번 800K를 풀로 보내면 한 호출에 입력만 $4. 하루 100번이면 $400. 그래서 가격표 자체가 아니라 호출 패턴·캐시 전략·컨텍스트 트리밍을 동시에 손봐야 본전이 나와요.

이 글은 토크나이저 35% 증가를 흡수하면서 1M 컨텍스트의 본전을 최대로 뽑는 7가지 패턴을 정리해요. 실제 한국 RAG 챗봇 케이스에서 일 비용 $275 → $42까지 떨어뜨린 시뮬레이션을 포함했어요.
1. 토크나이저 영향 측정 — 청구서 분석 먼저
가장 먼저 할 일은 4.6 → 4.7 전환 후 토큰 사용량이 정확히 얼마나 늘었는지 측정하는 거예요. Anthropic 콘솔의 Usage 대시보드에서 모델별 일일 토큰 수치를 비교. 같은 워크로드에서 입력 토큰이 30% 이상 늘었다면 토크나이저 영향이 확실해요.
체크할 지표 4가지. (1) 입력 토큰 증가율 — 모델 전환 전후 7일 평균 비교. (2) 출력 토큰 증가율 — 출력은 일반적으로 5~10% 증가에 그침. (3) 언어별 영향 — 한국어 트래픽 비중이 높으면 30%+, 영어 중심이면 15% 수준. (4) 워크로드별 영향 — RAG 같은 긴 컨텍스트 작업이 짧은 채팅보다 토큰 증가 영향이 누적적으로 큼.
측정 결과 토큰 증가 25% 미만이면 캐싱 위주 최적화로 충분, 30% 이상이면 청크 재조정·압축 사전 단계까지 함께 손봐야 해요.
2. 프롬프트 캐싱 90% — 캐시 친화적 호출 구조
캐싱이 비용 최적화의 80%를 차지해요. Anthropic API에서 cache_control 마커를 메시지 블록에 추가하면 첫 호출은 표준 단가 + 25%(캐시 쓰기 비용), 두 번째 이후는 캐시 hit 단가가 표준의 10%로 청구. 5분 TTL이 기본이고 1시간 TTL은 50% 추가 할인.
캐시 친화적 호출 구조의 5가지 원칙. (1) 변하지 않는 블록을 먼저 — 시스템 프롬프트·툴 정의·긴 컨텍스트 문서는 앞에, 사용자 메시지는 뒤에 배치. (2) 블록 단위로 분리 — 한 블록이 너무 크면 캐시 hit 범위가 좁아짐, 1,024 토큰 이상 단위로 끊기. (3) 순서 고정 — 같은 컨텍스트라도 순서가 바뀌면 캐시 미스. (4) 호출 빈도 분석 — 5분 안에 다시 부를 호출은 5분 TTL, 시간 단위는 1시간 TTL 선택. (5) 캐시 hit 율 모니터링 — 콘솔에서 cache_creation_input_tokens vs cache_read_input_tokens 비율 추적.
실제 사내 RAG 시스템에서 같은 문서 묶음을 하루 50번 조회하는 경우 캐싱 적용 전 일 $50 → 적용 후 $5~7 수준. 90% 절감이 진짜 가능한 영역이에요.
3. 1시간 TTL 캐싱 — 장기 컨텍스트 시나리오
5분 TTL은 챗봇·실시간 코딩 에이전트에 어울리고 1시간 TTL은 다음 4가지 시나리오에 본전이 커요.
(1) 사내 위키 검색 — 직원 100명이 하루 종일 같은 매뉴얼을 검색하는 케이스, 1시간 TTL로 캐시 재사용 빈도 극대화. (2) 문서 일괄 분석 — 100페이지 PDF를 30개 질문으로 분석할 때 PDF 본문 자체를 캐시. (3) 고객 지원 챗봇 — 자주 묻는 질문 처리 시 약관·FAQ 본문을 캐시. (4) 코드베이스 어시스턴트 — 같은 repo를 여러 개발자가 조회할 때 코드 트리·import 그래프를 캐시.
1시간 TTL은 캐시 쓰기 비용이 표준 단가의 50%(5분 TTL은 25%)지만 호출 빈도가 높으면 본전. 일 100회 이상 같은 컨텍스트 호출이면 1시간 TTL이 5분 TTL보다 30~40% 더 저렴해요. 호출 빈도 분석 → TTL 선택이 핵심.
4. 배치 API 50% — 비실시간 작업 분리
Anthropic 배치 API는 24시간 안에 결과가 나오면 되는 작업에 한해 입력·출력 모두 50% 할인. 캐싱 90%와 별개 적용이라 캐싱된 호출에 배치까지 더하면 실효 단가는 표준의 5% 수준까지 떨어져요.
배치 API가 본전인 워크로드 5가지. (1) 콘텐츠 일괄 분류·태깅 — 블로그 500개 메타 추출, 일 1회 야간 실행. (2) 야간 리포트 — 매일 새벽 DB 데이터로 인사이트 요약 슬랙 발송. (3) 데이터셋 라벨링 — RAG 평가용 정답 라벨, 모델 fine-tune 데이터 준비. (4) 백필 — 과거 6개월 로그 재분석. (5) 이메일 답변 초안 — 고객 문의 일괄 처리 후 사람이 검수.
콘솔에서 JSONL 업로드(한 줄에 한 요청씩) 후 결과 다운로드. 한국 스타트업 기준 트래픽의 30%가 비실시간 작업이라 배치만 분리해도 월 비용 15~20% 절감 가능해요.
5. 컨텍스트 트리밍 — 1M 안 채우고 본전 뽑기
1M 컨텍스트가 있다고 매번 풀로 채우는 건 비효율. 트리밍의 4단계 전략.
(1) 사전 임베딩 검색 — 1만 개 문서 중 top-20만 골라서 Opus에 전달. 검색은 OpenAI text-embedding-3-small($0.02/M)이나 Cohere multilingual($0.10/M)로 처리. (2) 재랭킹 — top-20을 Haiku 4.5로 한 번 더 평가해 top-5만 추출. Haiku 호출 비용이 본 호출의 5% 미만. (3) 요약 압축 — top-5 본문을 Haiku로 1/3 크기로 압축. 핵심 fact는 유지. (4) 최종 호출 — Opus에 트리밍된 5,000~10,000 토큰만 전달.
이 흐름을 적용하면 같은 정확도에서 입력 토큰 50~70% 절감. 한국어 RAG 기준 입력 50K 토큰 컨텍스트가 15K로 줄어요. 비용·응답 속도 동시 개선.

6. 모델 라우팅 — Haiku·Sonnet·Opus 조합
Opus 4.7만 쓰는 게 아니라 입력 복잡도에 따라 Haiku 4.5·Sonnet 4.6·Opus 4.7을 라우팅하는 게 본전. 가격 차이가 5~10배라서 라우팅 잘못 짜면 비용이 그대로 폭증.
라우팅 룰 예시. (1) Haiku 4.5(입력 $0.80 / 출력 $4) — 간단 분류, 한 줄 요약, 키워드 추출, 의도 인식, FAQ 매칭. 트래픽의 6070%. (2) Sonnet 4.6(입력 $3 / 출력 $15) — 일반 챗봇 응답, 코드 작성, 중간 길이 문서 분석, 다단계 reasoning 13 step. 트래픽의 25~35%. (3) Opus 4.7(입력 $5 / 출력 $25) — 1M 컨텍스트 분석, 복잡 멀티 step reasoning 5+ step, 안전 critical 작업. 트래픽의 5% 미만.
라우터는 입력 길이·키워드·과거 호출 패턴으로 자동 분류. LangChain·LiteLLM·OpenRouter 같은 게이트웨이가 라우팅 추상화 제공. 단일 Opus 대비 60~75% 비용 절감 가능. 단 응답 품질 일관성 평가를 자동 파이프라인으로 같이 구축해야 해요.
7. 실효 단가 시뮬레이션 — $275 → $42 케이스
7가지 최적화를 모두 적용한 정량 시뮬레이션. 시나리오는 한국어 RAG 챗봇 일 1,000 호출 + 컨텍스트 평균 50K 토큰 + 응답 1K 토큰.
| 단계 | 입력 토큰/일 | 출력 토큰/일 | 비용/일 | 누적 절감 |
|---|
| 기본 (최적화 0%) | 50M | 1M | $275 | - |
| + 캐싱 80% hit | 13M 실효 | 1M | $90 | 67% |
| + 컨텍스트 트리밍 50% | 6.5M 실효 | 1M | $58 | 79% |
| + 배치 30% 분리 | - | - | $48 | 83% |
| + 라우팅 (Haiku 60%) | - | - | $42 | 85% |
월 환산하면 $8,250 → $1,260. 한국 스타트업 기준 한 달 LLM 비용 한 분기 차이. 매출 영향이 직접적이라 비용 최적화는 데브옵스 우선순위 톱 5에 들어가야 해요.
흔히 빠지는 함정 5가지
비용 최적화 작업에서 한국 개발자들이 가장 자주 빠지는 함정을 정리해요.
(1) 캐시 hit율 모니터링 누락 — cache_control 마커만 박고 실제 hit율을 안 보면 캐시 미스가 계속 일어나는데 모르고 지나감. Anthropic 콘솔에서 cache_creation_input_tokens과 cache_read_input_tokens 비율을 매일 추적해야 해요. hit율이 50% 미만이면 호출 순서·블록 구조 재설계 필요. 잘 짜인 RAG 시스템은 hit율 80% 이상이 일반적.
(2) TTL 선택 오류 — 챗봇에 1시간 TTL 적용하면 5분 TTL보다 캐시 쓰기 비용이 2배 (25% → 50%)인데 호출 빈도가 낮으면 캐시 만료 전에 안 부르고 끝남. 호출 패턴 데이터 7일치 분석 후 TTL 선택해야 함. 같은 컨텍스트가 1시간 안에 10번 이상 호출되면 1시간 TTL, 그 미만이면 5분 TTL.
(3) 배치 작업 잘못 분류 — 실시간 응답이 필요한 챗봇·코딩 에이전트를 배치로 돌리면 사용자 이탈. 반대로 일일 리포트·콘텐츠 분류 같은 비실시간 작업을 실시간 API로 처리하면 비용 2배. 워크로드별 latency 요구사항을 명확히 분리해야 함. 24시간 안에 결과가 나오면 되는 작업은 무조건 배치.
(4) 모델 라우팅 평가 누락 — Haiku로 라우팅했는데 답변 품질이 떨어지면 사용자 만족도·전환율 하락. 자동 평가 파이프라인(LLM-as-judge 또는 사용자 피드백) 필수. 매주 100개 샘플을 두 모델로 처리해 품질 비교.
(5) 사이드 채널 비용 누락 — 임베딩 모델 비용, 벡터 DB 비용, 로깅 비용을 LLM 비용에 포함 안 함. 전체 LLM 인프라 비용을 한 대시보드로 통합 추적해야 진짜 비용 구조 파악 가능. 한국 SaaS 평균 LLM 인프라 비용 = API 호출 70% + 임베딩 15% + DB 10% + 로깅 5%.
한국 사업자 사례 — 3가지 실전 데이터
실제 한국 사업자 케이스 3개를 익명화해 공유. 자체 시스템 튜닝 시 참고.
(1) B2B SaaS 고객 지원 챗봇 — 일 호출 5,000회, 평균 컨텍스트 30K 토큰. 최적화 전 일 $180. cache_control 적용 + Sonnet 4.6 라우팅 70% + 비실시간 부분 30% 배치 분리 → 일 $42. 77% 절감. ROI 측정 기간 2주.
(2) AI 코딩 어시스턴트 SaaS — 일 호출 12,000회, 평균 컨텍스트 80K 토큰(repo 코드). 최적화 전 일 $850. repo 코드 캐싱(1시간 TTL) + Opus 4.7은 복잡 reasoning만 + Haiku 4.5 자동완성 라우팅 → 일 $180. 79% 절감. 캐시 hit율 85% 달성.
(3) 콘텐츠 마케팅 자동화 SaaS — 일 호출 800회, 평균 컨텍스트 100K 토큰(브랜드 가이드·과거 콘텐츠). 최적화 전 일 $120. 브랜드 가이드 캐싱 + 배치 70% 분리(콘텐츠 생성은 비실시간) + 컨텍스트 트리밍 50% → 일 $22. 82% 절감.
3가지 케이스 공통점 — 캐싱이 절감의 50%, 라우팅이 25%, 배치 + 트리밍이 25%. 캐싱부터 시작이 항상 본전.
모니터링 대시보드 — 매일 봐야 할 5개 지표
비용 최적화는 한 번 셋업하고 끝나는 게 아니라 매일 모니터링해야 효과 유지돼요.
(1) 일별 토큰 사용량 — 입력·출력·캐시 read·캐시 write 4개 분리. 갑작스러운 증가는 새 기능·새 사용자·악용 가능성 신호. (2) 모델별 호출 비중 — Haiku·Sonnet·Opus 비율. 라우팅이 의도대로 작동하는지 검증. (3) 캐시 hit율 — 80%+ 목표. 50% 미만이면 즉시 호출 구조 재설계. (4) 평균 응답 시간 — 1초 미만이 목표. 1초 초과면 캐싱·트리밍 효과가 부족하다는 신호. (5) 일별 비용 vs 매출 — 비용/매출 비율이 5% 넘으면 LLM 의존도 과다 또는 가격 정책 재검토 필요.
대시보드 도구. Anthropic 콘솔 기본 제공 + Helicone·LangSmith·Langfuse 같은 LLM observability 툴 추가. 한국 사업자 기준 Helicone 무료 플랜으로 충분.
마무리 — 비용 최적화는 한 번에 끝나지 않아요
Opus 4.7 비용 절감은 단일 트릭이 아니라 토크나이저 측정 → 캐싱 → TTL → 배치 → 트리밍 → 라우팅 6단계 누적이 핵심. 한 번 셋업한다고 끝나지 않고 트래픽 패턴 변할 때마다 cache hit율·라우팅 비율·청크 크기를 재조정해야 해요.
지금 당장 할 일 3가지. (1) Anthropic 콘솔 Usage 대시보드 열고 토큰 증가율 측정. (2) 가장 자주 호출되는 컨텍스트 블록에 cache_control 마커 추가. (3) 트래픽 분석해 비실시간 작업을 배치 API로 분리. 이 3가지만 해도 첫 주에 30% 비용 절감이 보일 거예요.
관련 글로 Claude Opus 4.7 1M 컨텍스트 실전 활용법 7가지와 GPT-5.5 새 토크나이저 활용 7가지 팁도 같이 참고하세요. 모델별 토크나이저 차이 이해가 비용 최적화의 첫걸음이에요.