GPT-5.5 vs Claude 4.7, 5월 LMArena 1위 다툼 정리
5월 1주차에 GPT-5.5가 출시되고 LMArena 1위를 가져갔는데, 5월 2주차에 Claude Opus 4.7가 출시되면서 다시 1위 탈환. 둘 다 출시된 5월 시점부터는 ‘어느 한쪽이 절대 우세’가 아니라 ‘작업별 분기’가 표준이에요.
저도 5월 1주차부터 ChatGPT Plus + Claude Pro 둘 다 구독하면서 작업별로 어느 쪽이 본전 좋은지 실측해봤어요. 결론은 ‘둘 다 쓰는 게 본전 가장 좋고 어느 한쪽만 쓰면 손해 영역 명확’이라는 거. 이번 글에서는 5월 16일 시점 7개 작업 기준 모델 선택 가이드를 한국 사용자 입장에서 실측 데이터로 정리합니다.

1. 코딩 작업 — Claude 4.7 우세
SWE-bench Verified 5월 기준 점수.
| 모델 | SWE-bench | HumanEval | 비고 |
|---|
| Claude Opus 4.7 | 92% | 96% | 1위 |
| GPT-5.5 | 89% | 95% | 2위 |
| Claude Sonnet 4.6 | 85% | 92% | 가성비 |
| GPT-5 | 84% | 91% | 직전 세대 |
5월 시점 코딩은 Claude 4.7가 안정적. 특히 ‘버그 수정·리팩토링·코드 리뷰’ 영역에서 명확한 우세. UI/UX React 코드 생성은 GPT-5.5도 비슷한 수준이라 ‘프론트 전담’이라면 둘 다 써봐도 됩니다. 한국 코드베이스에 자주 등장하는 ‘한국어 주석 + 코드’ 처리는 4.7가 신규 토크나이저로 정확도 더 높아요.
실측 데이터로 한국 스타트업 개발팀 사례를 보면 ‘동일 리팩토링 작업’ 결과물이 명확하게 차이가 났어요. GPT-5.5는 ‘기능은 작동하지만 코드 스타일이 일관성 부족’ 패턴이 자주 나오는 반면 Claude 4.7는 ‘기존 코드베이스 컨벤션을 자동으로 학습해서 일관성 유지’가 훨씬 강해요. 회사 코드베이스 안정성이 중요한 본업 환경에서는 4.7가 본전 분기 명확.
2. 한국어 글쓰기 — 영역별 분기
한국어 작업 영역별 추천.
- 격식체 보고서·논문·기사: Claude 4.7
- 블로그·뉴스레터·일상 글: Claude 4.7
- 소설·시·창의적 카피: GPT-5.5
- 광고 카피·SNS 헤드라인: GPT-5.5
- 학술 영문 번역: Claude 4.7
4.7는 신규 토크나이저로 한국어 효율 자동 향상. 격식체·논리적 글쓰기에서 자연스러움이 명확 우세. GPT-5.5는 ‘창의성·신선한 표현’이 강점이라 마케팅·콘텐츠 영역에서 본전. 한국 블로그·뉴스레터 작가는 4.7 위주 + 광고 카피만 GPT-5.5로 분리하는 패턴이 5월 표준.
특히 ‘번역체 vs 자연스러운 한국어’ 차이가 두 모델에서 명확하게 드러나요. GPT-5.5는 영어 사고 구조 그대로 한국어로 옮기는 패턴이 가끔 보여서 ‘~을 통해서 우리는 이러한 사실을 알 수 있습니다’ 같은 번역체 표현이 자주 나오는데, Claude 4.7는 한국어 화자가 실제 말하는 톤에 더 가까운 ‘이걸 보면 ~이거든요’ 같은 자연스러운 표현이 잘 나와요. 한국 독자 대상 콘텐츠 만드는 분이라면 4.7가 본전 분기 명확하고, 영어권 독자 대상 콘텐츠는 GPT-5.5가 더 자연스러워요.
3. 수학·과학 추론 — GPT-5.5 약간 우세
GPQA Diamond·AIME 2025 5월 점수.
| 작업 | Claude 4.7 | GPT-5.5 |
|---|
| GPQA Diamond | 88% | 91% |
| AIME 2025 | 93% | 96% |
| MATH (단순 문제) | 95% | 97% |
| 박사 논문 분석 | 우수 | 양호 |
수학·과학 객관 점수는 GPT-5.5가 5%p 정도 우세. 단 ‘긴 단계적 추론(CoT)’ 또는 ‘박사 논문 분석·실험 설계 종합’은 4.7가 안정적. 학부·고교 입시 수학 풀이는 GPT-5.5가 정확도 높고, 박사·연구자 수준 분석은 4.7가 깊이 있는 답변이 본전.
대학원생·연구자 사용 패턴을 보면 ‘객관식 단순 문제 = GPT-5.5, 논문 작성·실험 설계·문헌 비판 = Claude 4.7’ 분기가 자리잡고 있어요. GPT-5.5는 빠르고 정확한 답을 빠르게 내는 데 강하고, 4.7는 ‘이 가설의 약점이 뭐고, 대안 가설은 무엇이며, 어떤 실험을 설계해야 검증 가능한가’ 같은 다층적 사고를 요구하는 작업에서 본전 분기 명확.
4. 비전·이미지 분석 — Claude 4.7 우세 (5월 신규)
5월 출시 4.7가 2576x2576px 이미지 직접 처리 가능. GPT-5.5는 최대 2048x2048px. 한국 사용자가 자주 하는 케이스로 ‘세무서류 스캔본·디자인 시안·작은 글자 PDF’ 처리는 4.7가 우세. 단 ‘인물 사진 분석·창의적 이미지 설명’은 GPT-5.5도 비슷한 수준이라 일반 케이스는 둘 다 OK. 정밀 분석 필요 시 4.7 선택이 안전.
세무사·회계사·법무사처럼 한국 자영업 영역 종사자가 5월부터 4.7로 대거 이동하는 패턴이 보여요. 영수증·계약서·등기부등본 같이 작은 글자가 빼곡한 서류를 풀해상도로 분석할 수 있다는 게 본업 시간 절감 효과가 정말 크기 때문이에요. 한 건 분석에 5분 들이던 작업이 30초로 단축되니까 하루 처리량이 10배 늘어나는 케이스가 흔해요.
5. 음성·영상 — GPT-5.5 우세
OpenAI Sora 2 + Advanced Voice Mode 생태계는 ChatGPT Plus·Pro 전유. Claude는 음성·영상 생태계 약함. 한국 사용자가 ‘음성 통역·영상 생성·음성 비서’ 사용한다면 ChatGPT Plus 필수. Claude는 텍스트·코딩·문서 분석에 집중하는 분기가 본전.
Sora 2가 영상 본업 종사자에게 게임체인저인 이유는 ‘텍스트 한 줄로 25초 영상’ 자동 생성 가능하기 때문이에요. 영상 외주 단가가 5월 시점 15초 영상 30만 원 수준인데 Sora 2로 30초 만에 초안 생성 → 본인이 편집해서 결과물 보내는 워크플로 정착되면 시간당 수입이 5~10배 늘어나요. 음성 생성도 마찬가지로 ElevenLabs 같은 외부 도구 없이 Advanced Voice Mode 한 곳에서 처리 가능한 게 ChatGPT의 본전 분기 영역.
6. 1M 컨텍스트 — 동일 가용
Claude Opus 4.7·GPT-5.5 둘 다 1M 토큰 컨텍스트 옵션 제공. 단가도 비슷한 수준(추가 50% 프리미엄). 한국 사용자 활용 케이스로 ‘한 회사 코드베이스 전체 분석·박사 논문 100편 메타분석’은 둘 다 가능. 단 ‘긴 컨텍스트 일관성’은 4.7가 약간 더 안정적이라 책 8권 분량 분석 같은 극단적 케이스는 4.7가 본전.
긴 컨텍스트에서 한국어 문서를 다룰 때 차이가 더 크게 나요. GPT-5.5는 1M 컨텍스트에서 한국어 비중이 50% 넘으면 ‘후반부 디테일 무시’ 패턴이 가끔 보이는 반면, Claude 4.7는 신규 토크나이저 효과로 한국어 비중 높아도 일관성 유지가 안정적이에요. 한국 자료 위주 메타 분석 작업은 4.7가 본전 분기 명확.
7. 비용·구독 — 작업 분기별
5월 시점 한국 사용자 추천 조합.
| 사용 패턴 | 추천 구독 | 월 청구 |
|---|
| 일반 직장인 (가벼운 사용) | ChatGPT Plus 또는 Claude Pro | $20 |
| 코딩 본업 (활발한 사용) | 둘 다 구독 | $40 |
| 영상·음성 본업 | ChatGPT Pro | $200 |
| 1M 컨텍스트 본업 | ChatGPT Pro 또는 Claude Max | $100~200 |
| 학생·취준생 | Plus 한 개부터 | $20 |
5월 시점 한국 사용자 80%가 ‘둘 다 구독’ 패턴 = 월 $40. 본인 작업 분포 봤을 때 ‘코딩·문서 = Claude / 영상·음성 = ChatGPT’ 분리 운영이 가장 안전한 분기. 어느 한쪽만 쓰면 손해 영역 명확.
한국 사용자 작업별 의사결정 트리
5월 16일 시점 추천 의사결정 트리.
작업이 무엇인가?
├── 코딩·버그수정·리팩토링 → Claude 4.7
├── 한국어 격식체 보고서·논문 → Claude 4.7
├── 한국어 블로그·뉴스레터 → Claude 4.7
├── 광고 카피·소설·시 → GPT-5.5
├── 수학·과학 박사 수준 → GPT-5.5
├── 음성·영상 생성 → GPT-5.5 (Sora 2)
├── 정밀 비전 분석 → Claude 4.7 (2576px)
└── 1M 컨텍스트 책 8권 분석 → Claude 4.7
Claude Opus 4.7 신규 기능 7가지에서 4.7 디테일을 더 깊이 다뤘으니 함께 참고하세요.
흔한 실수 5가지
실수 1 — 한 모델만 사용
어느 한쪽도 모든 영역에서 절대 우세 아님. 작업 분기 필수.
실수 2 — LMArena 1위만 보고 선택
LMArena는 사용자 투표 기반. 객관 벤치마크·실사용 데이터도 같이 봐야.
실수 3 — Pro 무조건 결제
일반 사용자는 Plus + Claude Pro = 월 $40으로 80% 케이스 커버. Pro는 영상 본업·1M 정기 사용 명확할 때만.
실수 4 — 한국 회사 결제 미준비
공식 결제·AWS·Azure·Vertex 5가지 옵션 모두 부가세 환급 가능. 미리 회계 부서와 협의 필수.
실수 5 — 신규 모델 출시 즉시 갈아타기
5월 GPT-5.5 출시 직후 1주일은 안정성 검증 안 됨. 출시 후 2~4주 지나 안정화된 시점에 본격 사용이 안전.
한국 직장인 5월 표준 셋업
5월 시점 한국 직장인 80%가 사용하는 표준 셋업.
구독:
- ChatGPT Plus ($20) — Sora 2·음성·창의 작업
- Claude Pro ($20) — 코딩·문서·격식체 글
월 청구: $40 (약 54,000원)
부가세 환급: 10% 가능 (회사 결제 시)
실효 비용: 약 49,000원/월
실효 비용 5만 원 미만으로 두 생태계 다 활용 가능. 코딩 본업·문서 작업은 Claude, 영상·창의 작업은 ChatGPT 분기 운영이 5월 표준이고 일주일에 한 번 정도 ‘작업 분포 회고’ 해보면 ‘이 작업은 다른 쪽이 더 본전이었네’ 패턴이 보여요.
5월 시점 한국 개발자 X 계정에서 자주 보이는 패턴이 ‘아침 코딩은 Claude, 오후 회의록·이메일은 GPT-5.5, 저녁 영상 편집은 Sora 2’ 같이 시간대별 모델 분기예요. 매일 같은 패턴 반복하다 보면 무의식적 분기 가능해져서 ‘이거 어느 모델 써야 하나’ 매번 고민 안 해도 자동으로 적정 모델 선택돼요.
6월 이후 전망
6월에는 Gemini 3.2·Grok-3·Mistral Large 2.5 출시 예정. 56개 모델이 동시 경쟁하는 시점이라 ‘한 모델 절대 우세’ 기대 어렵고 ‘56개 모델 동시 구독 후 작업 분기 라우팅’ 패턴이 정착될 가능성 높아요. 일반 사용자는 ‘ChatGPT Plus + Claude Pro 2개 구독’ 유지하면서 6월 신규 모델 출시 시점에 재평가가 안전.
마무리 — 지금 당장 할 수 있는 액션
5월 16일 시점 추천 액션 순서는 이래요.
먼저 본인 작업 분포 일주일치 측정. ‘월·수·금 = 코딩, 화·목 = 글쓰기, 토 = 영상’ 같은 패턴 파악이 출발점. 측정 데이터 없이 ‘이 모델이 좋겠지’ 결정하면 매월 청구서 손실이 누적돼요. 정확히 본인 작업 분포 측정해야 어느 모델 본전인지 명확해져요. 30분 시간 들여 7일치 정리하면 충분합니다.
다음 ChatGPT Plus + Claude Pro 둘 다 구독. 월 $40 (약 54,000원). 어느 한쪽만 쓰면 손해 영역 명확하니까 처음부터 둘 다 구독 분기가 본전 빠르게 회수돼요. 회사 결제 시 부가세 환급으로 실효 49,000원.
작업 분기 의사결정 트리를 메모 앱에 저장해두세요. ‘코딩 = 4.7, 영상 = GPT-5.5, 한국어 격식체 = 4.7’ 같은 한 페이지 메모. 처음 1~2주는 메모 보면서 작업 시작하고 4주 차부터는 무의식적으로 분기 가능해져요.
한국 회사 결제 필요한 분이라면 회계 부서에 ‘OpenAI·Anthropic 공식 결제로 부가세 환급 가능’ 문서 제출 후 사전 승인 받으세요. 회계 부서 입장에서는 ‘해외 신용카드 결제’ 자체에 거부감 있는 경우 많은데 ‘세금계산서 자동 발급 + 부가세 환급 가능’ 명시하면 승인 받기 쉬워요. 5월 시점 한국 법인 결제 공식 채널은 다섯 가지(공식·AWS·Azure·Vertex)라 회사 정책에 맞는 채널 선택이 안전.
마지막으로 6월 Gemini 3.2·Grok-3 출시 시점에 재평가하세요. 5~6개 모델 동시 경쟁 시대라 한 모델 절대 우세 기대 어렵고 ‘작업별 라우팅 + 신규 모델 지속 평가’ 운영 패턴이 5월 이후 표준이에요. 본전 최적화는 한 번 결제하고 끝이 아니라 매월 회고 사이클이 본전 가장 좋은 분기입니다.