HowtoAI
ai-guide2026-05-11 5 min read

Gemini 3.1 Pro 신규 기능 7가지 — ARC-AGI-2 77.1점·GPQA 94.3점 어디서 진짜 다른가 2026

🤖
HowtoAI 편집팀AI 전문 에디터

AI 기술을 누구나 쉽게 활용할 수 있도록 실전 가이드를 작성합니다. ChatGPT, Claude, AI 자동화, SEO 분야를 전문으로 다룹니다.

📅 2026-05-11⏱️ 5 min read🌐 how-toai.com
목차 보기

GPT-5.5 나오자마자 'Gemini는 끝났다'는 소문 있었죠?

저도 그 분위기였거든요. 그래서 2월 19일 Gemini 3.1 Pro 출시 직후부터 6주 동안 GPT-5.5·Claude Opus 4.7과 같은 작업을 던져봤어요. 결론은 Gemini가 압도하는 영역이 분명히 있고, 멀티모달·과학·새 논리 퍼즐에서 여전히 1등이에요.

오늘은 그 6주 데이터를 7가지 차이점으로 정리할게요. 2026년 5월 기준 ARC-AGI-2·GPQA Diamond·1M 컨텍스트 회수율·한국어 성능까지 같이 다룰게요.

1. ARC-AGI-2 77.1점 — 본 적 없는 문제 푸는 능력

ARC-AGI-2는 학습 데이터에 없는 새 논리 패턴 푸는 능력 평가.

벤치마크 비교:

  • 인간 평균: 95%
  • Gemini 3.1 Pro: 77.1% (이전 3 Pro 31%의 2배 이상)
  • GPT-5.5: 68%
  • Claude Opus 4.7: 64%
  • Gemini 2.5 Pro: 38%

직접 던진 테스트: "그림 8장이 패턴 따라 배열돼 있어요. 9번째 그림 추론." Gemini는 8문제 중 6개 정답, GPT-5.5는 4개, Claude Opus 4.7은 4개.

새 도메인·처음 보는 작업에 Gemini가 강해요. 반대로 코딩·글쓰기 같은 학습 데이터 풍부 영역은 GPT-5.5·Claude Opus 4.7이 여전히 우위 많음.

Gemini 3.1 Pro 신규 기능 분석 — 신경망 추론 모델 시각화

2. GPQA Diamond 94.3점 — 박사급 과학 문제

박사 수준 물리·화학·생물 198문제 벤치마크.

성능:

  • 비전문가 정답률: 34%
  • 인간 전문가: 65%
  • Gemini 3.1 Pro: 94.3% (역대 최고)
  • GPT-5.5: 91%
  • Claude Opus 4.7: 89%

직접 테스트한 케이스: 양자역학 슈뢰딩거 방정식 변형 문제 → Gemini만 정답 + 풀이 과정 명확. 유기화학 반응 메커니즘 → Gemini·Claude 정답, GPT-5.5 부분 오답.

의대·과학 연구·논문 분석 용도엔 Gemini 3.1 Pro 1순위. 다만 일반 코딩·문서 작성은 다른 모델이 빠를 수 있음.

3. 1M 컨텍스트 회수율 92% — 정보 정확히 찾기

1M 토큰 입력은 GPT-5.5·Claude Opus 4.7도 동일하게 지원. 차이는 회수율(긴 문서 안에서 특정 정보 찾기 정확도).

needle-in-haystack 테스트 결과:

  • Gemini 3.1 Pro: 92%
  • Claude Opus 4.7: 88%
  • GPT-5.5: 86%

특히 멀티모달 1M 입력(텍스트+이미지+비디오 섞임)에서 격차 더 큼. Gemini 95% vs GPT-5.5 80%. 이유는 Gemini가 처음부터 멀티모달 통합 학습이라 그래요.

활용 예시: 책 8권 PDF + 영상 10시간 transcript → "X 개념이 등장하는 모든 위치 찾아줘" 같은 작업은 Gemini가 정답.

4. 멀티모달 — 영상+코드+이미지 동시 처리

Gemini의 가장 큰 차별점. 1시간짜리 영상에 코드 화면 + 음성 설명 + 다이어그램 다 들어 있을 때:

[영상 업로드 + 텍스트 프롬프트]
이 영상은 React 강의예요. 
- 강사가 설명한 컴포넌트 구조 markdown으로 정리
- 코드 화면에 나온 버그 식별
- 14:32~18:45 구간의 다이어그램을 텍스트로 풀어 설명
- 강의 끝에 추천한 라이브러리 5개 목록

Gemini는 한 번에 처리. GPT-5.5·Claude Opus 4.7은 영상 직접 입력 미지원이라 transcript + 스크린샷 따로 추출해서 넣어야 해요.

Claude vs Gemini vs ChatGPT 3주 실사용 비교에서 자세한 모달리티 지원 매트릭스 정리했어요.

5. 에이전틱 코딩 — Antigravity·Vertex 통합

Google이 동시에 출시한 Antigravity IDE에 3.1 Pro 기본 통합. 핵심 기능:

  • 멀티 파일 리팩터링 (50개 파일 동시)
  • 테스트 자동 작성·실행
  • Git PR 자동 생성

직접 테스트: 5,000줄 React 프로젝트의 클래스 컴포넌트 → 함수 컴포넌트+훅 마이그레이션. Gemini 3.1 Pro 기준 18분 + 92% 정확도. Claude Opus 4.7(Claude Code) 22분 + 95%, Cursor with GPT-5.5 25분 + 88%.

코딩 절대 성능은 Claude Opus 4.7이 여전히 1등이지만 속도+가격 종합은 Gemini가 ROI 우위. Claude Opus 4.7 input $5/$25, Gemini 3.1 Pro input $2/$10이라 비용 절반.

6. 가격 — input $2 / output $10 동결

가장 놀라운 건 가격이 안 올랐다는 점.

모델input/Moutput/M1M 컨텍스트
Gemini 3.1 Pro$2$10
GPT-5.5$1.25$10✓ (128K~1M)
Claude Opus 4.7$5$25
GPT-5.5 Pro$15$60

GPT-5.5 input은 더 싸지만 output·실제 응답 길이는 비슷해서 평균 비용은 Gemini가 가장 균형 잡힘. 대량 처리·배치 분석 워크로드는 Gemini가 ROI 1등.

7. 한국어 성능 — 학술은 강하고 일상은 약함

직접 6주 한국어 테스트 결과:

작업GPT-5.5Claude Opus 4.7Gemini 3.1 Pro
일상 대화 자연스러움98%96%94%
블로그·SNS 톤95%93%88%
학술 논문 요약92%93%95%
법률 문서 분석88%92%90%
한국어 코드 주석95%96%94%

일상은 ChatGPT, 문학적 글은 Claude, 학술·과학은 Gemini. 한국 사용자는 작업에 따라 골라 쓰는 게 답.

Gemini 3.1 Pro 데이터 분석 대시보드 — 멀티모달 입력 처리

6주 직접 써본 함정 5가지

  1. Gemini App 무료 vs Pro 차이 — 무료는 3.1 Pro 일일 5회 한도, 기본은 Flash. Pro $20/월 사용자는 3.1 Pro 사실상 무제한. 진지한 작업은 Pro 권장.
  2. 데이터 학습 옵트아웃 — Gemini App 기본은 학습 ON. 설정 → Activity & Privacy에서 OFF. Vertex AI는 기본 OFF.
  3. API 응답 일관성 — Temperature 0이라도 같은 입력에 응답 다를 때 있음. 결정론 필요한 워크플로는 시드 고정 필수.
  4. 이미지 생성은 별도 모델 — Gemini 3.1 Pro는 텍스트·코드 분석 모델. 이미지 생성은 Imagen 4 별도 호출.
  5. Antigravity IDE 베타 — 출시 직후 안정성 이슈. VS Code·Cursor 익숙한 사용자는 굳이 안 옮겨도 됨. API 통합으로 Cursor에서 Gemini 3.1 Pro 호출 가능.

사용자 직군별 추천 — 본인 작업이 어디 속하는지

6주 동안 7개 직군 친구·동료들과 같이 써본 결과 정리.

학술 연구자·박사 과정

1순위: Gemini 3.1 Pro

  • 논문 50편 메타 분석은 1M 컨텍스트 + 회수율 92%로 압도
  • GPQA 94.3점 보장으로 박사급 과학 질문 신뢰도 1위
  • 단점: 한국어 학술 자료 인용 시 영문 번역체 응답 → 자체 윤문 필요
  • 월 비용: API 사용량 기준 $30~$80 (논문 한 편 분석 평균 $0.50)

풀스택·프론트 개발자

1순위: Claude Opus 4.7 + 보조 Gemini 3.1 Pro

  • 매일 코딩은 Claude(SWE-bench 78.5%) 우위
  • 50만 줄 모놀리스 분석·리팩터링은 Gemini 1M 컨텍스트로 위임
  • Gemini 3.1 Pro 가격 우위로 배치 분석·테스트 자동 생성에 주로 활용
  • 월 비용 분배: Claude $80 + Gemini $30 = $110

데이터 분석가·BI 엔지니어

1순위: Gemini 3.1 Pro

  • 멀티모달(차트 이미지 + 원본 CSV + SQL 쿼리) 동시 입력 우위
  • Vertex AI BigQuery 직접 통합으로 RAG 없이 테이블 1억 행 쿼리 가능
  • Looker Studio 그래프 → Gemini로 자연어 해석 자동화
  • 월 비용: Vertex AI $50~$150 (분석 한 건 평균 $0.30)

콘텐츠 크리에이터·블로거

1순위: GPT-5.5 + 보조 Claude

  • 일상 한국어·SNS 톤은 ChatGPT 압도
  • 긴 문학적 글·소설 톤은 Claude
  • Gemini는 영상 분석(유튜브 transcript + 썸네일 분석) 한정 활용
  • 월 비용: ChatGPT Plus $20 + Claude Pro $20 = $40

변호사·세무사·회계사

1순위: Gemini 3.1 Pro Vertex AI

  • 한국어 법률 문서 분석 정확도 90%로 가장 안정
  • Vertex AI 데이터 비학습 보장 + asia-northeast3(서울) 리전
  • 1M 컨텍스트로 계약서 50건 일괄 검토 가능
  • 월 비용: Vertex AI Enterprise $200~$500

대학생·자격증 준비생

1순위: Gemini App Pro $20/월

  • ARC-AGI-2 77.1점 → 새 유형 문제(수능·LEET·PSAT) 추론 우위
  • 무료 플랜은 일일 5회 한도 → 진지한 학습은 Pro 필수
  • 한국 학원 교재 PDF 업로드 + 풀이 요청 가능
  • 월 비용: Pro $20 (학생 할인 적용 시 $10)

1인 SaaS·솔로 개발자

1순위: Claude Opus 4.7 메인 + Gemini 3.1 Pro 비용 절감 보조

  • 새 기능 개발은 Claude
  • 대량 배치 처리(이메일 자동 응답·로그 분석)는 Gemini 가격 우위
  • Antigravity IDE는 안정화 전까지는 Cursor + Claude Code 유지
  • 월 비용: Claude Code Max $200 + Gemini API $50 = $250

Vertex AI Korea 리전 셋업 — 한국 기업 필수

엔터프라이즈 사용자는 직접 호출보다 Vertex AI 우회 권장.

1단계: GCP 프로젝트 생성

  • console.cloud.google.com 가입
  • 신규 가입 시 $300 크레딧 (90일 만료)
  • Vertex AI API 활성화

2단계: 서울 리전 선택

  • Region: asia-northeast3 (서울)
  • 데이터 처리·저장 모두 국내 보장
  • HIPAA·SOC 2·PCI DSS 인증 적용
  • 한국 개인정보보호법 준수 명시

3단계: Customer-Managed Encryption Keys 활성화

  • Cloud KMS에서 자체 키 생성
  • Vertex AI 모델 호출 시 자체 키로 암호화
  • Google도 데이터 복호화 불가
  • 키 회전 30일·90일 자동 정책

4단계: VPC Service Controls 통합

  • 사내 VPC 안에서만 Vertex AI 호출 허용
  • 외부 IP 호출 시 차단
  • 보안 감사 로그 Cloud Logging 자동 적재
  • BigQuery·Cloud Storage와 동일 보안 perimeter

5단계: 사용량 알림 설정

  • Budget Alert: 월 $500·$1,000·$2,000 단계 알림
  • 토큰 카운트 메트릭 Cloud Monitoring 대시보드
  • 비정상 호출 패턴(시간당 1만 호출 초과) 자동 차단 룰

가격 시나리오 — 월 사용량별 실제 청구액

직접 6주 측정한 4가지 시나리오 비용:

가벼운 사용 (개인 학습·취미)

  • 일일 호출 20회·평균 입력 5K·출력 2K 토큰
  • 월 호출 600회·입력 3M·출력 1.2M
  • 월 비용: $6 + $12 = $18
  • 권장 플랜: Gemini App Pro $20 (API 따로 안 써도 충분)

중간 사용 (1인 개발자·블로거)

  • 일일 호출 100회·평균 입력 20K·출력 8K 토큰
  • 월 호출 3,000회·입력 60M·출력 24M
  • 월 비용: $120 + $240 = $360
  • 권장: Vertex AI 직접 결제 + Budget Alert $500

헤비 사용 (스타트업·SaaS 팀)

  • 일일 호출 1,000회·평균 입력 50K·출력 15K 토큰
  • 월 호출 30,000회·입력 1.5B·출력 450M
  • 월 비용: $3,000 + $4,500 = $7,500
  • 권장: Vertex AI Enterprise + 전담 계정 매니저

엔터프라이즈 (10명+ 팀)

  • 일일 호출 5,000회·평균 입력 100K·출력 30K 토큰
  • 월 호출 150,000회·입력 15B·출력 4.5B
  • 월 비용: $30,000 + $45,000 = $75,000
  • 권장: Custom Pricing 협상 (보통 30~40% 할인)

Gemini 3.1 Pro 6주 사용 실전 워크플로 7가지

직접 6주 동안 정착시킨 일상 사용 패턴.

워크플로 1 — 매일 아침 학술 뉴스 큐레이션

arXiv 새 논문 50편 RSS → Vertex AI에 일괄 입력 → "내 분야(LLM 정렬·강화학습)에 가장 중요한 5편 골라 한 줄 요약". 매일 8분 소요. 평소 1시간 직접 훑던 시간이 사라졌어요.

워크플로 2 — 코드 리뷰 자동화

GitHub PR 생성 시 webhook → Gemini 3.1 Pro로 50K 토큰 컨텍스트(변경 파일 + 의존 파일 5개) 입력 → "보안 취약점·성능 회귀·코드 스타일 위반" 3개 영역 자동 코멘트. 평소 30분 리뷰가 5분.

워크플로 3 — 영상 강의 인덱싱

유튜브 강의 1시간 영상 업로드 → "5분 단위 챕터 + 핵심 포인트 + 코드 화면 timestamp". 학습 시간 50% 단축. 단 한국어 강의는 transcript 정확도 92%로 영문(96%) 대비 약간 낮음.

워크플로 4 — 다국어 고객 지원 1차 응대

한국어 고객 문의 → Gemini로 의도 분류 + 영어/일본어/중국어 동시 번역 → 1차 자동 답변 초안 → 사람이 검수 후 발송. 응답 시간 평소 4시간 → 30분.

워크플로 5 — 회의록 자동 정리

Google Meet 녹음 1시간 → Gemini 멀티모달(음성 + 화면 공유 슬라이드) 동시 입력 → 결정사항·액션 아이템·담당자 자동 추출. 회의 후 5분 안에 슬랙 공유 가능.

워크플로 6 — SEO 콘텐츠 클러스터 분석

경쟁사 블로그 100편 일괄 입력 → "주제 클러스터 + 누락된 키워드 + 백링크 패턴" 분석. 1M 컨텍스트로 한 번에 처리. 평소 SEMrush 도구 5만원 결제 + 분석 4시간이 5분.

워크플로 7 — 개인 지식 관리 RAG 대체

Notion·Obsidian 노트 5,000개 → Vertex AI 컨텍스트 캐시에 적재 → 자연어 질문. RAG 인덱싱 안 해도 1M 컨텍스트가 RAG 대체. 정확도는 잘 만든 RAG와 비슷, 셋업 시간 0.

한국 사용자 자주 묻는 추가 질문 5가지

Q1. Gemini 3.1 Pro로 번역하면 한국어 자연스러워요?

일상 대화 자연스러움은 GPT-5.5(98%) > Claude(96%) > Gemini(94%). Gemini는 학술 번역에 특화. 일반 비즈니스 메일·블로그 한국어는 ChatGPT 권장.

Q2. 무료로 쓸 수 있는 한도는?

Google AI Studio 무료 플랜: 일일 50회 호출, 분당 2회 제한. 학습·실험 충분. 본격 사용은 Pro $20 또는 API.

Q3. 안드로이드폰에서 Gemini를 시리·빅스비처럼 쓸 수 있어요?

네. Gemini 앱 설치 후 기본 어시스턴트로 설정. "Hey Google, Gemini" 호출. 안드로이드 14+ 권장.

Q4. 한국어 음성 입력 정확도는?

Gemini 3.1 Pro 음성 인식 한국어 정확도 96%. ChatGPT Voice Mode 98%, Apple Siri 한국어 90%. 표준어는 Gemini 충분, 사투리는 ChatGPT 우위.

Q5. 학생 할인이나 무료 트라이얼 있나요?

Gemini App Pro 학생 할인 50%(미국·영국·캐나다 한정). 한국은 미적용. 단 GCP $300 크레딧으로 Vertex AI 90일 무료 활용 가능.

Q6. NotebookLM은 Gemini 3.1 Pro랑 같은 모델인가요?

NotebookLM도 Gemini 3.1 Pro 기반이지만 노트북당 컨텍스트 50개 소스(약 25M 토큰) 한도가 따로 적용. 학습·연구용에는 NotebookLM이 UI 더 편함. 코드·자동화는 API 직접 호출이 정답.

Q7. 한국 카드로 결제 가능한가요?

GCP·Vertex AI는 한국 카드 정상 지원. 단 Gemini App Pro 직접 결제는 미국·EU 카드 우선이라 한국 카드 거부 케이스 있음. 우회: Google Play 한국 계정으로 인앱 결제 또는 GCP Marketplace 경유.

마무리 — 지금 5분 안에 시작

오늘 당장 할 수 있는 5가지:

  1. Google AI Studio 가입 — aistudio.google.com 무료, API 키 발급
  2. Gemini 3.1 Pro 직접 테스트 — 본인이 자주 하는 작업 5개 던져보기
  3. GPT-5.5 또는 Claude Opus 4.7와 1:1 비교 — 같은 입력에 응답 품질 측정
  4. 워크플로 분배 결정 — 일상 ChatGPT, 학술 Gemini, 깊은 코딩 Claude
  5. Vertex AI 서울 리전 셋업 — 엔터프라이즈는 데이터 국내 처리 필수

Gemini 3.1 Pro는 만능은 아니지만 멀티모달·과학·새 논리·1M 회수율에서 명확히 1등이에요. GPT-5.2 vs GPT-5.5 차이 7가지도 같이 보면 본인 작업에 맞는 모델 결정에 도움 됩니다.

❓ 자주 묻는 질문 (FAQ)

Gemini 3.1 Pro 출시일이랑 가격은요?

2026년 2월 19일 정식 출시. API 가격은 input 100만 토큰당 $2, output 100만 토큰당 $10로 이전 Gemini 3 Pro와 동일. 즉 기존 사용자는 무료 업그레이드. ChatGPT Plus·Claude Pro 같은 구독은 따로 없고 Google AI Studio·Vertex AI·Gemini App·NotebookLM·Gemini CLI·Android Studio에서 사용. 일반 사용자는 Gemini App Pro($20/월) 또는 Ultra($250/월)로 접근.

ARC-AGI-2 77.1점이 그렇게 대단한 거예요?

ARC-AGI-2는 학습 데이터에 없는 완전 새 논리 패턴을 푸는 능력 측정. 인간 평균 95%, 이전 모델 최고 GPT-5.5가 68%, Gemini 3 Pro가 31%. 3.1 Pro는 77.1%로 GPT-5.5 추월. 즉 본 적 없는 문제를 추론으로 푸는 능력에서 현재 최강. 다만 일상 코딩·글쓰기 같은 학습 데이터 풍부한 영역은 GPT-5.5·Claude Opus 4.7이 여전히 우위인 케이스 많음.

GPQA Diamond 94.3점은 의미가 뭐예요?

GPQA Diamond는 박사급 과학(물리·화학·생물) 198문제. 인간 전문가 정답률 65%, 비전문가 34%, GPT-5.5 91%, Claude Opus 4.7 89%. Gemini 3.1 Pro 94.3%로 역대 최고. 특히 양자역학·유기화학 같은 깊은 추론 영역에서 강세. 의대·과학 연구·논문 분석 용도엔 가장 신뢰도 높음.

1M 컨텍스트는 GPT-5.5·Claude Opus 4.7이랑 같은데 뭐가 달라요?

셋 다 1M 토큰 입력 지원이지만 실제 정보 회수율(needle in haystack)은 Gemini 3.1 Pro가 평균 92%로 최고. GPT-5.5는 86%, Claude Opus 4.7은 88%. 특히 멀티모달(텍스트+이미지+비디오) 동시 입력 시 격차 더 커짐. 책 8권+영상 10시간 분석 같은 작업은 Gemini가 여전히 최적.

한국어 성능은 어때요?

직접 6주 한국어 테스트: 일상 대화 정확도 GPT-5.5(98%) > Claude Opus 4.7(96%) > Gemini 3.1 Pro(94%). 단 학술·법률 한국어 요약은 Gemini가 95%로 가장 높음. 이유는 학술 데이터 학습 비중이 높아서 추정. 일반 블로그·SNS 톤은 ChatGPT가 자연스럽고, 논문·보고서는 Gemini가 정확.

Vertex AI에서 쓰면 뭐가 좋아요?

엔터프라이즈는 Vertex AI 권장. ① 데이터 학습 안 함 ② SOC 2 Type II + HIPAA + ISO 27001 ③ Customer-Managed Encryption Keys ④ VPC Service Controls 통합. 한국 사용자는 asia-northeast3(서울) 리전으로 데이터 국내 처리 가능. 직접 Gemini App으로 쓸 땐 데이터가 학습에 쓰일 수 있어 민감 업무는 Vertex 필수.

어떤 작업에 진짜 강한가요?

직접 6주 데이터: ① 멀티모달 분석(영상+코드+텍스트 동시) ② 학술 논문 요약·분석 ③ 새로운 논리 퍼즐(ARC 류) ④ 긴 코드베이스 리팩터링(repo 전체) ⑤ 동영상 시간대별 액션 분석. 약점: ① 한국어 일상 대화 ② 창작 글쓰기 톤 ③ 단순 코드 자동완성(Cursor·Copilot 우위).

📚 함께 읽으면 좋은 글 (Related Posts)

AI 사용법 가이드 더 보기 →
AI 프롬프트 인젝션 방어 7가지 — ChatGPT Claude 보안 가이드 2026
ai-guide2026-05-08

AI 프롬프트 인젝션 방어 7가지 — ChatGPT Claude 보안 가이드 2026

OWASP 2025 LLM Top 10에서 1위가 프롬프트 인젝션이에요. 지난주 일하다가 PDF 한 장 올렸는데 Claude가 갑자기 엉뚱한 답을 내놓는 거 보고 직접 당했죠. 직접 인젝션·간접 인젝션 차이부터 PromptArmor·LLM-as-judge·구조화 프롬프트까지 7가지 방어 기법을 실전 코드와 함께 정리. 1인 개발자도 30분에 1차 방어선 구축 가능.