Perplexity 학술 모드 사용법 — 논문 리서치 자동화 7가지 활용법 (2026년)
Perplexity Pro Academic Focus 모드로 Semantic Scholar 2억 편 논문 검색·인용·요약을 한 번에. 2026년 5월 기준 학술 리서치 자동화 7가지 실전 활용법과 무료 vs 유료 차이까지.
AI 기술을 누구나 쉽게 활용할 수 있도록 실전 가이드를 작성합니다. ChatGPT, Claude, AI 자동화, SEO 분야를 전문으로 다룹니다.
지난주에 4.6 → 4.7 마이그레이션 마쳤는데, PR 자동 머지율이 체감으로 50% → 75% 로 뛰었어요. SWE-bench Verified 점수 87.6% (4.6은 80.8%) 라는 수치가 단순한 마케팅이 아니라 실제 작업에서 그대로 느껴져요.
특히 변화 큰 건 멀티시간 작업 처리. 4.6 시절엔 30분~1시간 넘는 PR은 도중에 컨텍스트 잃거나 잘못된 길로 빠지는 경우가 많았어요. 4.7은 4시간짜리 리팩터링도 한 번에 마무리. 이 글은 직접 1M 컨텍스트·Task Budget·xhigh effort 다 써보고 정리한 실전 후기예요.

SWE-bench는 GitHub 실제 이슈 500개를 모델에게 던지고 PR 만들도록 시켜서, 머지 가능한 비율을 측정하는 벤치마크예요. 87.6% 라는 건 100개 이슈 중 87.6개를 사람 손 안 대고 머지 가능한 PR로 해결한다는 뜻.
4.6은 5~6 파일 넘어가면 import 빠뜨리거나 함수 시그니처 불일치 발생률 30% 정도였는데, 4.7은 10 파일 PR도 1차 시도 성공률 85%.
저는 React 프로젝트에서 Context API → Zustand 마이그레이션을 12 파일에 걸쳐 시켰는데, 한 번에 빌드 통과하고 모든 테스트 그린.
복잡한 race condition 디버깅 시 4.6은 보통 12번 시도하고 "근본 원인 모르겠음" 으로 포기하는데, 4.7은 **57번 시도하며 다른 가설 검증**. xhigh effort 켜면 더 길게 추적.
50만 라인 모노리포 통째로 던져서 "이 코드베이스의 잠재적 보안 취약점 5가지" 같은 분석 가능. 4.6 시절엔 청크 나눠서 5번 호출해야 했는데, 4.7은 1번에 끝.
이건 SWE-bench엔 안 잡히는 부분인데, 한국어 README·주석 작성이 4.6 보다 명확히 좋아졌어요. "~합니다" 톤이 줄고, 자연스러운 구어체 + 기술 용어 정확.
3.75 MP 비전 지원으로 스크린샷에서 작은 에러 메시지·diff 인식 가능. 4.6은 화면 해상도 떨어지면 텍스트 잘 못 읽었어요.
이전 모델은 200K 넘는 long-context 호출 시 추가 요금 붙었어요 (입력 $30/1M, 출력 $150/1M). 4.7부터 모든 컨텍스트 길이가 표준 단가:
| 항목 | 단가 |
|---|---|
| Input tokens | $15 / 1M |
| Output tokens | $75 / 1M |
| Cached input (5분) | $1.5 / 1M |
| Cache write | $18.75 / 1M |
| Cache read (1시간) | $1.5 / 1M |
1M 컨텍스트 한 번 호출 = 인풋 $15. 캐싱 없이 10번 호출하면 $150. 5분 캐시 활성화하면 첫 호출 $15 + 9번 $1.5씩 = $28.5 (81% 절감).
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7-20260315",
max_tokens=4096,
system=[
{
"type": "text",
"text": codebase_content, # 1M 컨텍스트
"cache_control": {"type": "ephemeral"} # 5분 캐시
}
],
messages=[{"role": "user", "content": user_prompt}]
)
이 한 줄(cache_control) 빠뜨리면 비용 3~5배 차이. 같은 ai-blog의 Claude Projects 활용법 7가지 — 1M 컨텍스트 200% 활용 도 함께 보면 활용 시나리오 더 깊이 이해할 수 있어요.
Task Budget은 4.7부터 베타로 추가된 기능이에요. 에이전트 작업 시 토큰 총량 제한을 모델에게 명시적으로 알려서, 한정된 자원 안에서 가장 가치 있는 일에 집중하게 만드는 메커니즘.
요청에 task_budget_tokens 200000 설정 → 모델이 작업 시작 시 "내가 쓸 수 있는 총 토큰 200K" 인지. thinking·tool calls·tool results·최종 출력 모두 이 안에서 처리.
response = client.messages.create(
model="claude-opus-4-7-20260315",
max_tokens=4096,
task_budget_tokens=200000, # 베타
thinking={"type": "adaptive"},
messages=[...]
)
핵심: 카운트다운이 모델에게 보임. 50% 소진 시점부터 "검증 단계 줄이고 핵심 결과만" 하는 식으로 페이스 조절.
n8n 자동화 (n8n + Claude API 자동화 5단계 참고)에서 Claude가 같은 도구를 30번 반복 호출하던 문제. Task Budget 100K 설정 후 15~20회에서 자체 종료.
PR 자동 리뷰에서 큰 PR 만나면 1시간씩 걸리던 게, Task Budget 50K 설정 후 5분 내 핵심 코멘트만 남기고 종료. 이슈 라벨로 "더 깊은 분석 필요" 표시.
월 $500 예산 안에서 운영. Task Budget으로 작업당 토큰 상한 설정 → 한 작업이 폭주해서 예산 깨먹는 일 방지.
저는 n8n + Claude API 자동화와 결합해서 PR 자동 처리 워크플로우 운영 중이에요. 5단계 구조:
PR 오픈 이벤트가 webhook으로 들어옴. 라벨 'auto-review' 가 있으면 Claude 4.7 호출 분기.
gh pr diff #123 으로 변경 사항 + gh pr view --json 으로 메타 정보 수집. 평균 5K 토큰.
해당 PR이 건드리는 모듈의 전체 소스(평균 100K~300K 토큰) 를 prompt cache로 등록. 5분 캐시.
변경 사항을 7가지 관점에서 리뷰:
1. 잠재적 버그·null 처리 누락
2. 타입 안전성 약한 곳
3. 테스트 커버리지 부족
4. 성능 회귀 가능성
5. 보안 위험 (SQL 주입·XSS·secret 노출)
6. 코드 스타일·가독성
7. 비즈니스 로직 모순
각 이슈에 인라인 코멘트로 위치·심각도·수정 제안 작성.
평균 응답 시간 47분, 토큰 소모 80K150K, 비용 PR당 $1~2.
응답을 파싱해서 gh pr review --comment 로 인라인 코멘트 작성. 심각도 상 5개 이상이면 'changes-requested', 그 외 'commented'.

xhigh effort는 Claude Code 전용 명시적 옵션이에요. 일반 adaptive보다 thinking 토큰 5~10배 사용.
xhigh 한 번 호출하면 응답 3~5분 + 토큰 5배. 정말 가치 있는 작업에만 쓰는 게 비용 효율적.
비용 5배 차이. 모든 long-context 호출에 cache_control 필수.
토큰 5배·시간 5배. 단순 작업은 adaptive 충분.
작업이 도중에 끊김. 최소 50K 권장. 평균 작업은 100~200K.
claude-opus-4-6 → claude-opus-4-7-20260315 모델명 변경 필수. 라이브러리 버전도 anthropic >= 0.45 필요.
토큰 낭비 + 결과 품질 하락. 관련 파일만 컨텍스트에 넣고, 나머지는 도구 호출(file_read)로 필요할 때만 로드.
4.7이 SWE-bench 87.6% 라면 GPT-5.5 는 SWE-bench Verified 84.2% (Anthropic 자체 발표 비교). 코딩에선 Claude 4.7 우위지만, 일반 채팅·창의적 글쓰기는 GPT-5.5 가 더 자연스러워요.
저는 코드는 Claude, 마케팅·문서는 GPT 로 나눠 써요. Cursor 3.0 / best-of-n 으로 두 모델 동시에 던져서 작업 성격별 최적 모델 채택하는 흐름이 가장 효율적이에요.
처음 마이그레이션이라면 prompt caching·Task Budget 두 가지부터 적용하세요. 비용 50~80% 절감 + 안정성 동시에 잡혀요. 한 번 익숙해지면 4.6으로 못 돌아가요.
SWE-bench Verified 80.8% → 87.6% (6.8%p 상승), SWE-bench Pro 53.4% → 64.3% (10.9%p 상승). 체감으로는 '여러 파일 걸쳐 있는 리팩터링'에서 차이가 가장 커요. 4.6은 5~6 파일 넘어가면 import 빠뜨리거나 시그니처 안 맞춰서 결과 손봐야 했는데, 4.7은 10 파일짜리 PR도 한 번에 깔끔히 마무리해요.
이전엔 200K 넘는 long-context 사용 시 추가 요금 붙었는데, 4.7부터는 1M까지 동일 단가($15 input·$75 output / 1M tokens). 모놀리스 코드베이스(50만 라인) 통째 분석에 추가 비용 없음. 다만 캐싱(prompt cache) 안 쓰면 매번 1M 다 읽어서 한 호출당 $15 깨져요 — 캐싱은 필수.
adaptive thinking은 모델이 문제 난이도 보고 자동으로 thinking 토큰 양을 조절. xhigh effort는 Claude Code 전용 명시적 옵션으로 '이 작업은 정말 깊게 생각해' 신호. 일반 작업은 adaptive로 두고, 어려운 알고리즘·아키텍처 결정에만 xhigh 명시. xhigh 쓰면 응답 시간 30~60초 → 3~5분으로 늘어나지만 결과 품질 명확히 좋아져요.
API 요청에 max_thinking_tokens·max_output_tokens 외에 task_budget_tokens 추가(베타). 모델이 작업 시작할 때 '내가 쓸 수 있는 토큰 총량'을 알고 그에 맞춰 페이스 조절. 예: 200K 설정하면 thinking·tool calls·결과 포함해 200K 안에서 마무리. 초과하면 우선순위 낮은 검증 단계 스킵하고 핵심만 결과로 출력. 무한 루프·과도한 도구 호출 방지에 효과적.
팀 규모별로 ① 1인 개발자 주 5 PR 자동화: 월 $15~25 ② 5인 팀 주 30 PR: 월 $80~120 ③ 풀타임 봇 운영(주 100+ PR): 월 $300~500. 핵심은 prompt caching 활성화(첫 호출 후 동일 컨텍스트 90% 할인). 캐싱 없이 돌리면 비용 3~5배.