AI 작사 도구 5선 — 가사만 만들어주는 무료 서비스 직접 비교
ChatGPT·Claude·LyricStudio·Lyrical Labs·뤼튼 다섯 가지 AI 작사 도구를 같은 주제로 돌려본 후기예요. 한국어 운율, 후렴 반복, 무료 사용량, 저작권 조건까지 표로 정리했어요.
AI 기술을 누구나 쉽게 활용할 수 있도록 실전 가이드를 작성합니다. ChatGPT, Claude, AI 자동화, SEO 분야를 전문으로 다룹니다.
![]()
Anthropic이 4.6을 공개하면서 코딩·추론 벤치마크 향상을 강조했어요. 그런데 한국어 실무에선 정말 얼마나 차이날까요? 궁금해서 직접 돌려봤어요.
테스트 조건은 이렇게 잡았어요.
이 글에선 결과를 카테고리별로 나눠 보여드릴게요.
TypeScript·Python 코드 생성 과제 6개를 돌렸어요. 평가 기준은 "한 번에 돌아가는 코드 나올 확률"이에요.
| 항목 | Sonnet 4.5 | Sonnet 4.6 |
|---|---|---|
| 첫 실행 성공률 | 72% | 89% |
| 평균 수정 라운드 | 2.3회 | 1.4회 |
| 타입 오류 빈도 | 18% | 6% |
| 주석 완성도 | 보통 | 높음 |
4.6은 특히 경계 조건 처리가 탄탄해요. null 체크, 빈 배열 처리 같은 부분을 먼저 챙겨요. 4.5는 "일단 동작하게" 쓰는 경향이 있었고요.
한국어 주석도 4.6이 더 자연스러웠어요. 4.5는 가끔 "값을 설정합니다" 같은 직역투가 나왔는데, 4.6은 "이 값은 첫 렌더링에만 세팅돼요"처럼 대화체가 섞여요.
보고서·논문·블로그 기사 요약 6개예요. 문서 길이별로 나눠봤어요.
짧은 문서 (2000자 이하)
긴 문서 (1만 자 이상)
즉, 짧은 건 굳이 4.6 안 써도 되고, 긴 문서일수록 4.6이 확실히 유리해요. 저는 10페이지 이상 PDF 요약 작업엔 4.6만 써요.

이 부분이 가장 흥미로웠어요. 4.6은 더 '정돈된' 글을 쓰고, 4.5는 더 '자연스럽게 끊어치는' 글을 써요.
예를 들어 "AI 도구 추천" 주제로 동일 프롬프트를 줬을 때
대화체 블로그는 4.5가 나아요. 레포트 스타일은 4.6이 나아요.
저는 ai-blog 톤(경험담 + 구체 숫자)엔 4.5가 더 맞아서 유지 중이에요. 대신 easy-zetec(정보 중심)엔 4.6 쓰는 게 편해요.
영어→한국어 번역 6개, 한국어→영어 6개씩 돌렸어요.
차이는 크지 않아요. 다만 고유명사·한국어 관용구 처리는 4.6이 더 안정적이에요. "눈치 없다"를 4.5는 "socially clueless", 4.6은 "lacks social awareness" 식으로 구분해서 처리했어요.
수학 문제, 논리 퍼즐, 조건 분석 과제 6개예요. Extended thinking 모드 끈 상태로 비교했어요.
| 과제 | 4.5 정답률 | 4.6 정답률 |
|---|---|---|
| 조건부 확률 계산 | 67% | 83% |
| 코드 디버깅 추론 | 71% | 92% |
| 다단계 논리 문제 | 58% | 80% |
Extended thinking 켜면 둘 다 95%+ 찍어서 큰 차이 없지만, 비용은 thinking 모드가 2~3배 비싸요. 4.6 기본 모드 = 4.5 thinking 모드 수준이라는 느낌이에요.
실제 워크플로우에 맞게 정리했어요.

4.6은 시스템 프롬프트를 엄격하게 따라요. 4.5에서 자연스럽던 "친근한 친구 톤"이 4.6에선 "친근한 친구가 레포트 쓰는 톤"처럼 어색해지는 경우가 있었어요.
해결 방법은 예시 대화 2~3개를 system prompt에 넣는 것이에요. 규칙으로 설명하지 말고 샘플로 보여주세요. 그러면 4.6도 4.5처럼 자연스러워져요.
아래 중 하나라도 해당되면 4.6으로 넘어가는 걸 추천해요.
반대로 아래라면 4.5 유지가 실용적이에요.
Claude AI 완전 가이드에서 기본 사용법을 잡고, Claude vs Gemini vs ChatGPT 비교로 다른 모델과의 차이도 같이 보세요.
30분이면 끝나요. 그러면 요금제·API 비용이 훨씬 합리적으로 설계돼요.
코드와 추론은 4.6이 확실히 나아요. 반면 요약·글쓰기는 문체 차이가 커서 '더 낫다'라기보다 취향 문제예요. 4.5가 더 담백한 답변을 내는 경우도 있거든요.
2026년 4월 기준 Sonnet 4.6은 input $3 / output $15(백만 토큰), 4.5는 input $2.5 / output $10이에요. 4.6이 약 30~50% 비싸요. 대량 요약 작업이면 4.5가 경제적이에요.
긴 문서(10만 토큰 이상) 한국어 요약에서 4.6이 앞서요. 핵심 포인트 누락률이 4.5는 12%, 4.6은 4% 정도였어요. 짧은 대화는 차이 거의 없어요.
복잡한 리팩토링·아키텍처 설계는 4.6이 확실히 안정적이에요. 단순 보일러플레이트 생성은 4.5로 충분하고 비용도 싸요. Task별로 모델 구분해서 쓰는 게 좋아요.
4.6은 시스템 프롬프트를 좀 더 '엄격히' 따라요. 4.5에서 잘 되던 느슨한 페르소나 지정이 4.6에선 답변이 딱딱해지는 경우가 있어요. 페르소나는 예시로 보여주는 방식이 안전해요.
월 API 지출 10만원 이하면 4.6으로 통일, 그 이상이면 작업 분리 전략을 써보세요. 요약·분류·단순 답변은 4.5, 추론·코딩·긴 문서 분석은 4.6 이 기준이 현실적이에요.