HowtoAI
ai-revenue2026-05-07 5 min read

ElevenLabs v3 한국어 더빙 외주 부업 — 영상 1편 5만원 수익 7단계

🤖
HowtoAI 편집팀AI 전문 에디터

AI 기술을 누구나 쉽게 활용할 수 있도록 실전 가이드를 작성합니다. ChatGPT, Claude, AI 자동화, SEO 분야를 전문으로 다룹니다.

📅 2026-05-07⏱️ 5 min read🌐 how-toai.com
목차 보기

지난 1월부터 ElevenLabs로 영상 더빙 외주 받기 시작했어요. 2월 v3 출시 후 한국어 품질이 v2 대비 명확히 좋아져서, 외주 단가를 30~50% 올렸는데도 의뢰가 늘어나는 신기한 흐름이 생겼어요.

처음에 크몽에서 "AI 음성 더빙 분당 4,000원" 으로 시작했는데, 4개월 운영하니 분당 12,000원까지 올랐어요. 월 매출 평균 6080만원. 풀타임 아니라 본업 끝나고 저녁 23시간만 작업. 이 글은 그 4개월 직접 운영하며 알게 된 7단계 워크플로우와, 흔히 빠지는 함정 5가지를 정리한 거예요.

ElevenLabs v3 더빙 작업 화면 — 한국어 텍스트 입력 후 음성 합성 과정

ElevenLabs v3 한국어 — v2 대비 진짜 차이

v3는 2026년 2월 출시됐어요. audio tags + dialogue mode 가 핵심 추가 기능. 텍스트 안에 감정·페이스 마커 직접 넣을 수 있어요.

1. Audio Tags 5종 — 텍스트로 감정 컨트롤

[whisper] 이건 아무도 모르는 비밀이에요
[laugh] 정말 웃긴 일이 있었거든요
[excited] 드디어 출시됐어요!
[sad] 이별의 순간이 다가왔어요
[sigh] 또 다시 같은 실수를 했네요

위 5개 외에도 [angry], [confused], [shocked] 등 20여 개 지원. 태그 한 개로 톤이 완전히 바뀌어요. v2에선 voice settings 로 stability·similarity 조절했어야 하는 걸, 텍스트만으로 컨트롤 가능.

2. Dialogue Mode — 다중 화자 자연스럽게

영상에 화자 2명 이상이면 dialogue mode 활성화. 텍스트:

[Speaker 1] 안녕하세요, 오늘 인터뷰 시간 내주셔서 감사합니다.
[Speaker 2] 네, 저도 영광이에요.
[Speaker 1] 첫 질문부터 시작할게요.

자동으로 두 목소리 번갈아 가며 출력. 화자 사이 자연스러운 1초 간격까지. v2에선 화자별로 별도 파일 만들어서 합성해야 했어요.

3. 한국어 발음 정확도

v2 시절 자주 빠뜨리던 것들:

  • 받침 많은 단어("닭·닻·곶") 발음 흐림 → v3 깔끔
  • 외래어 표기 일관성 부족 → v3 거의 일정
  • 의문문 끝 억양 어색 → v3 자연스러움
  • 한자어 발음 가끔 일본식 → v3 정확

다만 여전히 어색한 부분:

  • 사투리 시뮬레이션 (서울 표준어 외엔 부자연스러움)
  • 의성어·의태어 ("덜컹덜컹·아장아장")
  • 매우 긴 문장 (50자 넘으면 호흡 어색)

7단계 외주 워크플로우 — 영상 1편 처리 흐름

단계 1. 의뢰 수령 + 견적 산정 (5분)

크몽 메시지로 영상 링크 또는 스크립트 받음. 확인 항목:

  1. 영상 길이 (분 단위 단가 기준)
  2. 화자 수 (1명 vs 다중)
  3. 감정 변화 빈도 (단조 vs 다양)
  4. 특수 요구 (배경음 살리기, 효과음 매칭)
  5. 납기 (24시간·48시간·1주일)

견적 공식:

기본 단가 (10,000원/분) × 영상 분
× 화자 가중치 (1명 1.0, 2명 1.5, 3명+ 2.0)
× 감정 가중치 (단조 1.0, 다양 1.3)
× 긴급 가중치 (24h 2.0, 48h 1.5, 1주일 1.0)

5분 영상, 단조 1인 화자, 1주일 납기 = 50,000원. 5분 영상, 다양 감정 2인, 24h 긴급 = 195,000원.

단계 2. 스크립트 정제 (15~30분)

의뢰인이 보낸 원본 스크립트는 보통 음성합성에 안 맞아요. 필요한 정제:

  1. 숫자 → 한글 변환 ("2026년" → "이천이십육년")
  2. 외래어 통일 ("AI" → "에이아이" 또는 "AI" 영어로 일관)
  3. 문장 분리 (50자 넘으면 끊기)
  4. audio tag 삽입 (감정 변화 지점에 [excited]·[sad] 등)
  5. 고유명사 발음 가이드 ("Schrödinger" → "슈뢰딩거")

이 정제만 잘하면 더빙 품질 30% 개선.

단계 3. Voice 선택 + 톤 테스트 (5분)

ElevenLabs Voice Library 에서 한국어 보이스 검색. 인기 한국어 보이스 5종:

이름성별추천 용도
Yuna청량광고·튜토리얼
Sunny따뜻다큐·스토리텔링
Daniel KR신뢰비즈니스·교육
Minho활기게임·유튜브
Hye-jin차분명상·힐링

처음 30초만 합성해서 의뢰인에게 톤 확인 받고 본 작업 시작. 이 단계 빠뜨리면 후수정 30% 발생.

단계 4. 본 합성 + 길이 조정 (15~45분)

스크립트 전체를 ElevenLabs 에 입력 → 합성. 영상 길이에 맞춰 출력 시간 조정:

  • 너무 빠름 → stability 0.5 → 0.7 로 조정 (천천히 말함)
  • 너무 느림 → speed 1.0 → 1.15 로 조정
  • 끊김 → 문장 길이 줄이기

저는 5분 영상 기준 평균 25분 작업.

헤드폰과 팟캐스트 스튜디오 — 더빙 후 후처리·믹싱 단계

단계 5. 영상과 동기화 + 후처리 (20~40분)

DaVinci Resolve (무료) 또는 Premiere Pro 에서:

  1. 합성된 음성 트랙 추가
  2. 영상 화면 전환 시점에 음성 cue 맞추기
  3. 배경음(BGM) 의뢰인 요청 시 -8dB 정도로 깔기
  4. 음성 EQ — 100Hz 이하 컷, 200~400Hz 약간 줄임 (탁한 느낌 제거)
  5. Compressor — ratio 3:1, threshold -18dB (균일한 볼륨)
  6. Normalize — peak -3dB

이 후처리 안 하면 결과물 "AI 티 나는" 느낌. 같은 ai-blog의 AI 쇼츠 자동 더빙 부업 7단계 — 다국어 채널로 광고수익 월 70만원 도 함께 보면 영상 후처리 노하우 더 깊이 알 수 있어요.

단계 6. 미리보기 전송 + 수정 반영 (10~30분)

완성본 30초 미리보기 영상으로 잘라서 의뢰인 전송. 피드백 받기:

  • 톤 변경 요청 → voice 다른 걸로 재합성
  • 특정 단어 발음 이상 → audio tag 추가 또는 발음 표기 변경
  • 페이스 너무 빠름/느림 → speed 조정
  • 다른 화자 추가 → dialogue mode 적용

평균 1~2회 수정. 3회 넘어가면 추가비 청구 (계약서에 '수정 2회 무료, 그 이상 회당 +20%' 명시).

단계 7. 최종 납품 + 후기 요청 (5분)

원본 영상 + 더빙 음성 분리 트랙 + 자막 (요청 시) 패키지로 전달. 크몽이면 결제 자동 처리. 후기 요청 메시지:

작업 완료됐습니다! 다음에도 더 좋은 결과로 함께할 수 있도록
간단한 별점·후기 남겨주시면 큰 도움됩니다 :)

후기 별점 4.8 이상 유지하는 게 노출 핵심. 평균 5/5 받으려면 납기 24h 빠르게 마치기 + 수정 1회 무료 무조건 보장 이 두 가지가 핵심.

단가 책정 노하우 — 4개월 운영 데이터

월별 매출 추이

외주 수평균 단가/분총 매출
1월8건4,500원28만원
2월12건6,500원47만원
3월15건9,000원65만원
4월14건12,000원78만원

3월 v3 출시 후 단가 점프가 결정적. v3 가능 어필하니 의뢰인이 더 비싸도 OK.

단가 올리는 5가지 신호

  1. 후기 별점 4.9 이상 유지 + 총 후기 30개 넘음
  2. 의뢰가 일주일 4건 이상 들어옴 (수요 > 공급)
  3. 동시 작업 중인 의뢰 3건 넘음
  4. 빠른 납기(24h) 의뢰 비율 30% 넘음
  5. 같은 의뢰인 재의뢰율 50% 넘음

위 신호 3개 이상 충족 시 단가 +30% 올려도 의뢰량 거의 안 떨어짐.

흔한 실수 5가지 — 4개월 동안 깨진 것들

실수 1. 첫 견적부터 너무 비싸게 (분당 15,000원)

후기 0개로 단가 높으면 아무도 안 옴. 첫 3개월은 시장가의 60~70% 로 빠르게 후기 쌓기.

실수 2. 스크립트 정제 안 하고 바로 합성

원본 그대로 던지면 발음 어색·문장 호흡 안 맞아요. 정제에 15~30분 투자가 본 작업의 70%.

실수 3. Free 플랜으로 상업 작업

상업 사용은 Creator $22 이상 필수. Free 로 외주 받으면 약관 위반.

실수 4. 단일 voice 만 고정 사용

의뢰인마다 선호 톤 달라요. 3~5종 voice 익숙해지고 작업 성격에 따라 매칭.

실수 5. 후처리 생략 (음성 raw 그대로 납품)

EQ·compressor·normalize 안 하면 결과물 "엉성한 AI 음성" 느낌. 후처리 20~40분 투자가 단가 +30% 의 핵심.

첫 30일 시작 가이드 — 매출 0 → 25만원

Day 1~3: 인프라 세팅

  1. ElevenLabs Creator $22 결제
  2. 한국어 voice 5~7개 들어보고 선호 3개 선정
  3. 크몽·숨고 프로필 작성 (포트폴리오 필요)
  4. 샘플 더빙 영상 3개 제작 (각 1분, 다른 톤)

Day 4~7: 포트폴리오 영상 + 광고

  1. 유튜브 쇼츠로 샘플 3개 업로드 ("AI 더빙 샘플" 키워드)
  2. 인스타·X 본인 계정에 공유
  3. 크몽 첫 등록 — 분당 4,000원 (시장가의 60%)

Day 8~14: 첫 의뢰 받기

처음 1~2주는 의뢰 거의 없어요. 수익 0 정상. 이 기간:

  • 더빙 워크플로우 연습 (가짜 영상 5~10개 직접 더빙)
  • 후처리 단축키 익히기
  • 첫 의뢰 들어오면 24h 안에 5/5 별점 받게 정성껏

Day 15~30: 후기 쌓기 + 단가 인상

후기 5개 넘으면 단가 +30% 인상 (4,000 → 5,200원/분). 후기 10개 넘으면 +50% (6,000원). 첫 달 매출 목표 25~30만원.

마무리 — 다른 부업과 결합 가능

ElevenLabs 더빙 부업은 단독으로도 수익 나지만, AI 캐릭터 일러스트 외주 또는 AI 쇼츠 자동 더빙 부업 과 결합하면 시너지 커요. 같은 의뢰인이 여러 작업을 한 사람에게 맡기는 걸 선호하거든요. 같은 ai-blog의 AI 캐릭터 일러스트 외주 부업 7단계 에서 다룬 캐릭터 + 본 글의 음성 더빙 결합 시 영상 1편 30~50만원 단가 가능.

처음에 크몽 후기 0개 시절은 답답해요. 하지만 v3 품질이 워낙 좋아져서 샘플 영상 한 번만 보면 의뢰인이 결정 해요. 첫 의뢰 받기까지 평균 714일, 그 후엔 점점 빨라져요. 본업 끝나고 매일 12시간만 투자하면 4개월 안에 월 50~80만원 가능한 부업이에요.

❓ 자주 묻는 질문 (FAQ)

ElevenLabs v3 한국어 품질은 진짜 자연스러운가요?

2026년 2월 v3 출시 후 직접 50개 영상 더빙해본 결과, 한국어 자연스러움 90% 정도. v2 시절 70% 대비 큰 향상. 다만 ① 사투리는 여전히 어색 ② 의성어·의태어 발음 흐림 ③ 영어 고유명사 한국식 발음(예: 'Apple' → '애플') 가끔 영어 발음으로 나옴. 일반 다큐·튜토리얼·강의 더빙은 거의 손볼 곳 없어요.

Creator $22 플랜으로 부업 시작하기에 충분한가요?

Creator는 월 100K 캐릭터(한국어 약 35,000자, 영상 분량 평균 60~80분 분량)예요. 부업 초기 월 5~8 영상 처리 가능. 월 매출 25~40만원 시작점으로 적절. 그 이상 받으면 Pro $99 (500K 캐릭터) 로 업그레이드 권장.

더빙 외주 단가는 어떻게 책정하나요?

분 단위 가격: 한국어 → 영어 더빙 분당 8,000~15,000원, 영어 → 한국어 더빙 분당 5,000~10,000원. 영상 5분짜리는 25,000~50,000원. 추가 옵션 ① 감정 톤 커스텀 +20% ② 효과음 매칭 +30% ③ 다중 화자(2명 이상) +50% ④ 24시간 긴급 작업 +100%. 첫 외주 받을 땐 평균보다 20~30% 낮게 시작해서 후기 쌓고 단가 올리는 게 정석.

어디서 외주를 받나요? 주된 채널은?

1순위 ① 크몽·숨고 — 검색 노출 좋고 결제 안전 (수수료 15~20%) 2순위 ② 페이스북 그룹 '유튜브 채널 운영자' — 직접 거래, 단가 높지만 분쟁 위험 3순위 ③ Fiverr 한국어 카테고리 — 해외 의뢰인이 한국어 더빙 찾는 케이스 4순위 ④ 트위터/X 해시태그 영상 편집 5순위 ⑤ 본인 인스타·유튜브 포트폴리오 → 인바운드 문의.

법적·저작권 문제는 없나요?

ElevenLabs Creator 이상은 상업적 사용 허용 (Free 플랜은 비상업만). 다만 ① 의뢰인 음성을 학습시킨 voice clone은 의뢰인 본인 동의 필수 ② 셀럽·정치인 voice clone은 절대 금지(법적 분쟁) ③ 영상 콘텐츠 자체의 저작권은 의뢰인 책임이지만, 본인이 의심스러운 내용(가짜 뉴스·딥페이크) 받으면 거절 권장 ④ 결과물에 'Voice generated by AI' 명시는 의뢰인 결정. 외주 계약서에 '의뢰인이 모든 콘텐츠 권리 보유 확인' 조항 반드시 넣기.

📚 함께 읽으면 좋은 글 (Related Posts)

AI로 수익창출 더 보기 →