HowtoAI
ai-tools2026-06-10 5 min read

AI 자막 자동 생성하는 법 — 유튜브·릴스 영상에 한글 자막 입히기 2026

🤖
HowtoAI 편집팀AI 전문 에디터

AI 기술을 누구나 쉽게 활용할 수 있도록 실전 가이드를 작성합니다. ChatGPT, Claude, AI 자동화, SEO 분야를 전문으로 다룹니다.

📅 2026-06-10⏱️ 5 min read🌐 how-toai.com
목차 보기

영상 하나 올리는데 자막 다는 데만 한 시간씩 걸려본 적 있으시죠. 저도 예전엔 영상 보면서 일시정지하고 한 줄씩 타이핑하다가, 10분짜리 영상에 자막 까는 데 저녁 시간을 통째로 날린 적이 있어요. 그런데 요즘은 영상만 올리면 AI가 음성을 알아서 받아쓰기해주고, 타이밍까지 맞춰 자막을 깔아줘요. 손볼 건 오타 몇 개뿐이고요.

오늘은 2026년 6월 기준으로 무료로 쓸 수 있는 AI 자막 생성 도구들을 직접 비교해보고, 유튜브 본편과 릴스·쇼츠에 각각 어떻게 자막을 입히는 게 좋은지 단계별로 풀어드릴게요. 코딩은 한 줄도 안 나오니 편하게 따라오시면 돼요.

노트북 화면에 영상 편집 타임라인과 자동 생성된 한글 자막이 떠 있는 모습, AI 자막 생성 작업을 시작하는 장면

AI 자막 생성이 뭐가 그렇게 편한가요

핵심은 "음성 인식"이에요. 영상 속 말소리를 AI가 글자로 바꿔주는 기술인데, 예전 받아쓰기와 차원이 달라요. 구어체, 줄임말, 심지어 살짝 웅얼거리는 말도 꽤 잘 잡아내거든요.

여기에 타이밍 동기화가 더해져요. 어느 구간에 어떤 자막이 떠야 하는지 시간을 자동으로 맞춰주니까, 사람이 할 일은 "맞게 받아썼는지" 확인하는 것뿐이에요. 실제로 받아쓰기와 타이밍이 자동으로 처리되면서, 자막 작업 시간이 80% 가까이 줄었다는 게 도구 업체들이 공통으로 말하는 수치예요.

자막을 다는 이유도 분명해요. 요즘 시청자 대부분은 소리를 끄고 영상을 봐요. 지하철, 사무실, 잠든 아기 옆에서요. 자막이 없으면 그냥 넘겨버리죠. 게다가 유튜브는 자막 텍스트를 검색에 반영하기 때문에, 자막을 제대로 달면 같은 영상이라도 노출이 더 잘 돼요. 자막은 이제 선택이 아니라 기본이에요.

또 한 가지, 자막은 접근성에도 큰 도움이 돼요. 청각이 불편한 분들도 영상을 즐길 수 있고, 외국어 학습자에게도 자막은 큰 힘이 되거든요. 시청 지속 시간이 길어진다는 것도 빼놓을 수 없어요. 자막이 있으면 시청자가 중간에 이탈하지 않고 끝까지 보는 경우가 많아서, 알고리즘에도 긍정적으로 작용해요. 결국 자막 한 줄이 노출, 시청 시간, 시청자 만족도까지 동시에 끌어올리는 셈이라, 안 달 이유가 없어요.

무료로 쓸 수 있는 AI 자막 도구 5가지

직접 써보고 정리한 도구들이에요. 각자 강점이 달라서, 본인 작업 방식에 맞는 걸 고르면 돼요.

Vrew (브루) — 한국어 영상이라면 1순위

Vrew는 한국 서비스라 한국어 받아쓰기가 특히 강해요. 설치형 프로그램이라 긴 영상도 끊김 없이 처리되고, 받아쓰기와 컷 편집이 한 화면에서 같이 돼요. "어"나 침묵 구간을 자동으로 찾아 잘라주는 기능까지 있어서, 자막만 다는 게 아니라 영상을 통째로 다듬을 수 있어요.

무료로도 매달 일정 시간을 받아쓰기할 수 있고, AI 목소리 200종 이상으로 내레이션도 입힐 수 있어요. 다만 무료 한도를 넘기거나 고급 기능을 쓰려면 유료 전환이 필요해요. 한국어 영상을 자주 올린다면 가장 먼저 깔아볼 도구예요.

VEED — 브라우저에서 바로 되는 편리함

VEED는 설치가 필요 없어요. 브라우저에 영상을 올리면 자동으로 자막이 생기고, SRT·VTT·TXT 같은 파일로 따로 내보내거나 영상에 직접 박을 수도 있어요. 자막 디자인이 깔끔해서 숏폼용으로 예쁘게 뽑기 좋고, PRO 요금제로 올리면 자막을 다른 언어로 번역하는 것도 돼요.

태블릿이나 회사 노트북처럼 프로그램 설치가 까다로운 환경에서 특히 빛을 발해요. 무료로 자막을 만들고 추가할 수 있지만, 번역이나 긴 영상은 유료 구간이라는 점만 기억하세요.

ElevenLabs 자막 생성기 — 로그인 없이 빠르게

ElevenLabs는 원래 AI 음성으로 유명한데, 자막 생성기도 따로 제공해요. 구독 없이도 무료로 체험할 수 있어서, "이 영상 자막이 어떻게 나오나" 빠르게 보고 싶을 때 가볍게 쓰기 좋아요. 유료 플랜으로 가면 더 높은 한도와 API까지 열려요.

Whisper — 완전 무료지만 손이 좀 가요

Whisper는 OpenAI가 공개한 오픈소스 음성 인식 모델이라, 누구나 공짜로 쓸 수 있어요. 정확도는 최상위권인데, 그냥 쓰려면 설치가 필요해요. 다행히 웹 UI 버전을 쓰면 유튜브 링크만 넣어도 자막이 나와서, 무료에 집착한다면 충분히 시도해볼 만해요. "무료인데 정확도까지 잡고 싶다"는 분께 맞아요.

CapCut — 영상 편집까지 한 번에

CapCut은 자막 자동 생성에 더해 템플릿, 효과음, 트랜지션까지 다 들어 있는 올인원 편집기예요. 자막 스타일을 화려하게 꾸미고 싶거나, 편집과 자막을 한 앱에서 끝내고 싶을 때 편해요. 숏폼 크리에이터들이 많이 쓰는 이유가 여기 있어요.

이렇게 영상 도구를 더 폭넓게 보고 싶다면 무료 AI 영상 편집 프로그램 5곳 비교 글도 같이 보면 도움이 돼요.

어떤 도구부터 시작하면 좋을까요

처음이라 뭘 골라야 할지 모르겠다면, 작업 환경으로 정하면 돼요. 컴퓨터에 프로그램을 깔 수 있고 한국어 영상이 많다면 Vrew가 무난해요. 받아쓰기 정확도와 컷 편집을 한 번에 잡을 수 있거든요. 회사 노트북이나 태블릿처럼 설치가 까다로운 환경이라면 브라우저에서 도는 VEED가 답이에요. "일단 결과만 빨리 보고 싶다"면 로그인 없이 되는 ElevenLabs 자막 생성기로 가볍게 테스트해보세요.

비용 면에서도 차이가 있어요. 완전 무료에 집착한다면 Whisper가 정답이지만 설치와 약간의 손품이 필요하고, 편의성을 원한다면 Vrew·VEED·CapCut의 월정액이 시간을 크게 아껴줘요. 일주일에 한두 편이면 무료 구간으로 버티고, 매일 영상을 올리는 단계라면 한 도구를 정해 유료로 쓰는 게 결과적으로 더 이득이에요. 도구를 자주 갈아타기보다 하나에 익숙해지는 편이 작업 속도를 더 올려줘요.

두 가지 자막 도구의 화면을 나란히 비교하는 모습, 무료 AI 자막 생성기의 받아쓰기 결과를 점검하는 장면

유튜브 본편 vs 릴스·쇼츠, 자막 방식이 달라요

자막을 만드는 건 같아도, 어디에 올리느냐에 따라 내보내는 방식이 달라져요. 여기서 헷갈리면 자막이 안 보이거나 어색해 보여요.

유튜브 본편 — SRT 파일로 따로

유튜브 가로 영상은 SRT 파일로 빼서 올리는 걸 추천해요. SRT는 자막을 텍스트로 따로 저장하는 형식이라, 시청자가 자막을 켜고 끌 수 있어요. 무엇보다 유튜브가 이 텍스트를 검색에 반영해서, 같은 영상이라도 자막을 단 쪽이 노출이 더 잘 돼요. 도구에서 자막을 만든 뒤 "SRT 내보내기"를 누르고, 유튜브 스튜디오의 자막 메뉴에 그 파일을 올리면 끝이에요.

릴스·쇼츠 — 영상에 직접 박기

인스타그램 릴스나 유튜브 쇼츠는 자막을 켜고 끄는 버튼이 없어요. 그래서 자막을 영상에 영구히 박는 하드코딩 방식이 맞아요. 이때는 폰트를 굵게, 테두리를 줘서 어떤 배경에서도 잘 보이게 하는 게 중요해요. 세로 영상은 하단 UI 버튼에 자막이 가리지 않도록 살짝 위로 올리는 것도 잊지 마세요.

정리하면, 가로 본편은 SRT, 세로 숏폼은 하드코딩. 이 원칙 하나만 기억하면 자막이 안 보이는 사고는 안 나요. 숏폼을 여러 나라 언어로 풀고 싶다면 AI 숏폼 자동 더빙으로 다국어 만드는 법도 참고할 만해요.

받아쓰기 정확도를 높이는 실전 팁

자동 자막의 약점은 "가끔 틀린다"는 거예요. 그런데 몇 가지만 챙기면 교정할 게 확 줄어요.

첫째, 녹음 단계에서 승부가 나요. 마이크를 입 가까이 두고, 자막을 뽑을 때는 배경음악을 잠시 빼세요. 말소리만 깨끗하면 AI가 훨씬 잘 알아들어요. 둘째, 고유명사는 미리 정리해두세요. 회사명, 사람 이름, 제품명은 AI가 자주 틀리는데, 자막 편집기의 찾아 바꾸기로 한 번에 고치면 금방이에요.

셋째, 숫자와 날짜는 꼭 눈으로 확인하세요. 금액이나 시간을 잘못 받아쓰면 영상 신뢰도가 떨어져요. 넷째, 한 줄을 너무 길게 두지 마세요. 한 줄 13~16자, 최대 두 줄로 끊으면 시청자가 읽다가 영상을 놓치지 않아요. 마지막으로 색은 두세 가지로 제한하세요. 자막이 알록달록하면 영상이 산만해 보여요.

이런 자동화 흐름을 다른 업무에도 넓혀보고 싶다면 AI로 영수증·경비 자동 정리하는 법처럼 사진·영상 한 장이면 끝나는 작업들을 둘러보는 것도 좋아요.

여기에 하나 더, 자막 줄을 끊는 위치도 신경 쓰면 완성도가 달라져요. 의미 단위로 끊어야 읽기 편한데, 예를 들어 "오늘은 자막 다는 법을 알려드릴게요"를 "오늘은 자막 다는 / 법을 알려드릴게요"처럼 어색하게 끊으면 시청자가 한 박자 헷갈려요. "오늘은 / 자막 다는 법을 알려드릴게요"처럼 호흡에 맞춰 끊으면 훨씬 자연스럽게 읽혀요. 자동 자막은 이 줄바꿈을 기계적으로 처리하는 경우가 많으니, 어색한 구간만 손으로 한 번 다듬으면 영상이 한결 깔끔해 보여요. 작은 차이 같지만, 이런 디테일이 채널의 완성도를 가르는 지점이에요.

흔한 실수와 마무리 체크리스트

마지막으로 자주 하는 실수를 짚어드릴게요. 자막을 만들고 검수 없이 바로 올리는 게 1번 실수예요. 자동 자막은 90점짜리라, 마지막 10점은 사람이 채워야 해요. 두 번째는 숏폼에 SRT만 올려놓고 자막이 안 보인다고 당황하는 경우. 숏폼은 하드코딩이 맞아요. 세 번째는 너무 화려한 폰트와 색으로 가독성을 망치는 거예요.

오늘 바로 해볼 액션은 이거예요. 가지고 있는 짧은 영상 하나를 Vrew나 VEED에 올려서 자막을 자동 생성해보세요. 받아쓰기 결과를 5분만 다듬어 보면, "아 이래서 다들 자막 다는구나" 싶을 거예요. 그렇게 한 편만 끝내보면 다음부터는 자막 다는 게 일이 아니라 습관이 돼요.

자막은 거창한 장비도, 어려운 기술도 필요 없어요. 무료 도구 하나만 골라 오늘 영상부터 시작해보세요.

❓ 자주 묻는 질문 (FAQ)

AI 자막 생성은 정말 무료로 쓸 수 있나요?

네, 무료 구간이 있어요. Vrew는 가입 없이 설치만으로 매달 일정 시간을 무료로 받아쓰기할 수 있고, VEED와 ElevenLabs 자막 생성기도 로그인 없이 짧은 영상은 바로 자막을 뽑아볼 수 있어요. 다만 무료 구간을 넘기거나 워터마크 없이 내보내려면 유료 전환이 필요해요. 단발성 영상이면 무료로 충분하고, 매주 여러 편을 올린다면 한 도구의 월정액을 쓰는 게 시간상 더 이득이에요.

Vrew랑 VEED 중에 뭐가 더 나은가요?

쓰임새가 달라요. Vrew는 설치형이라 긴 영상도 끊김 없이 받아쓰기하고 컷 편집까지 한 번에 되는 게 강점이에요. 반면 VEED는 브라우저에서 바로 돌아가서 노트북·태블릿만 있으면 어디서든 자막을 입힐 수 있고, 자막을 영상에 입히는 디자인이 깔끔해요. 한국어 받아쓰기 정확도는 Vrew가 한국 서비스라 구어체·신조어에 조금 더 강한 편이라, 한국어 영상이 많다면 Vrew부터 써보길 권해요.

SRT 파일로 따로 받는 거랑 영상에 박는 거랑 뭐가 달라요?

SRT는 자막을 텍스트 파일로 따로 빼는 방식이라, 유튜브에 올릴 때 자막 파일로 업로드하면 시청자가 켜고 끌 수 있어요. 검색에도 잡혀서 SEO에 유리하고요. 반대로 영상에 자막을 영구히 박는 걸 하드코딩이라고 하는데, 릴스·쇼츠처럼 자막 끄기 버튼이 없는 곳에서는 이 방식이 맞아요. 유튜브 본편은 SRT, 숏폼은 하드코딩, 이렇게 나눠 쓰면 깔끔해요.

받아쓰기가 자꾸 틀리는데 어떻게 줄이나요?

녹음 환경이 절반이에요. 마이크를 입에 가깝게 두고 배경음악을 자막 생성 전에 잠시 빼면 정확도가 확 올라가요. 그리고 회사명·사람 이름·전문 용어는 AI가 자주 틀리니까, 자막 편집기에서 찾아 바꾸기로 한 번에 교정하는 습관을 들이면 좋아요. 숫자와 단위도 자주 틀리는 구간이라 금액·날짜가 나오는 부분은 꼭 눈으로 확인하세요.

영어나 외국어 영상에 한글 자막을 입힐 수도 있나요?

가능해요. VEED와 Vrew 모두 음성을 받아쓰기한 뒤 번역 기능으로 한글 자막을 붙일 수 있어요. 다만 번역 자막은 받아쓰기보다 오류가 더 잦아서, 의미가 중요한 영상이면 번역된 문장을 한 번 다듬는 게 안전해요. 외국어 영상 더빙이 필요하다면 자막 대신 음성 더빙 도구를 쓰는 흐름도 있는데, 그건 별도 글에서 더 자세히 다뤘어요.

자막 폰트나 위치는 어떻게 정하는 게 좋나요?

가독성이 1순위예요. 굵은 고딕 계열에 검은 테두리나 반투명 박스를 깔면 어떤 배경에서도 글자가 잘 보여요. 위치는 화면 하단 중앙이 기본이지만, 숏폼은 UI 버튼에 가리지 않게 살짝 위로 올리는 게 좋아요. 한 줄에 13~16자 정도로 끊어 두 줄을 넘기지 않으면 시청자가 읽다가 영상을 놓치지 않아요. 색은 두세 가지로 제한해야 영상이 산만해 보이지 않아요.

📚 함께 읽으면 좋은 글 (Related Posts)

AI 도구 추천 더 보기 →