HowtoAI
ai-guide2026-03-30 5 min read

로컬 LLM 설치부터 학습까지 — 무료로 나만의 AI 만드는 법 2026

🤖
HowtoAI 편집팀AI 전문 에디터

AI 기술을 누구나 쉽게 활용할 수 있도록 실전 가이드를 작성합니다. ChatGPT, Claude, AI 자동화, SEO 분야를 전문으로 다룹니다.

📅 2026-03-30⏱️ 5 min read🌐 how-toai.com
목차 보기

ChatGPT 구독료 아깝다고 느낀 적 있으시죠?

ChatGPT Plus가 월 20달러, Claude Pro가 월 20달러. 여러 AI를 쓰면 매달 5만원 넘게 나가요.

"내 컴퓨터에서 무료로 AI를 돌릴 수 있으면 좋겠다." 이런 생각, 한 번쯤 해보셨을 거예요.

가능해요. 2026년 기준 오픈소스 LLM 성능이 많이 올라왔거든요.

저도 작년부터 로컬 LLM을 쓰고 있어요. 일상적인 업무의 70%는 로컬 모델로 처리하고 있어요.

오늘은 설치부터 실전 활용까지 알려드릴게요.

로컬 LLM 설치

로컬 LLM이 뭔지 30초 정리

클라우드 AI (ChatGPT, Claude):

  • 서버에서 돌아감
  • 인터넷 필수
  • 월 구독료 발생
  • 데이터가 외부로 전송

로컬 LLM:

  • 내 컴퓨터에서 돌아감
  • 인터넷 불필요 (다운로드 후)
  • 무료
  • 데이터가 내 PC에만 존재

회사 기밀 문서를 분석하거나, 개인 일기를 AI에 물어볼 때 로컬이 안전해요. 외부 서버에 데이터를 보내지 않으니까요.

방법 1: Ollama로 5분 만에 시작하기

가장 쉬운 방법이에요. 터미널 명령어 2줄이면 AI가 돌아가요.

설치하기

Mac/Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: ollama.com에서 설치 파일을 다운로드하면 돼요.

모델 다운로드 및 실행

ollama run llama3.1

이 한 줄이면 Llama 3.1 8B 모델이 다운로드되고 바로 대화할 수 있어요. 첫 다운로드에 4GB 정도 받으니까 Wi-Fi 환경에서 하세요.

추천 모델 (2026년 기준)

모델크기용도한국어
llama3.1:8b4.7GB일반 대화, 코딩보통
gemma2:9b5.4GB글쓰기, 요약보통
qwen2.5:7b4.4GB코딩, 수학좋음
mistral:7b4.1GB빠른 응답, 가벼운 작업보통

한국어 성능이 중요하면 qwen2.5 모델을 추천해요. 중국 팀이 만든 모델인데 한국어도 잘 처리해요.

Ollama 터미널 화면

Ollama 기본 명령어

ollama list          # 설치된 모델 목록
ollama pull gemma2   # 모델 다운로드
ollama run gemma2    # 모델 실행
ollama rm gemma2     # 모델 삭제

방법 2: LM Studio로 GUI 환경 만들기

터미널이 불편하면 LM Studio를 쓰세요. ChatGPT처럼 대화창 UI가 있어요.

설치하기

lmstudio.ai에서 자기 OS에 맞는 버전을 다운로드하면 돼요. 설치 파일 실행하면 끝이에요.

모델 다운로드

  1. LM Studio 실행
  2. 왼쪽 검색창에 모델 이름 입력 (예: "llama 3.1")
  3. 다운로드 버튼 클릭
  4. 대화 탭에서 바로 사용

LM Studio의 장점

  • ChatGPT 같은 대화 UI
  • 모델 비교 기능 (두 모델을 나란히 테스트)
  • 시스템 리소스 모니터링 (RAM, GPU 사용량)
  • 로컬 API 서버 기능 (다른 앱에서 연동 가능)

방법 3: Open WebUI로 웹 브라우저에서 쓰기

Ollama + Open WebUI를 조합하면 ChatGPT와 거의 같은 경험이에요.

설치 (Docker 필요)

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

설치 후 브라우저에서 localhost:3000 접속하면 웹 UI가 나와요.

Open WebUI 장점

  • 대화 기록 저장
  • 여러 모델 전환
  • RAG (문서 업로드 후 질문) 지원
  • 멀티유저 지원 (팀에서 함께 사용)

저는 Ollama + Open WebUI 조합을 메인으로 쓰고 있어요.

내 컴퓨터 사양별 추천 세팅

RAM 8GB (저사양)

  • 모델: llama3.1:8b 또는 mistral:7b
  • 도구: Ollama (가볍)
  • 기대 성능: 기본 대화, 간단한 글쓰기

RAM 16GB (중간 사양)

  • 모델: llama3.1:8b, qwen2.5:14b
  • 도구: Ollama + Open WebUI
  • 기대 성능: 업무 보조, 코딩, 번역

RAM 32GB 이상 + GPU (고사양)

  • 모델: llama3.1:70b (양자화 버전)
  • 도구: LM Studio 또는 Open WebUI
  • 기대 성능: ChatGPT 3.5급 이상

로컬 LLM 사양 비교

GPU가 있으면?

NVIDIA RTX 3060 이상이면 속도가 확 빨라져요. CPU만으로도 돌아가지만 응답이 느리거든요.

Mac M시리즈 칩은 GPU 메모리를 공유해서 로컬 LLM에 특히 유리해요. M1 Pro 16GB면 13B 모델이 쾌적하게 돌아가요.

실전 활용 사례 5가지

1. 이메일 초안 작성

"아래 내용을 바탕으로 비즈니스 이메일 초안을 써줘. 톤은 정중하게."

회사 이메일을 외부 AI에 보내기 꺼려질 때 로컬이 안전해요.

2. 코드 리뷰

"이 코드를 리뷰하고 개선점을 알려줘"

회사 소스코드를 ChatGPT에 붙여넣기 꺼려지잖아요. 로컬이면 걱정 없이 코드를 분석할 수 있어요.

3. 문서 요약

"이 보고서의 핵심 내용을 5줄로 요약해줘"

Open WebUI의 RAG 기능을 쓰면 PDF를 업로드하고 질문할 수 있어요.

4. 번역

"이 영어 이메일을 자연스러운 한국어로 번역해줘"

번역 품질은 DeepL에 조금 못 미치지만 무료이고 프라이버시가 보장돼요.

5. 브레인스토밍

"마케팅 캠페인 아이디어 10개를 제안해줘"

자유롭게 아이디어를 던져볼 수 있어요. 비용 걱정 없이 원하는 만큼 대화할 수 있으니까요.

로컬 LLM의 한계와 해결법

솔직하게 말하면 한계도 있어요.

성능 한계

  • GPT-4o, Claude 3.5 수준은 아직 어려워요
  • 복잡한 추론이나 긴 코드 생성은 클라우드 AI가 나아요
  • 한국어 성능은 영어보다 떨어져요

해결법: 하이브리드 사용

저는 이렇게 나눠서 써요.

  • 민감한 데이터, 반복 작업: 로컬 LLM
  • 복잡한 분석, 고품질 결과 필요: ChatGPT/Claude
  • 일상 대화, 간단한 질문: 로컬 LLM

이렇게 하면 구독료를 절반 이하로 줄이면서도 필요할 때 고성능 AI를 쓸 수 있어요.

지금 바로 시작하기

  1. 오늘: Ollama 설치하고 llama3.1 실행해보기 (5분)
  2. 이번 주: 평소 ChatGPT에 물어보던 질문을 로컬 모델로 해보기
  3. 다음 주: Open WebUI 설치해서 웹 UI 환경 만들기

설치가 어려울 것 같다는 선입견이 있을 수 있어요. 하지만 Ollama는 명령어 한 줄이면 돌아가요. 오늘 5분 투자해서 무료 AI 환경을 만들어보세요.

2026년 5월 기준 최신 오픈소스 모델 한눈에

지난 1년 사이 로컬 LLM 판도가 크게 바뀌었어요. 2025년만 해도 Llama 3.1 70B가 최강 자리였는데, 2026년 5월 기준으로는 다음 세대 모델들이 줄줄이 풀려 있어요.

모델출시한국어8GB VRAM16GB VRAM코딩추론
Llama 4 Scout 17B2026-Q1보통어려움가능(Q4)
Qwen3 8B2026-Q1좋음가능여유최상
Qwen3.5 122B(MoE 10B 활성)2026-Q2좋음어려움RAM 64GB 권장최상최상
Gemma 3 12B2025-말보통어려움가능(Q4)
DeepSeek-R2 8B2026-Q1보통가능여유최상
Llama 3.3 70B2025-말보통불가양자화 시 가능

직군별 추천을 정리하면 이래요.

  • 한국어 일반 업무: Qwen3 8B (RAM 16GB, GPU 8GB면 쾌적)
  • 수학/논리 추론: DeepSeek-R2 8B — Chain-of-Thought가 기본 내장돼 있어 복잡한 문제도 단계별로 풀어줘요
  • 코딩 보조: Qwen3-Coder 또는 Llama 3.3 70B (양자화 Q4 사용)
  • 가벼운 노트북: Gemma 3 4B(M1 8GB도 가능) 또는 Phi-4 mini

옛 Llama 3.1 8B는 여전히 안정적이지만, 2026년에 새로 시작한다면 Qwen3 8B를 첫 번째로 받는 걸 추천해요. 한국어 품질 격차가 명확하거든요.

직군별 시나리오 — 실제로 이렇게 쓰고 있어요

1) 마케터: 카피·SNS 글 초안

Qwen3 8B + Open WebUI 조합으로 매일 5~10개 카피 변형을 뽑아요. ChatGPT Plus를 쓰면 월 한도가 신경 쓰이는데, 로컬은 토큰 제한이 없어서 "20개 변형 만들어줘"를 죄책감 없이 돌릴 수 있어요. 민감한 클라이언트 브리프도 외부 서버로 안 나가서 안심이에요.

2) 개발자: 비공개 코드 리뷰

회사 소스를 ChatGPT에 붙여넣는 건 보안 가이드라인 위반인 경우가 많죠. Qwen3-Coder 14B나 DeepSeek-Coder를 로컬에 띄우면 코드 전체 컨텍스트를 마음껏 넣을 수 있어요. VS Code의 Continue.dev 확장을 Ollama 엔드포인트(localhost:11434)에 연결하면 GitHub Copilot 비슷한 인라인 자동완성도 무료로 써요.

3) 변호사·세무사: 민감 문서 요약

판결문, 계약서, 세무 자료처럼 외부 유출 절대 금지 자료는 로컬 LLM의 본진이에요. Open WebUI의 RAG 기능으로 PDF 100건을 한 번에 인덱싱하고 "이 계약서들에서 위약금 조항만 추출해줘" 같은 질문을 던질 수 있어요. 데이터는 디스크에만 남고 어디로도 나가지 않아요.

4) 콘텐츠 크리에이터: 대본·블로그 초안

Gemma 3 12B는 글쓰기 품질이 의외로 좋아요. 한국어 자연스러움은 ChatGPT-4 시리즈에는 못 미치지만, 일상적인 블로그 초안·유튜브 대본 초안 정도는 충분히 뽑아줘요. 비용 0원으로 하루 5만 단어를 생성할 수 있는 건 큰 강점이에요.

5) 학생·연구자: 논문 요약

DeepSeek-R2 8B의 추론 능력은 수학·과학 논문 요약에 강해요. 길이가 긴 PDF도 RAG로 청크로 나눠 처리하면 GPU 없이도 CPU만으로 분당 100~200 토큰 정도는 뽑아내요.

실제 벤치마크 — 제 PC에서 측정한 속도

RTX 5060 Ti 16GB + i5-13500 + RAM 32GB 환경에서 측정한 토큰 생성 속도예요(2026년 5월 기준).

모델양자화토큰/초VRAM 사용첫 응답 지연
Qwen3 8BQ4_K_M78 t/s5.8GB0.4초
Llama 3.3 70BQ4_K_M11 t/s14.2GB2.1초
Gemma 3 12BQ4_K_M52 t/s7.6GB0.6초
DeepSeek-R2 8BQ4_K_M71 t/s5.4GB0.5초
Llama 4 Scout 17BQ4_K_M38 t/s11.4GB0.9초

체감상 50 토큰/초 이상이면 ChatGPT 응답 속도와 비슷하게 느껴져요. Qwen3 8B는 거의 즉시 응답이라 가장 자주 쓰게 돼요.

한국 환경 특수성 — 알아두면 좋은 4가지

1) 한글 토크나이저 효율

대부분 모델이 영어 중심 토크나이저예요. 같은 분량의 한글 문서가 영어보다 23배 많은 토큰을 소비해요. 즉, "이 모델은 128K 컨텍스트"라고 해도 한글로는 실질 4060K 정도라고 보면 돼요. Qwen 계열은 중국어·한국어 토크나이저가 상대적으로 효율적이라 이 측면에서도 유리해요.

2) 다운로드 속도

Ollama·HuggingFace 모델 저장소는 미국·유럽 서버라 한국에서 받으면 평일 저녁에 10MB/s 이하로 떨어질 때가 많아요. 70B 모델(40GB)을 새벽 시간대에 받는 걸 추천해요. KT/SKB는 ollama.com에 대한 라우팅이 LG U+보다 빠르다는 사용자 후기가 많아요.

3) GPU 가격

RTX 4060 Ti 16GB가 2026년 5월 기준 5358만원, RTX 5060 Ti 16GB가 6875만원이에요. 13B 양자화 모델까지 쾌적하게 돌리려면 VRAM 16GB가 사실상 마지노선이에요. 중고 RTX 3090 24GB(80~95만원)는 70B 양자화까지 가능해 가성비 1티어로 꼽혀요.

4) 전기료

300W GPU를 하루 4시간 풀가동하면 월 약 4,000~5,000원 전기료가 추가돼요. ChatGPT Plus 월 2만 7천원(2026년 환율 기준)을 대체한다고 보면 손익분기는 한 달 이내예요.

흔히 빠지는 함정 5가지와 회피법

함정 1: 양자화를 안 쓰고 풀 모델 다운로드

Llama 3.3 70B 풀 정밀도(FP16)는 140GB예요. 90% 이상의 사용자는 Q4_K_M(약 40GB)로도 품질 차이를 거의 못 느껴요. 무조건 Q4부터 받으세요.

함정 2: CPU만으로 70B 돌리기

GPU 없이 70B를 돌리면 분당 12 토큰까지 떨어져요. 1분 만에 답변이 와도 만족도가 0이에요. CPU 환경이면 79B에서 멈추는 게 정신 건강에 좋아요.

함정 3: 동시에 여러 모델 띄우기

Ollama는 기본 5분 후 모델을 메모리에서 해제해요. 모델을 자주 바꾸면 매번 로딩에 30초~2분이 걸려서 짜증나요. OLLAMA_KEEP_ALIVE=2h 환경 변수로 메모리 유지 시간을 늘려두세요.

함정 4: 시스템 프롬프트 무시

로컬 모델은 시스템 프롬프트 영향을 크게 받아요. "너는 친절한 한국어 비서야"를 안 넣으면 영어로 답하거나, 무뚝뚝하게 응답할 때가 많아요. Open WebUI에서 모델별 시스템 프롬프트를 미리 저장해두면 매번 입력할 필요가 없어요.

함정 5: Windows에서 WSL 없이 GPU 가속 누락

Windows Ollama는 NVIDIA GPU를 자동 인식하지만, CUDA 드라이버 버전이 535 이상이어야 가속이 켜져요. ollama run llama3.1 --verbose로 "loaded on GPU" 로그가 떠야 정상이에요. 안 뜨면 드라이버 업데이트가 먼저예요.

클라우드 API와 비용 비교 — 손익분기는 언제?

ChatGPT Plus(약 2만 7천원/월), Claude Pro(약 2만 8천원/월), Gemini Advanced(2만 9,900원/월) 세 개를 다 구독하면 월 8만 5천원 가까이 나가요.

로컬 LLM 초기 투자(중급 GPU 70만원 + 전기료 월 5천원)는 약 9개월이면 손익분기예요. 그 이후로는 사실상 무료라서 장기적으로는 압도적으로 유리해요. 다만 GPT-4 시리즈, Claude Opus 4.7 같은 최상위 클로즈드 모델은 로컬에서 못 따라잡으니, 민감/반복은 로컬, 최고 품질은 클라우드 하이브리드가 정답이에요.

자주 묻는 함정 — Q&A 7가지

Q1. 로컬 LLM도 학습(Fine-tuning) 시킬 수 있어요?

가능해요. Unsloth, LLaMA-Factory 같은 도구로 LoRA(저랭크 어댑터) 방식 파인튜닝이 RTX 5060 Ti 16GB에서도 7B 모델 기준 2~4시간이면 끝나요. 회사 매뉴얼, FAQ 데이터로 학습시키면 정확도가 크게 올라가요.

Q2. 음성 입력도 가능해요?

Open WebUI에 Whisper(로컬 STT) 통합이 있어요. 마이크로 말하면 Whisper가 받아 적고 LLM이 답변하는 음성 인터페이스를 무료로 구축할 수 있어요.

Q3. 이미지 생성도 로컬에서?

LLM은 텍스트만 다루고, 이미지 생성은 Stable Diffusion·FLUX 같은 별도 모델이 필요해요. ComfyUI를 같은 GPU에 띄우면 텍스트+이미지 둘 다 무료로 해결돼요.

Q4. iPhone·Android에서 돌리려면?

iPhone 15 Pro 이상은 Llama 3.2 3B 정도가 PocketPal·LLM Farm 앱으로 돌아가요. 응답 속도는 분당 15~25 토큰으로 느리지만 비행기 모드에서도 쓸 수 있어요.

Q5. 회사 보안 정책상 모델 다운로드도 안 돼요. 방법?

오프라인 환경에선 사내 NAS에 미리 GGUF 파일을 받아 두고 Ollama의 OLLAMA_MODELS 경로를 거기로 지정하면 인터넷 없이도 동작해요.

Q6. ChatGPT처럼 기억(Memory)도 돼요?

기본 Ollama는 매 대화가 독립이에요. Open WebUI는 대화별 컨텍스트를 저장하고, MemGPT·Letta 같은 외부 도구를 붙이면 장기 기억까지 구현 가능해요.

Q7. 한국어 모델 따로 학습한 게 있어요?

EEVE-Korean 10.8B, KULLM, KoAlpaca 같은 한국어 특화 모델이 있어요. 다만 2026년 기준 Qwen3·DeepSeek-R2가 범용 한국어 품질에서 이미 추월했다는 평가가 많아요. 도메인 특화 한국어가 꼭 필요할 때만 한국어 모델을 고려하세요.

30일 학습 로드맵

  • 1~3일차: Ollama 설치 + Qwen3 8B 다운로드 + 명령어 5개 익히기
  • 4~7일차: Open WebUI Docker 설치, 즐겨 쓰는 시스템 프롬프트 3개 만들기
  • 8~14일차: 회사·개인 PDF 5개 RAG로 인덱싱해 "내 문서 챗봇" 만들기
  • 15~21일차: VS Code Continue.dev 연동해 코딩 자동완성 환경 구축
  • 22~30일차: LoRA 파인튜닝 1회 실습, 내 도메인 데이터로 모델 커스터마이즈

매일 30분씩만 투자해도 한 달이면 ChatGPT 의존도를 절반 이하로 낮출 수 있어요. 클라우드 AI에 매달 내던 돈을 GPU 업그레이드 비용으로 돌리면 1년 뒤엔 자기 자산도 남아요. 오늘 Ollama 설치부터 시작해보세요.

❓ 자주 묻는 질문 (FAQ)

로컬 LLM을 돌리려면 어떤 사양이 필요한가요?

7B 모델은 RAM 8GB면 돌아가요. 13B 모델은 16GB, 70B 모델은 64GB 이상이 필요해요. GPU가 있으면 속도가 훨씬 빨라져요.

ChatGPT 수준의 성능이 나오나요?

GPT-4 수준은 아직 어려워요. 하지만 Llama 3.1 70B 같은 모델은 GPT-3.5 이상의 성능을 보여줘요. 일상적인 업무에는 충분해요.

인터넷 없이도 사용 가능한가요?

모델 다운로드 후에는 인터넷 없이도 사용 가능해요. 비행기 안에서도, 오프라인 환경에서도 AI를 쓸 수 있어요.

개인 정보 유출 걱정이 없나요?

로컬에서 돌아가니까 데이터가 외부 서버로 전송되지 않아요. 민감한 업무에 AI를 쓰고 싶을 때 가장 안전한 방법이에요.

Mac과 Windows 둘 다 가능한가요?

Ollama와 LM Studio 모두 Mac, Windows, Linux를 지원해요. Mac M시리즈 칩은 특히 성능이 좋아요.

어떤 모델을 먼저 써보는 게 좋나요?

Llama 3.1 8B로 시작하세요. 가볍고 성능도 괜찮아요. 한국어가 중요하면 EEVE-Korean 10.8B를 추천해요.

모델 하나당 용량이 얼마나 되나요?

7B 모델은 약 4GB, 13B는 약 8GB, 70B는 약 40GB예요. 저장 공간도 미리 확인하세요.

📚 함께 읽으면 좋은 글 (Related Posts)

AI 사용법 가이드 더 보기 →