로컬 LLM과 셀프호스팅 AI 인프라 구축 가이드

작성자 seokchol hong

들어가며

클라우드 AI 서비스는 편리하지만, 비용, 데이터 프라이버시, 인터넷 연결 의존성 등의 한계가 있다. 로컬 LLM과 셀프호스팅 AI 인프라는 이러한 한계를 극복하는 대안이다. Ollama, Supabase 등을 활용하면 자체 서버에서 AI 모델을 실행하고, 데이터를 외부에 전송하지 않으면서 AI 기능을 활용할 수 있다.


1. Ollama — 로컬 LLM 실행의 표준

Ollama는 로컬 환경에서 다양한 오픈소스 LLM을 쉽게 실행할 수 있게 해주는 도구다. Docker처럼 모델을 pull하고 run하는 간단한 인터페이스를 제공한다.

설치 및 기본 사용

# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh

# 모델 다운로드 및 실행
ollama pull llama3
ollama run llama3

주요 지원 모델

  • Llama 3 (Meta): 가장 인기 있는 오픈소스 LLM
  • Qwen 3 (Alibaba): 다국어 지원이 강점
  • Mistral: 효율적인 경량 모델
  • GLM-4 (Zhipu AI): 중국어+영어 이중 언어 특화
  • Phi (Microsoft): 소형 고성능 모델

Open Code와의 결합

Open Code(oh-my-opencode)에 Ollama를 연결하면, 완전 무료로 AI 코딩 환경을 구축할 수 있다. API 비용이 전혀 발생하지 않으므로, 학습이나 실험 목적으로 최적이다.

성능과 하드웨어 요구사항

  • 7B 모델: 8GB RAM, 일반 GPU로 실행 가능
  • 13B 모델: 16GB RAM, 중급 GPU 권장
  • 70B 모델: 64GB+ RAM, 고급 GPU 필수 (RTX 4090 이상)
  • Apple Silicon Mac은 Metal 가속으로 효율적인 로컬 실행 가능

2. Supabase — AI를 위한 백엔드 인프라

Supabase는 오픈소스 Firebase 대안으로, PostgreSQL 기반의 백엔드 서비스를 제공한다. AI 앱 개발에서 특히 유용한 이유:

AI와의 통합

  • pgvector: PostgreSQL 확장으로 벡터 검색 지원. RAG 시스템의 벡터 데이터베이스로 활용
  • Edge Functions: 서버리스 함수로 AI 파이프라인 구축
  • Realtime: 실시간 데이터 동기화
  • Row Level Security: 사용자별 데이터 접근 제어

Supabase MCP

Claude Code에서 Supabase MCP를 연결하면, 자연어로 PostgreSQL 데이터베이스를 관리할 수 있다. "users 테이블을 만들고 email에 unique 제약조건을 걸어줘" 같은 명령이 가능하다. 32개 도구를 통해 스키마 설계, 테이블 생성, 쿼리 실행, RLS 설정까지 수행한다.


3. MiroFish — 집단 지능 시뮬레이션 엔진

MiroFish는 독특한 AI 도구로, 문서 하나로 수천 명의 가상 인간을 시뮬레이션하는 집단 지능 엔진이다. 시장 조사, 여론 시뮬레이션, 제품 반응 예측 등에 활용될 수 있다.

MCP vs CLI

MiroFish도 MCP와 CLI 두 가지 방식으로 사용 가능하다:

  • MCP: Claude Desktop이나 Claude Code에서 자연어로 시뮬레이션 실행
  • CLI: 터미널에서 직접 명령어로 제어

4. 셀프호스팅의 장단점

장점

  • 데이터 주권: 기업 데이터가 외부 서버로 전송되지 않음
  • 비용 예측 가능: 고정 하드웨어 비용만 발생 (API 과금 없음)
  • 오프라인 사용: 인터넷 없이도 AI 기능 활용 가능
  • 커스터마이징: 모델 파인튜닝, 프롬프트 최적화 자유롭게 가능

단점

  • 초기 투자: 고성능 하드웨어(GPU) 구매 비용
  • 관리 부담: 모델 업데이트, 서버 유지보수, 보안 관리
  • 성능 제한: 최신 상용 모델(GPT-5, Claude 4.5)에 비해 성능이 낮을 수 있음
  • 전문 지식 필요: 설치, 설정, 최적화에 기술적 역량 필요

추천 사용 시나리오

  • 데이터 프라이버시가 핵심인 기업 (의료, 금융, 법률)
  • API 비용이 부담되는 대량 처리 워크로드
  • 특정 도메인에 파인튜닝이 필요한 경우
  • 학습 및 실험 목적

마무리

로컬 LLM과 셀프호스팅 AI 인프라는 클라우드 AI의 대안이자 보완재다. Ollama로 시작해 오픈소스 모델을 실험하고, Supabase로 벡터 DB 기반의 RAG 시스템을 구축하며, 필요에 따라 클라우드와 로컬을 병행하는 하이브리드 전략이 현실적이다. 모든 것을 로컬에서 해결할 필요는 없지만, 로컬 옵션을 확보해두는 것은 비용 관리와 데이터 보안 측면에서 중요한 전략적 자산이다.

목록으로