Wiele firm korzysta dziś z AI w chmurze, ale są przypadki, gdy lepiej (albo taniej) przetwarzać dane u siebie: poufne dokumenty, tajemnice handlowe, dane klientów regulowane umowami lub przepisami. Self-hosted LLM (własny model uruchamiany lokalnie lub na serwerze firmowym) daje większą kontrolę nad danymi i przewidywalne koszty. Ten przewodnik pokazuje minimalny, praktyczny zestaw komponentów (RAG), wymagania sprzętowe, koszty, ryzyka i kroki wdrożenia w MŚP.
Retrieval-Augmented Generation (RAG) to sposób pracy modelu, w którym odpowiedzi są wspierane „ściągawką” z Twoich dokumentów. Zamiast „uczyć” model od zera, tworzysz indeks wiedzy (wektorową bazę z embeddingami), a przy każdym zapytaniu system wyszukuje właściwe fragmenty i podsuwa je modelowi do odpowiedzi. Efekt: dokładniejsze, aktualne i wyjaśnialne odpowiedzi bez kosztownego treningu.
W praktyce wystarczy pięć klocków, które możesz uruchomić na jednym serwerze:
Dla MŚP sensowny jest zestaw: jeden model czatowy ogólnego przeznaczenia + lekki model embeddingów. Wersje „instruct” sprawdzają się w asystentach biurowych i help deskach wewnętrznych. Jeśli pracujesz głównie po polsku, wybierz model znany z dobrej jakości w językach europejskich. Nie zaczynaj od największych możliwych wag — liczy się stabilność i koszt, a nie rekord w benchmarku.
Najczęstsze pytanie brzmi „czy potrzebuję GPU?”. To zależy od skali i opóźnień, jakie akceptujesz:
W praktyce warto zacząć na istniejącym serwerze (VM lub bare-metal), a dopiero przy rosnącym użyciu przejść na kartę GPU lub serwer zewnętrzny w Twojej kontroli.
Szacunkowo (porządek wielkości): jednorazowo 0–3000 zł (jeśli kupujesz używaną kartę GPU), miesięcznie kilkadziesiąt–kilkaset zł za prąd i utrzymanie. Oprogramowanie open-source (serwer inferencji, konektory do RAG, wektorowa baza) zwykle jest bezpłatne, a jeśli skorzystasz z komercyjnego wsparcia lub gotowych kontenerów, dolicz abonament. Najważniejsze: policz alternatywę w chmurze (koszt tokenów + transfer) przy Twoim wolumenie zapytań — bywa, że self-host opłaca się już od kilkunastu tysięcy zapytań miesięcznie.
AI nie zwalnia z higieny IT. Zadbaj o podstawy:
Najczęściej nie model jest „winny”, tylko dane i parametry RAG:
Do małych wdrożeń sprawdzi się lekka baza wektorowa lub rozszerzenie w PostgreSQL. Kluczowe ustawienia to metryka podobieństwa (np. cosine) i wielkość indeksu. Prowadź wersjonowanie indeksów (np. v1, v2), by móc wrócić do poprzednich parametrów bez „grzebania” w produkcji.
Na początek wystarczy prosty pulpit: wykorzystanie CPU/GPU i RAM, czas odpowiedzi (p50/p95) oraz odsetek zapytań bez wyników z RAG (brak trafień). Jeśli p95 rośnie, najpierw sprawdź indeks (rozmiar, fragmenty), dopiero potem dokładaj sprzęt.
Tydzień 1: wybór use case (np. Q&A z regulaminów i umów), inwentaryzacja źródeł, decyzje o dostępie (RBAC), wybór modelu i bazy wektorowej. Przygotuj środowisko (VM/serwer, kontenery).
Tydzień 2: ingest pierwszych plików (PDF/DOCX/HTML), czyszczenie, chunking, liczenie embeddingów, budowa indeksu v1. Uruchom czat i logowanie. Testy jakości (top-k, progi podobieństwa).
Tydzień 3: hardening bezpieczeństwa (TLS, SSO, segmentacja), red teaming promptów, alerty. Warsztat z użytkownikami: pytania kontrolne, jak cytować źródła, kiedy system mówi „nie wiem”.
Tydzień 4: pilotaż na ograniczonej grupie (np. 10 osób), poprawki promptów i parametrów RAG, przegląd dzienników, decyzja o ewentualnym GPU. Dokument „operacje i utrzymanie”.
Self-hosted ma sens, gdy masz wrażliwe dane, stabilny i przewidywalny wolumen zapytań, potrzebę pracy offline lub integracji z systemami bez dostępu do internetu. Chmura wygrywa, gdy kluczowa jest elastyczna skala, minimalny wysiłek operacyjny i dostęp do najnowszych, bardzo dużych modeli. W wielu firmach najlepiej działa hybryda: bieżące dokumenty lokalnie, a rzadkie, „ciężkie” zadania — przez API w chmurze.
Self-hosted LLM nie wymaga farmy serwerów ani zespołu naukowców. Dla MŚP wystarczy lekki stack RAG, rozsądny model 7–14B, mała baza wektorowa i dyscyplina operacyjna. Zacznij od jednego procesu (np. Q&A na dokumentach działu), dopracuj parametry i bezpieczeństwo, a dopiero potem skaluj. Efektem jest szybszy dostęp do wiedzy, mniejsze ryzyko prawne i przewidywalny koszt utrzymania.
https://owasp.org/www-project-top-10-for-large-language-model-applications/ — OWASP: najczęstsze zagrożenia dla aplikacji opartych na LLM i wskazówki zabezpieczeń
https://www.nist.gov/itl/ai-risk-management-framework — NIST AI RMF: ramy zarządzania ryzykiem w projektach AI
https://www.postgresql.org/docs/current/pgvector.html — pgvector: wektorowe wyszukiwanie w PostgreSQL
https://qdrant.tech/documentation/ — Qdrant: dokumentacja bazy wektorowej i przykłady wdrożeń
https://milvus.io/docs — Milvus: dokumentacja i dobre praktyki indeksowania
https://llama.cpp.ai — llama.cpp: uruchamianie modeli na CPU/GPU, kwantyzacja i wymagania
https://vllm.ai — vLLM: szybki serwer inferencji i zarządzanie kontekstem
https://python.langchain.com/docs — LangChain: łączenie RAG, indeksów, modeli i aplikacji
https://www.deeplearning.ai/the-batch/ — The Batch: praktyczne materiały o RAG i jakości odpowiedzi
Sprawdź naszych specjalistów w praktycznym działaniu. Zobacz co możemy zrobić dla Twojej firmy - przejrzyj ofertę lub skorzystaj z bezpłatnej konsultacji.