Eunoia Creativ
AI i Automatyzacja

RAG po polsku — kiedy chatbot na własnych danych ma sens

Wojciech Irlik

Co to jest RAG — w prostym języku

RAG to skrót od „Retrieval-Augmented Generation". W praktyce: LLM (jak ChatGPT) z dostępem do Twojej bazy wiedzy. Pytasz, system najpierw szuka w Twoich dokumentach, znajduje relevantne fragmenty, podaje je modelowi LLM jako kontekst, model odpowiada na podstawie tego kontekstu.

Po co to? Dwie rzeczy: 1) ChatGPT/Claude nie znają Twojej firmy, RAG daje im taką wiedzę. 2) RAG redukuje halucynacje, bo model odpowiada na podstawie konkretnych dokumentów, a nie z głowy.

Kiedy RAG ma sens — i kiedy nie

Tak, RAG:

Masz 50+ dokumentów, na które ludzie często pytają (regulaminy, procedury, instrukcje produktowe, FAQ rozszerzone). Chcesz zrobić chatbota, który odpowiada precyzyjnie z cytowaniem źródła. Dokumenty często się zmieniają — RAG aktualizuje się automatycznie po update'u dokumentu.

Nie, RAG to overkill:

Masz 5 dokumentów PDF — wystarczy Claude Projects (po prostu wgrywasz pliki, gotowe). Pytania są generyczne („jak działa marketing") — ChatGPT odpowie bez RAG. Dokumenty rzadko się zmieniają i mieszczą się w 200 tys. tokenach (tj. ~100–200 stron) — wystarczy wgrać do prompta.

Architektura RAG — uproszczona

1. Indeksowanie (raz / przy update'ach)

Dokumenty (PDF, DOCX, strony www) → ekstrakcja tekstu → chunking (dzielisz na fragmenty 500–1000 znaków) → embedding (każdy fragment dostaje wektor liczbowy reprezentujący znaczenie) → zapis do vector database (Pinecone, Qdrant, Weaviate, Chroma).

2. Query (przy każdym pytaniu)

Pytanie użytkownika → embedding pytania → vector search w bazie (znajduje top 5 najbardziej semantycznie podobnych fragmentów) → fragmenty + pytanie → LLM (Claude/GPT) → odpowiedź z cytatami.

3. Iteracja

Monitorowanie odpowiedzi, feedback od użytkowników, fine-tuning chunkingu i promptów.

Polski kontekst — specyfika

Tokenizacja polskiego

Polskie słowa są znacznie dłuższe w tokenach niż angielskie (przez fleksję, długie wyrazy złożone). To znaczy: ten sam dokument w polskim zajmuje 1,5–2x więcej tokenów. Wpływa to na koszty (więcej tokenów = drożej) i limity kontekstu.

Embeddingi dla polskiego

OpenAI text-embedding-3-large działa świetnie dla polskiego. Cohere multilingual też. Dla budżetowych projektów: BGE-M3 (open-source, można uruchomić lokalnie). Dla profesjonalnych — OpenAI lub Cohere.

Polish-specific quirks

Synonimy w polskim (np. „faktura" / „dokument księgowy" / „rachunek") czasem nie są łapane przez search. Trick: hybrid search — kombinacja embedding search + keyword search (BM25). Daje 20–40% lepsze wyniki w polskim niż czysty vector search.

Stack budżetowy vs profesjonalny

Budżetowy (do 50 000 PLN total)

Vector DB: Chroma lub Qdrant self-hosted. Embeddings: OpenAI text-embedding-3-small. LLM: Claude Sonnet (taniej niż Opus). Frontend: Streamlit lub Vercel Next.js. Czas wdrożenia: 3–4 tygodnie. Sensowne dla bazy do 5 000 dokumentów.

Profesjonalny (50 000 – 200 000 PLN)

Vector DB: Pinecone lub Qdrant managed. Embeddings: OpenAI text-embedding-3-large + reranker (Cohere Rerank). LLM: Claude Opus. Hybrid search (vector + BM25). Backend: FastAPI/Node.js. Frontend: custom UI z brand-em firmy. Monitoring i analytics. Wsparcie multi-tenant. Czas: 8–16 tygodni.

Top 5 use-case'ów w polskich firmach

1. Wewnętrzny chatbot procedur

Onboarding nowych pracowników, FAQ procedur HR, instrukcje IT. Q&A na firmowym handbooku. Adopcja: po wdrożeniu HR i IT odpowiadają o połowę mniej na powtarzające się pytania.

2. Customer-facing chatbot z FAQ

Strona produktu B2B SaaS — chatbot odpowiada na pytania techniczne na podstawie dokumentacji. Wzrost konwersji 8–15% (klienci znajdują odpowiedzi szybciej).

3. Sales enablement

Handlowiec dostaje zapytanie od klienta o specyfikację techniczną. Wewnętrzny chatbot z dostępem do specs, case studies, polityk → handlowiec ma odpowiedź w 30 sekund.

4. Legal / compliance lookup

Kancelaria z bazą orzeczeń, regulacji, opinii. Junior pyta „jakie były podobne sprawy o X" → RAG odpowiada z cytatami. (Z weryfikacją senior-a, oczywiście.)

5. Wewnętrzny knowledge base

Firma 50+ osób z dziesiątkami dokumentów na Confluence/Notion/Drive. RAG łączy wszystko w jeden chatbot. Notion AI robi to do pewnego stopnia, custom RAG dla większych baz i bardziej zaawansowanych potrzeb.

Pułapki, które kosztują

1. Garbage in, garbage out

RAG na chaotycznej, nieprzefiltrowanej bazie (stare dokumenty, duplikaty, sprzeczne wersje) daje chaotyczne odpowiedzi. Pierwszy etap projektu: data cleaning. To zwykle 30–40% effortu.

2. Brak monitoringu

RAG odpowiada źle, nikt nie sprawdza. Klient pyta o coś technicznego, dostaje halucynację. Plan: log każdej odpowiedzi, periodic review przez human-a, feedback loop.

3. Over-engineering

Firmy chcą custom RAG, kiedy Notion AI lub Claude Projects wystarczają. Test przed budową: spróbuj zrobić z out-of-the-box narzędzi przez tydzień. Jeśli wystarcza — nie buduj custom.

4. Brak ścieżki eskalacji

Chatbot nie zna odpowiedzi → halucynuje. Dobry RAG ma fallback: „nie znalazłem w mojej bazie, oto kontakt do specjalisty".

RAG vs Notion AI vs Claude Projects

Claude Projects: do 200k tokenów dokumentów, łatwe (drag & drop), świetne dla małych baz. Limit: nie skaluje się powyżej kilku setek stron.

Notion AI Q&A: RAG na Twojej bazie Notion. Out-of-the-box, działa od razu. Limit: tylko Notion, mniej kontroli nad chunkingiem i promptami.

Custom RAG: wszystko inne. Kontrola, skalowalność, integracje. Wymaga developmentu.

Reguła: zacznij od Claude Projects/Notion AI. Custom RAG buduj dopiero, gdy te są niewystarczające.

RODO i wrażliwe dane

RAG na danych klientów, dokumentach pracowniczych, finansach — wymaga staranności RODO. Opcje: 1) Cloud z DPA (OpenAI/Anthropic Enterprise, region EU), 2) Self-hosted z lokalnym LLM (Ollama z Llama 3.3 lub Phi-3 + lokalny embedding). Self-hosted droższy w utrzymaniu, ale daje pełną kontrolę.

Realny ROI custom RAG

Firma B2B SaaS 80 osób, custom RAG na dokumentacji produktu + customer support history. Inwestycja: 120 000 PLN setup + 3 000 PLN/m utrzymania. Po 6 miesiącach: 35% redukcja czasu pierwszej odpowiedzi w supporcie, 22% wzrost self-service rate (klienci znajdują odpowiedzi sami). Zwrot: 8 miesięcy.

Co dalej

RAG ma sens dla firm z dużą bazą dokumentów i regularnymi pytaniami. Dla mniejszych — Claude Projects lub Notion AI wystarczą. Audyt AI wskaże, czy RAG jest sensowny dla Twojej firmy, czy wystarczy out-of-the-box. Albo umów konsultację — opowiedz o swojej bazie wiedzy.

O autorze

Wojciech Irlik

Założyciel & Strateg | Eunoia Creativ

Założyciel Eunoia Creativ. Specjalizuje się w tworzeniu customowych stron internetowych i strategiach marketingowych dla małych i średnich firm w Polsce. Od ponad 5 lat pomaga biznesom zwiększać sprzedaż online — bez szablonów, bez kompromisów jakościowych. Pisze o marketingu, SEO, stronach WWW i prowadzeniu agencji.

Tworzenie stron internetowychSEOContent marketingZarządzanie agencją marketingowąStrategia biznesowa dla MŚP

Potrzebujesz pomocy z marketingiem?

Umów bezpłatną konsultację — porozmawiajmy o Twoim projekcie.