AI / ML Engineering

Fine-Tuning LLM

GPT-4 jest genialny ogólnie. Fine-tuning robi z niego eksperta w Twojej domenie — w Twoim tonie, w Twoim formacie, z Twoim żargonem.

LoRA / QLoRA

Popularna technika

50-100

Min. przykładów

OpenAI FT

Platforma API

Unsloth

OSS framework

Metody fine-tuningu LLM

Od full fine-tuning po managed API — wybierz metodę dopasowaną do Twojego budżetu i wymagań.

Full Fine-Tuning

Wszystkie wagi modelu są aktualizowane. Maksymalna elastyczność i jakość.

GPU: Bardzo wysokie (80GB+ VRAM dla 7B modelu)

Jakość: Najwyższa

Kiedy: Duże budżety, małe modele, krytyczna aplikacja

LoRA

Niska ranga adaptacja — dodaje małe macierze do istniejących wag. 10-100x oszczędność VRAM.

GPU: Niskie (6-16GB dla 7B modelu)

Jakość: Wysoka (95% full FT)

Kiedy: Standardowy wybór dla produkcyjnych zastosowań

QLoRA

LoRA z kwantyzacją modelu do 4-bit. Fine-tuning 70B modeli na consumer GPU.

GPU: Bardzo niskie (24GB dla 70B modelu!)

Jakość: Dobra (90% full FT)

Kiedy: Ograniczony budżet, duże modele, eksploracja

OpenAI Fine-Tuning API

Managed service — uploadujesz JSONL, OpenAI trenuje, dostajesz endpoint.

GPU: Brak (managed)

Jakość: Wysoka (GPT-3.5 base)

Kiedy: Szybkie wdrożenie, akceptowalny vendor lock-in

6 zasad dobrego datasetu fine-tuningu

Jakość danych treningowych determinuje jakość fine-tuned modelu. Garbage in, garbage out.

Minimum 50-100 przykładów

Dla OpenAI API, simple tasks. 500+ dla lokalnych modeli.

Jakość ponad ilość

100 doskonałych przykładów bije 1000 przeciętnych. Każdy przykład powinien być wzorową odpowiedzią.

Reprezentatywność

Pokryj wszystkie typy zapytań jakie dostaniesz w produkcji — w tym edge cases.

Spójność stylu

Wszystkie odpowiedzi w jednym tonie, formacie, długości. Niespójność = konfuzja modelu.

Train/validation split

90% train, 10% validation. Monitoruj validation loss — wzrost = overfitting.

Unikaj duplikatów

Zdeduplikuj na poziomie semantycznym — nie tylko exact match.

Często zadawane pytania

Co to jest Fine-Tuning LLM?

Fine-tuning (dostrajanie) to proces dalszego trenowania pre-trenowanego modelu językowego (LLM) na własnym, specjalistycznym zbiorze danych w celu dostosowania go do konkretnego zadania lub domeny. Analogia: GPT-4 to absolwent uczelni z szeroką wiedzą ogólną. Fine-tuning to staż w konkretnej firmie — model 'uczy się' specyfiki Twojej domeny, stylu komunikacji i formatów. Co zmienia fine-tuning: Styl i ton odpowiedzi. Specjalistyczny żargon i terminologię domeny. Format output (model zawsze odpowiada w JSON, zawsze po polsku, zawsze w 3 punktach). Zachowanie — model wie kiedy odmówić, jak eskalować. Czego NIE zmienia fine-tuning: Model nie 'pamięta' nowych faktów jak RAG. Fine-tuning zmienia wagi, nie dodaje zewnętrznej bazy wiedzy. Złe użycie: fine-tuning jako zastępstwo RAG dla aktualnych danych. Dobre użycie: fine-tuning dla stylu, tonu, formatu i specjalistycznej terminologii.

Jakie są techniki fine-tuningu — LoRA, QLoRA, RLHF?

Techniki fine-tuningu: Full Fine-Tuning — modyfikacja wszystkich wag modelu. Najlepsza jakość, najdroższy (wymaga dużo GPU). Tylko dla małych modeli lub dużych budżetów. LoRA (Low-Rank Adaptation) — zamiast modyfikować wszystkie wagi, dodaje małe macierze adaptacyjne do warstw modelu. 10-100x mniejszy koszt GPU, porównywalna jakość. Standardowa metoda dla mid-size teams. QLoRA (Quantized LoRA) — LoRA + kwantyzacja modelu do 4-bit. Umożliwia fine-tuning dużych modeli (70B) na pojedynczej karcie GPU. Idealne dla zasobowo ograniczonych projektów. RLHF (Reinforcement Learning from Human Feedback) — używany przez OpenAI do trenowania ChatGPT. Bardzo kosztowny, wymaga dużego zespołu ludzkich ewaluatorów. Tylko dla największych firm. RLAIF (RL from AI Feedback) — zastępuje ludzkich ewaluatorów modelem AI. Tańszy wariant RLHF. DPO (Direct Preference Optimization) — nowsza alternatywa dla RLHF. Prostszy w implementacji, coraz popularniejszy.

Jak przygotować dataset do fine-tuningu?

Przygotowanie datasetu fine-tuningu: Format: zazwyczaj JSONL (JSON Lines) z parami instruction-response lub conversation format (messages array). Minimalna ilość przykładów: dla GPT-3.5/4 API: 50-100 przykładów może wystarczyć dla prostych zadań. Dla Llama, Mistral lokalnie: 500-2000+ przykładów dla dobrych wyników. Jakość ponad ilość — 100 doskonałych przykładów bije 1000 słabych. Jak zbierać dane: Ręczna kuracja — tworzysz pary pytanie-odpowiedź manualnie. Najlepsza jakość, najwolniejsza. GPT-4 distillation — używasz GPT-4 do generowania odpowiedzi, fine-tuning mniejszego modelu na tych odpowiedziach. Tańsze. Production data — zbierasz prawdziwe interakcje użytkowników z Twoją aplikacją, filtrujesz i labellingujesz. Najlepsze dane długoterminowo. Przygotowanie: usuń duplikaty, sprawdź spójność formatu, zbalansuj klasy (jeśli klasyfikacja), podziel na train/validation split (90/10).

Fine-tuning vs. RAG vs. Prompt Engineering — kiedy co stosować?

Porównanie podejść: Prompt Engineering — czas wdrożenia: godziny. Koszt: niski. Najlepiej dla: ogólnych zadań, szybkich prototypów, gdy model już 'wie' co trzeba. RAG — czas wdrożenia: dni/tygodnie. Koszt: średni. Najlepiej dla: aktualnych danych, prywatnej dokumentacji, eliminacji halucynacji o faktach, gdy dane się zmieniają. Fine-tuning — czas wdrożenia: tygodnie/miesiące. Koszt: wysoki. Najlepiej dla: specyficznego stylu i tonu, własnego żargonu, formatów output, szybkości inferencji (mniejszy model), prywatności (lokalny model). Decyzyjne pytania: Masz unikalny styl komunikacji lub terminologię? Fine-tuning. Dane się często zmieniają? RAG. Potrzebujesz szybko przetestować? Prompt engineering. Chcesz chronić dane przed zewnętrznymi API? Fine-tuning lokalnego modelu. Optymalnie: Stack składa się z fine-tuned małego modelu (Llama, Mistral) + RAG dla aktualnych danych + precyzyjny system prompt.

Jakie platformy i narzędzia wspierają fine-tuning?

Platformy fine-tuningu: OpenAI Fine-Tuning API — fine-tuning GPT-3.5-Turbo i GPT-4o-mini. Najprościej, ale dane idą do OpenAI. Koszt: $8/1M tokens training. Produkcja: od kilku godzin. Hugging Face + PEFT — open-source ecosystem. LoRA, QLoRA, pełny fine-tuning lokalnie lub na cloud GPU. Wymaga wiedzy ML. Unsloth — optymalizowany framework dla QLoRA, 2x szybszy trening. Popularny dla lokalnych eksperymentów. Axolotl — konfigurowalne fine-tuning z YAML config. Dobry dla teams bez głębokiej wiedzy ML. Torchtune — oficjalny framework PyTorch dla fine-tuning. Modal, RunPod, Lambda Labs — tanie GPU w chmurze dla fine-tuning ($1-3/godz. A100). Vertex AI, SageMaker — managed fine-tuning na AWS/GCP. Droższe ale prostsze operacyjnie. Together AI, Replicate — fine-tuning jako usługa. Prosty API. Narzędzia ewaluacji: eleuther-ai/lm-evaluation-harness, OpenAI Evals, Promptfoo. Monitorowanie: W&B, MLflow dla śledzenia loss curves.

Czytaj dalej