AI / LLM Engineering

Prompt Engineering

Ten sam model, dwa prompty — odpowiedź przeciętna vs. ekspercka. Prompt engineering to kluczowa umiejętność każdego kto buduje produkty na LLM.

Chain-of-Thought

Kluczowa technika

Structured JSON

Format produkcyjny

LLM-as-Judge

Ewaluacja

LangSmith

Narzędzie

5 kluczowych technik prompt engineering

Od prostego zero-shot po zaawansowane structured output — każda technika ma swoje optymalne zastosowanie.

Zero-shot

Instrukcja bez przykładów. Model odpowiada na podstawie wiedzy z treningu.

Kiedy używać: Proste zadania: tłumaczenie, klasyfikacja sentymentu, streszczenie

'Sklasyfikuj email jako SPAM lub HAM: [treść emaila]'

Few-shot

2-5 przykładów input-output przed właściwym pytaniem. Kalibruje model do pożądanego formatu.

Kiedy używać: Specyficzny format output, custom classification, niestandardowe zadania

Przykład 1: wejście → wyjście\nPrzykład 2: wejście → wyjście\nTeraz: [prawdziwe wejście]

Chain-of-Thought

Model wyjaśnia rozumowanie krok po kroku zanim poda odpowiedź. Poprawia accuracy.

Kiedy używać: Math reasoning, logic puzzles, complex decision making, kod

'Rozwiąż zadanie. Myśl krok po kroku, pokaż obliczenia, potem podaj wynik.'

Role Prompting

Nadajesz modelowi persona eksperta. Zmienia ton, głębokość i styl odpowiedzi.

Kiedy używać: Ekspertyza domenowa, zmiana tonu, specjalistyczne zadania

'Jesteś senior software architektem z 15 latami doświadczenia w systemach rozproszonych.'

Structured Output

Wymuszasz konkretny format odpowiedzi (JSON, XML, Markdown). Klucz dla integracji.

Kiedy używać: API integracje, pipeline'y danych, automatyczne przetwarzanie

'Odpowiedz w JSON: {"sentiment": "positive|negative", "score": 0-1, "reason": "..."}'

Najczęstsze błędy w promptach (Anti-Patterns)

Każdy z tych błędów sabotuje jakość odpowiedzi LLM — i każdy ma prostą poprawkę.

Zbyt ogólna instrukcja

Problem:

'Napisz o marketingu'

Fix:

'Napisz 400-słowowy artykuł o email marketingu dla B2B SaaS, skupiając się na onboardingu i aktywacji.'

Brak formatu output

Problem:

'Podsumuj ten dokument'

Fix:

'Podsumuj w 3 bullet points, każdy max 20 słów, skupiając się na decyzjach i action items.'

Sprzeczne instrukcje

Problem:

'Bądź krótki i podaj wszystkie szczegóły'

Fix:

Zdecyduj: krótkie = 3 bullet points, szczegółowe = pełny raport. Wybierz jedno.

Brak instrukcji fallback

Problem:

Brak obsługi gdy model nie zna odpowiedzi

Fix:

'Jeśli nie masz pewności, odpowiedz: Nie mam wystarczających informacji. Nie spekuluj.'

Często zadawane pytania

Co to jest Prompt Engineering?

Prompt Engineering to sztuka i nauka projektowania instrukcji (promptów) dla modeli językowych (LLM) w celu uzyskania optymalnych odpowiedzi. Dobry prompt to różnica między odpowiedzią przeciętną a odpowiedzią klasy eksperckiej. Prompt składa się z: Instruction — co model ma zrobić. Context — tło i informacje kontekstowe. Input — konkretne dane lub pytanie. Output format — oczekiwany format odpowiedzi. Dlaczego prompt engineering jest ważny: Ten sam model może dać dramatycznie różne wyniki w zależności od promptu. Dobry prompt = oszczędność tokenów = niższy koszt. Brak prompt engineering = halucynacje, błędne formaty, niepełne odpowiedzi. Kluczowe zasady: bądź precyzyjny (nie 'napisz o X', lecz 'napisz 3-akapitowy artykuł o X dla odbiorcy Y w tonie Z'), używaj przykładów (few-shot), definiuj format output.

Jakie są główne techniki prompt engineering?

Techniki prompt engineering: Zero-shot — prompt bez przykładów. 'Przetłumacz na angielski: Dzień dobry'. Działa dla prostych zadań. Few-shot — podajesz 2-5 przykładów input-output przed właściwym pytaniem. Dramatycznie poprawia jakość dla złożonych zadań. Chain-of-Thought (CoT) — 'Pomyśl krok po kroku zanim odpiszesz.' Poprawia reasoning i matematykę. Zero-shot CoT — dodaj 'Let's think step by step' do dowolnego pytania. Zero kosztu, duży zysk. Role prompting — 'Jesteś ekspertem od X z 20 latami doświadczenia.' Zmienia ton i głębokość odpowiedzi. Negative prompting — 'NIE używaj bulletów. NIE halucynuj. Jeśli nie wiesz — powiedz że nie wiesz.' Tree of Thoughts (ToT) — model eksploruje kilka ścieżek rozumowania i wybiera najlepszą. Dla bardzo złożonych problemów. Structured output — 'Odpowiedz w formacie JSON: {key: value}'. Kluczowe dla integracji API.

Jak pisać skuteczny system prompt?

System prompt to fundament każdej aplikacji LLM. Elementy skutecznego system promptu: Persona — 'Jesteś asystentem obsługi klienta firmy X, specjalizującym się w produktach SaaS.' Zakres — co możesz, czego nie możesz robić. 'Odpowiadasz TYLKO na pytania o produkty X. Na inne tematy odmawiasz uprzejmie.' Format output — 'Zawsze odpowiadaj po polsku. Używaj bullet points. Max 200 słów.' Fallback — 'Jeśli nie znasz odpowiedzi, powiedz: Nie mam informacji na ten temat. Proszę skontaktuj się z supportem.' Przykłady (optional few-shot) — kilka par pytanie-odpowiedź pokazujących pożądany styl. Tonacja — 'Używaj profesjonalnego, ale przyjaznego tonu. Unikaj żargonu technicznego.' Anty-patterns: zbyt długi system prompt (model ignoruje końcówkę), sprzeczne instrukcje, brak definicji formatu output, brak instrukcji fallback.

Co to jest RAG vs. prompt engineering — kiedy co stosować?

RAG vs. Prompt Engineering: Prompt engineering operuje w obrębie tego co model już wie z treningu + co dostarczasz w kontekście. RAG rozszerza kontekst o zewnętrzne, aktualne dokumenty. Kiedy tylko prompt engineering wystarcza: Zadania ogólne (podsumowanie, tłumaczenie, klasyfikacja). Kreacja (pisanie, brainstorming). Gdy dane się nie zmieniają szybko. Kiedy potrzebujesz RAG: Model musi odpowiadać na podstawie Twojej prywatnej dokumentacji. Dane są aktualizowane regularnie (FAQ, cenniki, regulaminy). Potrzebujesz referencji do źródeł. Chcesz eliminować halucynacje o faktach. Połączenie: System prompt definiuje zachowanie modelu, RAG dostarcza fakty, Few-shot przykłady kształtują format. To trio jest podstawą większości produkcyjnych aplikacji LLM. Prompt engineering jest zawsze potrzebny — nawet przy RAG musisz napisać dobry prompt który integruje pobrany kontekst.

Jak ewaluować i iterować prompty?

Ewaluacja promptów: Tworzenie test suite — zestaw 20-50 par input-expected_output pokrywających edge cases, typowe pytania i trudne przypadki. Metryki automatyczne — dla klasyfikacji: accuracy, F1. Dla generacji: ROUGE (overlap z referencją), BERTScore (semantic similarity), LLM-as-judge (GPT-4 ocenia jakość). Human evaluation — złoty standard, ale kosztowny. Próbkuj 10-20% outputs do ręcznego przeglądu. A/B testing promptów — uruchamiaj 2 wersje promptu na tym samym zestawie testowym, porównaj metryki. Narzędzia: LangSmith — playground + tracing + ewaluacja. Promptfoo — open-source prompt testing framework. Helicone, Braintrust — prompt management i ewaluacja. PromptLayer — versioning i analytics. Iteracja: zmień jedną zmienną na raz. Dokumentuj zmiany i wyniki. Używaj prompt templates (zmienne zamiast hard-coded wartości). Zawsze testuj na production-like danych.

Czytaj dalej