AI / Image Gen / TypeScript

AI generowanie obrazów

DALL-E 3, Replicate (SDXL/Flux), FAL.ai (realtime), Stable Diffusion — prompt engineering, Next.js integracja i porównanie kosztów.

DALL-E 3

Tekst w obrazach

Flux/SDXL

Open source

FAL.ai

Realtime

Replicate

Marketplace

6 API do generowania obrazów AI — porównanie

DALL-E 3, Stable Diffusion, Flux, Replicate, Midjourney i Ideogram — model, cena i kiedy używać.

API	Model	Cena	Kiedy
DALL-E 3 (OpenAI)	OpenAI proprietary	$0.04-$0.12/img	Najlepsza jakość tekstu w obrazach, reliabilny
Stable Diffusion XL (Stability)	Open source	$0.003-$0.065/img	Tanie, customizable, self-host opcja
Flux.1 (FAL.ai)	Black Forest Labs	$0.003-$0.055/img	Szybki, realtime streaming, SOTA quality
Replicate	Marketplace (SDXL, Flux)	$0.0039+/run	Wiele modeli, fine-tuning, webhooks
Midjourney	Proprietary	$10-60/mc	Najpiękniejszy styl — ale brak API
Ideogram	Proprietary	$0.02-$0.08/img	Tekst w obrazach, logo, typografia

Często zadawane pytania

Generowanie obrazów AI — DALL-E 3, Stable Diffusion i porównanie API?

DALL-E 3 (OpenAI): najlepsza jakość tekstu w obrazach. Dokładnie rozumie prompt. API: openai.images.generate({model: 'dall-e-3', prompt: 'A cat wearing sunglasses', size: '1024x1024', quality: 'hd', n: 1}). Sizes: 1024x1024, 1024x1792, 1792x1024. Quality: standard lub hd (droższy). Style: vivid lub natural. Odpowiedź: url — tymczasowy URL (60min). b64_json — base64. revised_prompt — co DALL-E faktycznie rozumie. Cena: $0.04-$0.12 per obraz. Stable Diffusion (Stability AI): open source, wiele wersji. Stable Diffusion XL, SD 3. Stability AI API: stability.ai/api. SDXL: najlepszy open source. ControlNet, LoRA fine-tuning. Replicate: hosting modeli open source. SDXL, Flux, Kandinsky. API zgodne — jeden SDK. replicate.run('stability-ai/sdxl', {input: {prompt: 'text'}}). FAL.ai: szybkie inference (GPU). Flux.1 (black-forest-labs). Realtime generation. WebSocket streaming. Midjourney: brak oficjalnego API. Tylko Discord. Nieoficjalne wrappery (niestabilne). Ideogram: typografia w obrazach. Recraft.ai: SVG generation, brand images. Koszt porównanie: DALL-E 3 $0.04-$0.12. Replicate SDXL $0.0039 (tanie!). FAL.ai Flux $0.003-$0.055. Stability API $0.003-$0.065.

Replicate API — uruchamianie modeli open source w TypeScript?

Replicate: platforma dla modeli ML. Tysiące modeli. API key based. TypeScript SDK: npm install replicate. import Replicate from 'replicate'. const replicate = new Replicate({auth: process.env.REPLICATE_API_TOKEN}). Uruchomienie modelu: const output = await replicate.run('black-forest-labs/flux-schnell', {input: {prompt: 'astronaut riding a horse', num_outputs: 1}}). output — URL lub array URLs. Popularne modele: black-forest-labs/flux-schnell — szybki Flux. stability-ai/sdxl — Stable Diffusion XL. lucataco/sdxl-lightning — ultra fast. mistralai/mixtral-8x7b-instruct — LLM. openai/whisper — speech-to-text. Streaming: const stream = replicate.stream('meta/llama-2-70b-chat', {input: {prompt: '...'}}). for await (const event of stream) { process.stdout.write(event.toString()) }. Webhooks: endpoint zamiast pollingu. replicate.run z {webhook: 'https://yourapp.com/webhook'}. JSON POST na webhook URL. Predictions API: prediction = await replicate.predictions.create({version: model.version, input: {...}}). await prediction.wait(). prediction.output. Własne modele (fine-tuned): trainings API. LoRA training. Fine-tune na własnych danych. Hardware tier: CPU, Nvidia T4, A40, A100. Koszt per model per sekunda. Cache cold start. Next.js integration: Route Handler POST. Body — prompt. Return — image URL. client fetch. Vercel Blob lub S3 dla persystencji.

FAL.ai — realtime i streaming generowania obrazów?

FAL.ai: platforma szybkiego AI inference. Flux.1 (najnowszy SOTA model). Realtime streaming. WebSocket connection. Instalacja: npm install @fal-ai/client. import {fal} from '@fal-ai/client'. fal.config({credentials: process.env.FAL_KEY}). Generowanie: const result = await fal.subscribe('fal-ai/flux/dev', {input: {prompt: 'A beautiful landscape', image_size: 'landscape_4_3', num_images: 1}, onQueueUpdate: (update) => { if (update.status === 'IN_PROGRESS') { console.log(update.logs) } }}). Modele Flux: fal-ai/flux/dev — najlepsza jakość. fal-ai/flux/schnell — najszybszy. fal-ai/flux-realism — fotorealizm. fal-ai/flux-pro — premium. fal-ai/flux/dev/image-to-image — image editing. Streaming w przeglądarce: @fal-ai/client proxy. Nie eksponuj API key na frontend. Next.js: app/api/fal/route.ts jako proxy. import {route} from '@fal-ai/nextjs-client'. Konfiguracja proxy. Image-to-Image: input: {image_url: existingImageUrl, prompt: 'Add sunglasses', strength: 0.85}. Inpainting (usuwanie/dodawanie obiektów): mask_url — czarna/biała maska. Tylko biały obszar zmieniony. Video generation (eksperymentalne): fal-ai/fast-animatediff. Image to video. Kokoro TTS (audio): fal-ai/kokoro. Text-to-speech na GPU. Szybkie, realistyczne. ControlNet: edge detection (Canny). Depth estimation. Kontroluj kompozycję.

Prompt engineering dla AI obrazów — jak pisać skuteczne prompty?

Anatomia dobrego promptu: Główny opis (co). Styl artystyczny (jak). Medium (technika). Jakość (szczegóły). Lighting (oświetlenie). Perspektywa (ujęcie). Przykład: 'A cyberpunk city street at night, anime style, neon lights reflecting on wet pavement, cinematic composition, dramatic lighting, ultra detailed, 8k'. Styl artystyczny: watercolor, oil painting, digital art, photorealistic, anime, pixel art, concept art, illustration. Fotografia: DSLR photo, f/2.8 aperture, golden hour, shallow depth of field, studio lighting. Artyści jako inspiracja: Greg Rutkowski (fantasy). Alphonse Mucha (Art Nouveau). Wlop (digital art). OWASP dla AI — prompt injection: negatywne prompty (Stable Diffusion): --no text, watermark, ugly, blurry, low quality. DALL-E — automatyczne filtry. Iteracja promptów: zacznij prosto. Dodawaj szczegóły stopniowo. Próbuj różne stylistyki. Seed dla reproducibility. DALL-E 3 — naturalny język: Pełne zdania lepsze niż keywords. Opis sceny jak powieść. DALL-E dostosuje prompt automatycznie. Negative prompts (SD): cfg_scale — jak bardzo trzyma się promptu. Wyższy CFG — bardziej literalne. Niższy — bardziej kreatywne. Typowe błędy: Za mało kontekstu — ogólnikowe. Za dużo elementów — chaotyczne. Niekompatybilne style. Zbyt specyficzne prośby (twarze, tekst). Moderacja treści: OpenAI — ścisłe zasady. Stable Diffusion — luźniejsze (self-hosted). Etyka AI art — credit source.

Integracja AI Image Gen z Next.js — upload, storage i wyświetlanie?

Architektura: Frontend — prompt input. API Route — call AI API. Storage — Vercel Blob / S3. DB — zapisz URL. Frontend — wyświetl. Route Handler: app/api/generate/route.ts. export async function POST(req: Request) { const {prompt} = await req.json(). const image = await openai.images.generate({model: 'dall-e-3', prompt, size: '1024x1024'}). const imageUrl = image.data[0].url. const blob = await put('generated/img.png', await fetch(imageUrl).then(r => r.blob()), {access: 'public'}). await db.image.create({data: {url: blob.url, prompt}}). return Response.json({url: blob.url}) }. Vercel Blob: npm install @vercel/blob. put(path, blob, {access: 'public'}). Automatyczny CDN. $0.023/GB storage. $0.20/GB bandwidth. Cloudflare R2: S3-compatible. Brak egress fee! @aws-sdk/client-s3. Presigned URLs. Streaming URL do frontu: Nie pobieraj i re-upload. Przekaż URL bezpośrednio do img. Ale URL DALL-E wygasa po 60 min. Dlatego save to własne storage. Next.js Image z AI: Dodaj domain do next.config. domains: ['oaidalleapiprodscus.blob.core.windows.net']. lub remotePatterns. next/image z AI URL. Optimalizacja i lazy loading. Gallery: Masonry grid z react-masonry-css. InfiniteQuery (TanStack Query). Pagination lub infinite scroll. Filtrowanie po stylu. Watermark: sharp — dodaj watermark. canvas API po stronie klienta. Rate limiting: @upstash/ratelimit w API Route. Per user, per hour. Zapobiegaj kosztom. Token budget per user.

Czytaj dalej