Princíp fungovania sa zásadne zmenil
Umelá inteligencia na generovanie obrázkov prešla za posledné dva roky dramatickou transformáciou. To, čo bolo ešte nedávno ľahko odhaliteľné podľa pokazených detailov či nezmyselného textu, dnes pôsobí ako výstup profesionálneho grafického štúdia. Nový model Images 2.0 od OpenAI ukazuje, kam sa tento segment posunul a zároveň nastavuje novú latku pre konkurenciu.
Ešte pri starších systémoch ako DALL-E bol najväčším problémom text v obrázkoch. Generátory využívajúce difúzne modely skladali obraz postupne zo šumu, pričom malé štruktúry ako písmená dostávali nižšiu prioritu.

Výsledkom boli nápisy, ktoré síce pripomínali jazyk, ale nedávali zmysel. Images 2.0 tento limit vo veľkej miere prekonáva a porovnávali sme ho s doteraz zrejme najlepším modelom, ktorý ponúkal Gemini od Google v podobe integrovaného NanoBanana V2. Text v obrázkoch je presný, čitateľný a použiteľný v praxi, hoci niektoré jazyky stále predstavujú problém.
Zásadná zmena však nie je len v kvalite výstupu, ale v samotnom princípe fungovania. OpenAI naznačuje, že model kombinuje klasické generovanie obrazu s prvkami „uvažovania“, podobne ako jazykové modely typu GPT-4.
Testovanie prekvapilo
V praxi to znamená, že systém už len „nekreslí“, ale scénu si najprv konceptuálne pripraví. Chápe kontext, plánuje kompozíciu a v niektorých prípadoch dokonca interne kontroluje konzistenciu výsledku. Aj vďaka tomu sú výsledky presnejšie. To je viditeľné aj v príkladoch, ktoré uvádzame. Napríklad v porovnaní vyššie vyzerá výstup od Gemini (vpravo) detailnejšie, ale ChatGPT (vľavo) sa viac držal zadania. Prompt bol totiž nasledovný:
Generate an image of a pea sprouting in freshly fertilized soil with organic compost. Add a little sign next to the sprout saying „Hrášok“.
V prompte sa nespomínalo pestovanie v domácnosti ani kvetináč, ktorý si Gemini domyslel. Ani kontextuálne domýšľanie detailov však nie je na zahodenie a nemožno ho modelu, ktorý Gemini využíva, vyčítať. Podobný rozdiel sledujeme aj v nasledujúcom porovnaní, kde sa ChatGPT (vľavo) drží zadanie striktnejšie, než Gemini. Prompt bol nasledovný:
Generate an image of moldy strawberries. Atta text saying „Ako pleseň sa označuje aj viditeľný vatovitý, chumáčovitý alebo múčnatý povlak vytváraný podhubím húb, definovaných vyššie, na rastline, v pôde alebo organickom substráte (t.j. potravine, textile, farbe, papieri, gume a pod.), ktorý je buď belavý alebo fruktifikačnými orgánmi nápadne sfarbený (t.j. zelený, žltý, ružový, modrý či čierny).“

Tento prístup sa naplno prejavuje v režime Thinking. Ide o pomalší, no presnejší pracovný režim, ktorý umožňuje generovať série vizuálne konzistentných obrázkov. Postavy si zachovávajú identitu, štýl zostáva jednotný a jednotlivé snímky na seba nadväzujú. To je niečo, čo doteraz zvládali len špecializované nástroje alebo ručná práca grafikov. Images 2.0 tak dokáže vytvoriť komiks, storyboard alebo celú vizuálnu kampaň z jedného zadania.
Kombinuje kvalitu a presnosť promptu
V priamom porovnaní s konkurenciou, ako je Midjourney alebo Stable Diffusion, ide o posun najmä v kontrole a konzistencii. Midjourney je dlhodobo silný v estetike a umeleckom štýle, no presnosť zadania často kolíše.
Stable Diffusion zas ponúka flexibilitu a open-source prístup, ale vyžaduje technické znalosti a manuálne ladenie. Images 2.0 sa snaží spojiť vysokú kvalitu výstupu s presným dodržiavaním inštrukcií bez potreby zložitej konfigurácie.
Dôležitý je aj globálny aspekt. Kým staršie modely mali problém s nelatinkovými jazykmi, nový systém dokáže pomerne spoľahlivo pracovať s japončinou, kórejčinou či hindčinou. To zásadne rozširuje jeho využitie v medzinárodnom marketingu alebo lokalizovanom obsahu.
Technicky sa posunula aj samotná kvalita obrazu. Rozlíšenie dosahuje približne 2K, pričom model zvláda komplexné scény, jemné detaily aj presné štylistické požiadavky. Používateľ má zároveň väčšiu kontrolu nad výsledkom, keďže dokáže detailne špecifikovať kompozíciu, farby či typ grafiky a model sa zadania drží výrazne presnejšie než predchádzajúce generácie.

Vo výstupe vyššie sme testovali nielen znalosti komplikovanejších tvarov, ale tiež fyzikálnych javov, lomu svetla, kontextu a opäť dodržiavania promptu. Ten bol v tomto prípade pomerne jednoduchý, teda vyhodenie Tesly Model 3 z armádneho nákladného lietadla. Výsledok skutočne vyzerá ako momentka z filmu alebo kvalitná fotografia.
Potrebuje ďalšie vylepšenie
Ani tento systém však nie je bez chýb. Problémy pretrvávajú pri úlohách, ktoré vyžadujú presné pochopenie fyziky alebo trojrozmerného priestoru. Zložité objekty, ako napríklad origami alebo komplikované 3D štruktúry, môžu byť stále nepresné. Opakované úpravy jedného obrázka navyše niekedy vedú k degradácii kvality, čo je jav známy aj z predchádzajúcich modelov.
Limitom zostáva aj rýchlosť. Kým text generuje AI prakticky okamžite, komplexné obrázky si môžu vyžiadať desiatky sekúnd až minúty. V kontexte dosiahnutej kvality je to však stále prijateľný kompromis. V neposlednom rade sú tu aj obavy o zneužívanie, ktoré je nevyhnutné. Overovanie toho, čo je na internete skutočné je čoraz náročnejšie a zdá sa, že sa bude tento problém naďalej len prehlbovať.
