Jak vytváří AI obrázky?

Generování obrázků pomocí umělé inteligence (AI) je jednou z nejrychleji se rozvíjejících oblastí v oblasti strojového učení a počítačové grafiky. Díky pokrokům v generativních modelech, jako jsou tzv. GANy (Generative Adversarial Networks) a difuzní modely, může AI vytvářet realistické a kreativní obrázky na základě textového popisu, a to v rámci několika sekund. Generování nových obrázků je mocný nástroj, který stále více usnadňuje kreativní procesy v umění, designu i zábavě. S rostoucí dostupností a zdokonalováním modelů můžeme očekávat ještě realističtější a komplexnější vizuální výstupy jen podle zadání několika slov.

AI - umělá inteligence

Jak obrázky vznikají?

Technologie generování obrázků z textu využívá hluboké neuronové sítě k vytvoření vizuálního obsahu na základě slovního popisu zadaného uživatelem. Tento proces se nazývá text-to-image generation. Uživatel zadá tzv. "prompt" – textový popis, který AI interpretuje a převede na obrázek. Za vytvořením "umělého" obrázku stojí tyto dvě technologie:

  • Generative Adversarial Networks (GANs): skládají se ze dvou sítí, generátoru, který vytváří obrázky, a diskriminátoru, který hodnotí, jestli jsou obrázky realistické. GANy se učí iterativně (opakovaným a postupným procesem), až je generátor schopen vytvářet velmi věrné snímky.
  • Difuzní modely: novější a velmi efektivní přístup, kde umělá inteligence postupně vyčistí od šumu obrázek podle textového zadání. Patří sem například modely jako DALL·E 2, Stable Diffusion či Imagen.
  • Větší jazykové modely s multimodálními schopnostmi: některé modely umí kombinovat text a obraz a generovat novou vizuální reprezentaci podle komplexních popisů.

Jak správně formulovat zadání (prompt)?

Klíčem k dobrému výsledku je precizní a detailní zadání textového popisu (tzv. prompt). Zde jsou naše doporučení, jak tvořit efektivní prompty:

Buďte konkrétní a podrobní - popis by měl obsahovat hlavní objekt, jeho vlastnosti, prostředí, styl a atmosféru. Například místo „kočka“ použijte „roztomilá šedobílá kočka sedící na okně v západu slunce“.

Používejte přídavná jména a vizuální detaily - přidání slov jako "realistický", "malířský styl", "vysoké rozlišení", "měkké světlo", "barevný", "surrealistický" ovlivňuje styl výsledného obrázku.

Zmiňte styl nebo umělecký směr - pokud chcete obrázek ve stylu impresionismu, sci-fi, nebo anime, uveďte to explicitně. Například: „portrét v impresionistickém stylu“ nebo „futuristické město v kyberpunkovém stylu“.

Vyvarujte se nejednoznačností - je dobré se vyhnout obecným nebo příliš krátkým popisům, které mohou AI zmást a vést k nesourodým obrázkům.

Použití negativních promptů - některé systémy umožňují zadat i to, co nechcete vidět v obrázku (např. „bez textu“, „bez rozmazání“). To pomáhá upřesnit výstup.

Tipy pro lepší výsledky při generování obrázků

Na následujícím obrázku vlevo můžete vidět vygenerovaný obrázek, při jehož zadání se použil pouze jednoduchý výraz "kůň v přírodě", v tomto případě si umělá inteligence i sama domyslela, že se bude jednat o obraz na zdi. Vpravo je pak vidět vygenerovaný obrázek po zadání rozvinutého promptu "kůň v malebné přírodě, obklopený zelenými loukami a stromy, sluneční světlo prosvítá skrze listy, klidná atmosféra, detailní textury srsti koně, jemné pozadí s modrou oblohou a bílými mraky".

AI - umělá inteligence, generování obrázků