Co přináší umělá inteligence do umění a řemesel?

Představte si, že je replikátor ze Star Treku skutečný a vy dostanete možnost vytvořit nebo replikovat, cokoliv se vám zlíbí. Co po něm budete chtít? Tiskli byste už hotové věci, nebo byste raději nechali replikátor vytvářet součástky, s kterými byste si mohli vyhrát, jak se vám zlíbí?

Za zdárnou nápodobu replikátoru můžeme považovat generativní umělou inteligenci. Výkonné modely umělé inteligence umožňují syntetizovat obrázky, texty, videa, programovací jazyk, a dokonce i 3D objekty! Ačkoliv převážně část těchto výstupů existuje pouze v digitální formě a stále vyžaduje nemalé úpravy na cestě ke svému zhmotnění, možnosti nabízené umělou inteligencí nám den co den doslova rostou před očima.

Jakou roli mohou hrát modely generativní umělé inteligence v oboru uměleckých řemesel? Jak vypadají prvotní hmotná díla vytvořená generativní umělou inteligencí a kterým směrem se bude svět tvorby ubírat? Tento článek osvětluje, jak generativní umělá inteligence funguje a jakým způsobem fungují difuzní modely. V neposlední řadě se také zabývá dopadem umělé inteligence na realizaci uměleckých výtvorů.

Současný stav umění

V posledních měsících aplikace generativní umělé inteligence jako DALL·E (1. 5 milionu uživatelů) či Midjourney (4 miliony uživatelů) vzaly svět umělecké tvorby útokem, zároveň nás však podněcují k tomu, abychom ve tvůrčím procesu umělou inteligenci aktivně zapojovali.

Aplikace využívají modely strojového učení ke generování obrázků na základě instrukcí zadaných formou textu. Tyto texty, vstupy, fungují jako příkazy. Modely aplikací jsou trénovány na velkém množství dat. To umožňuje vytváření prvotřídních obrázků bez jakékoliv předešlé zkušenosti s grafikou či designem. Mnozí z vás se již nepochybně setkali s výtvory umělé inteligence, pojďme se ale podívat na to, jak umělá inteligence funguje a čím to, že se stala tak populární.

Jak fungují difuzní modely

Většina aplikací generativní umělé inteligence pod pokličkou používá strukturu difuzního modelu (viz obrázek A). Difuzní model je typ algoritmu umělé inteligence, který napodobuje rovnovážnou termodynamiku. Do vstupního obrazu přidává náhodný šum a poté se učí ze šumu rekonstruovat nový podobný obraz. Když se k různým vzorkům původního obrazu (x1, x2) postupně přidává šum, obraz se zkompletuje do nízkorozměrného zobrazení (z), které se použije k vytvoření nového snímku. Proces postupného přidávání šumu nazýváme trajektorií postupující vpřed a rekonstrukce nového obrazu ze šumu se nazývá zpětná trajektorie.

Klíčovým poznatkem je, že difuzní model se musí postupně naučit pravděpodobnost rozložení šumu pro různé kroky zpětné trajektorie (viz pθ na obrázku B).

Obrázek B: Trénování difuzního modelu pro modelování 2D
švýcarského válce. Ze Sohl-Dickstein et al., 2015.

Jinými slovy můžeme říci, že postupným přidáváním šumu difuzní modely nejprve poškodí trénovací data a posléze se je učí obnovovat zvrácením tohoto procesu. Poté můžeme difuzní model použít ke generování unikátních dat tak, že necháme ukázková data projít zpětným procesem.

Obrázek C: Architektura unCLIP, od Ramesh et al.,
2022

Novější provedení difuzních modelů umožňují při zpětném procesu rekonstrukce vstup v podobě textu, sémantické mapy či jiných obrazů. Ty podmiňují, jaký možný obraz by měl být vytvořen (rekonstruován) z množiny všech možných různě pravděpodobných řešení, tzv. latentního prostoru (viz obrázek C).

Obrázek D: “Lahodná dušená houska ve tvaru shiba inu. Studiové osvětlení, vysoké rozlišení, vysoká kvalita, tmavé pozadí”

“Velmi krásný složitě tvarovaný shiba inu ze spařených housek. Studiové osvětlení, vysoká rozlišení, vysoká kvalita, tmavé pozadí”

Jak již bylo zmíněno výše, difuzní modely se těší velké oblibě, poskytují špičkovou kvalitu snímku a zároveň dovedou vytvářet dosud nevídané fantaskní i fotorealistické obrazy různých hybridních tvorů, neotřelých staveb, nových materiálů či například jedinečných artefaktů (viz obrázky D, E a F).

Nápady na design materiálů, módy a architektury generované umělou inteligencí od Shai Noye (obrázek E) a Orena Levantara (obrázek F).

Co všechno lze vytvořit pomocí generativní umělé inteligence?

Pomocí generativní umělé inteligence můžete vytvářet obrázky, texty, hudbu, hry, avatary, uživatelská rozhraní, videa, a dokonce i 3D modely. Zde je jen několik málo nejoblíbenějších platforem:

OBRÁZKY: DALL·E 2, Midjourney, Stability AI.

TEXT: GPT-3 Playground, Jasper, Googleʼs AI Test Kitchen, Chat-GPT.

VIDEO: Video: Make-A-Video od Meta, Imagen Video od Googlu.

HUDBA: Harmonai, Sony Flow Machines.

AVATARY: AI, Lensa.

UŽIVATELSKÁ ROZHRANÍ (UI): Figma pluginy pro Stable Diffusion.

VIDEOHRY: DLSS (Deep Learning Super Sampling) společnosti NVIDIA.

RŮZNÉ DEMOVERZE A JINÉ APLIKACE: Hugging Face Spaces.

Příklady populárních Hugging Face Spaces, generativních aplikací umělé inteligence všeho druhu od uživatelů.

Digitální tvorba a generativní umělá inteligence

Většina modelů generativní umělé inteligence vyžaduje pro svůj chod vstupní text. Vytváří tím jedinečnou příležitost, aby tvůrci vylepšovali či diskutovali své návrhy s ostatními tvůrci. Autoři tak mohou komunikovat o svých návrzích a vzájemně si je vylepšovat (aby mohli například dosáhnout toho či onoho stylu či efektu apod.). Jedna z takových komunit se nachází na Discordu aplikace Midjourney. Více než 5 milionů uživatelů tuto platformu používá pro profesní účely, ale i pro zábavu.

Příkazy jako matérie pro umělecká řemesla

Obrázek G: Obrázek vytvořený umělou inteligencí sdílený s výzvou, která byla
který byl použit k jeho vygenerování, s odkazem na styly společností Pixar a umělce Grega Rutkowského, na komunitě Playground AI.

Vedle obrázku G vidíme příklad příkazu zadaného formou textu, který sdílel uživatel „Hi Hi“ na platformě Playground AI: „Roztomilý robobrouk ve stylu disneyovského starého steampunku, zahradní bohyně, která je aktuálně trendy na Artstation, zaostřené, studiová fotografie, detailně vykreslené, velmi rozmanité, jako od Grega Rutkowského.”

Během svého výzkumu s týmem PAIR ve společnosti Google Research jsem zjistil, že pracovní dvojice designérů při tvorbě konkrétních uměleckých artefaktů upřednostňují práci s generativní umělou inteligencí a že při jejím používání spolupracují efektivněji (obrázek H).

Při pozorování práce designérů jsme vyhodnotili, že forma nepřímých vstupů bývá jednak nápomocná při procesu tvorby (dává prostor novým podnětům), ale zároveň činí z projektu o to větší výzvu (vstupy jsou mnohdy nutné přeformulovat, aby odpovídaly záměru atd.).

Ve výtvarném designu vstupy nebo příkazy hrají v jistém smyslu obdobnou roli, jakou měl HTML v počátcích webového designu. Jakmile tvůrci porozuměli chodu webových stránek, byli schopni si tyto tvůrčí procesy rychle osvojit, upravovat je a sdílet mezi sebou. Klíčovou roli sehrály rovněž webové prohlížeče. Díky tomu, že se zobrazení zdrojového kódu stalo univerzální funkcí webové prohlížeče, miliony lidí se pravděpodobně přeměnilo z „čtenářů“ na „autory“ webu. Sdílení vstupních pokynů k umělé inteligence spolu s vygenerovanými výtvory by mohlo podobným způsobem podpořit vizuální design.

Obrázek I: Sdílení artefaktů a podnětů na webu playgroundai.com

Například platformy jako Playground AI nabízejí možnost snadnějšího opakování a vytváření remixů tím, že umožňují uživatelům sdílet obrázky se všemi metadaty potřebnými k jejich reprodukci (příkaz, ID modelu atd.) (obr. I a J). Díky těmto funkcím je generování obrázků na základě vstupních příkazů přístupnější a lépe proveditelné. Navíc se mnohé z těchto funkcí generativní umělé inteligence stávají dostupnými přímo v designérských programech, jako jsou Photoshop nebo Figma. To návrhářům umožňuje začlenit je do jejich pracovních postupů.

Obrázek J: Sdílení artefaktů a podnětů na midjourney.com/showcase.

“Červený robot dělá modrého robota. Šíleně vysoká kvalita, šíleně složitý detail, studiová fotografie, mistrovské dílo, ostré zaostření, umělecká fotografie 8k, zlověstná matná malba, dramatické studiové osvětlení, trend na cgsociety, živé, epické, složité, trend na artstation, volumetrické filmové dokonalé osvětlení.”

Klíčem k získání dobrých AI snímků je stát se pohotovým vynalézavým vstupním zadavatelem. Psaní efektivních příkazů je černá magie, skoro tak záhadná jako to, co se děje uvnitř umělé inteligence. Mnoho uživatelů do každého příkazu zahrnuje “Greg Rutkowksi” a „trendy na Artstation” z důvodů, které se zdají být navzájem nesouvisející až tajuplné.

Můžete ujít dlouhou cestu pouhou úpravou již existujících příkazů, ale jsou stránky, kde se seznámíte s poznatky o jejich fungování, od požadovaného tématu a stylu, až po vytváření negativních příkazů (co na obrázku nechcete), počet výchozích podnětů (ve výchozím nastavení je náhodné, ale opakované použití téhož podnětu, které vám umožní řídit vaše experimenty) a míru potřebného dohledu (jak přesně se musí obrázek držet příkazu).

Některé weby dokonce používají umělou inteligenci, aby vám pomohla napsat příkazy pro umělou inteligenci obrázku! Podívejte se na Lexica, PromptoMania, Phraser, PromptHero a Krea.ai a zjistěte více o tom, jak příkazy fungují, zde. -Keith Hammond

Rukodělná řemesla a generativní umělá inteligence

Generativní umělá inteligence se postupně stává nedílnou součástí tvůrčího a výrobního procesu v mnohých odvětvích uměleckého řemesla. Modely generativní umělé inteligence jsou používány především za účelem inspirace a generativní tvorby.

Mnoho tvůrců generativní umělou inteligenci uplatňuje již při tvorbě nápadů. Například používají Midjourney k vytváření konceptů na tabuli, které začínají objektem nebo libovolným konceptem, jako jsou náušnice z mušlí (obrázek K), móda ve stylu Ptáci z Ráje (obrázek L) nebo šaty z Rambutanu (obrázek M).

Poté vyberou lákavou vstupní kompozici a pomocí modelů umělé inteligence vygenerují na základě původního obrázku několik pozměněných variant. S každou z variant se umělá inteligence dozví více o konečném obrázku a někdy cestou navrhne svůj osobitý pohled na původní podnět. Tvůrci pak mohou libovolně návrh dotvářet funkcí Upscale (vylepšení) a Remaster (přepracování), aby dosáhli dokonale vyladěné kompozice. Poté se opět mohou vrátit ke svému výrobnímu procesu. Jakmile dosáhnou návrhu, který se jim líbí, mohou buď vygenerovat 3D model v nástrojích CAD, nebo – což je úžasné – použít zdařilý příkaz k přímému vygenerování 3D renderů v CLIP-Forge, nebo jiných difuzních modelů pro převod textu do 3D.

Difuzní modely používají studenti designu na CSU-Long Beach k vytváření uměleckých děl, které by mohl namalovat robot. Nejtěžším úkolem je vybrat styl kresby, který by byl robot (v tomto případě robotická ruka Universal Robots UR5E se štětcovými pery Tombo) schopen úspěšně namalovat. Pro tuto operaci byl zvolen nástroj CAD Grasshopper společnosti Rhino, který generuje topografický model obrázku. Model je definován na základě hodnot světlých a tmavých barev. Například v případě světlejších oblastí se robot zvedne směrem nahoru od stránky. K úpravě výsledků se používají nástroje Illustrator a Photoshop služby Adobe Creative Cloud.

Generativní design

Tvůrci používají generativní umělou inteligenci také pro rychlý průzkum prostoru či různých tvarových faktorů daného objektu. Jestliže chcete například zkonstruovat stůl, můžete použít model převodu textu na 3D AI, jako je CLIP-Forge od společnosti Autodesk, který generuje 3D modely různých typů stolů rovnou z textového příkazu (obrázek N).

Obrázek N: 3D objekty generované pomocí programu CLIP-Forge společnosti Autodesk, Sanghi a kol., 2021

Jakmile si vyberete vhodný model stolu, můžete pomocí programu CAD vygenerovat různé varianty konstrukce nohou nebo horní desky, jako je tomu například v projektu provedeném v programu Fusion 360 (obrázek O).

Řada modelů AI pro převod textu do 3D zobrazení umožňuje exportovat 3D sítě. Nejnovější model DreamFusion přidává další optimalizační postupy pro zlepšení prostorového návrhu. Zadané rozměry lze snadno exportovat do CAD pro 3D tisk (obrázek P).

Obrázek P: DreamFusion, kterou vytvořili výzkumníci v oblasti umělé inteligence ve společnostech Google a
UC Berkeley, generuje 3D tisknutelné sítě
z textové výzvy, Poole et al., 2022.P.

Co to znamená pro tvůrce?

Ačkoli generativní modely umělé inteligence umožňují, aby se kdokoli vyjádřil pomocí obrázků, videí, hudby nebo 3D modelů, mezi tvůrci stále vyvolávají smíšené reakce. Například když v umělecké soutěži zvítězil obrázek vygenerovaný umělou inteligencí, komunita umělců se ostře ohradila proti účasti výtvorů AI.

Kunsthistorici tvrdí, že generativní modely jako DALL·E samy o sobě nevytvářejí umění, ale že umění vytvářejí umělci a technologové, kteří modely používají jako nástroje. Umělecké obce, jako jsou Getty Images/iStock/Unsplash, Newgrounds, PurplePort a reddit/r/DigitalPainting, zakázaly na svých platformách umění generované umělou inteligencí. Nicméně designérské firmy, jako je Ideo, potvrdily, že v současné době využívají generativní AI ve své praxi k tvorbě rozmanitých návrhů či jedinečných konceptů.

Myslím, že obrazy vzniklé v komunitách, jako je Midjourney, skutečně vybízejí k tomu, abychom se vrátili ke slavnému citátu Alana Kaye “Hudba není v klavíru” a možná vytvořili alternativní metafory. Jakmile přestaneme o nástrojích umělé inteligence uvažovat čistě jako o prostředcích či robotech, kteří nás nahradí, a začneme je vnímat jako potencionální partnery, kteří nám mohou nabídnout nový úhel pohledu, otevřou se nám dveře do světa dosud nevídaných možností.

Umělci proti umělé inteligenci

Co kdybychom vylovili všechny obrázky z internetu a pak vycvičili počítač, aby kopíroval styl všech žijících i nežijících umělců a fotografů? Co nejhoršího by se mohlo stát?

Stroj, který ukradne váš umělecký styl, představuje nově vzniklý etický, právní a ekonomický problém. Zvláště pokud jste profesionální umělec, kterého někdo napodobuje. Získáte autorství? Dostanete zaplaceno? Nebo se necháte okrást a přijdete kvůli strojům o práci? Jedna věc je však zcela jistá. Stávající autorské právo nestíhá držet krok s technologiemi vizuální umělé inteligence. Totéž bude brzy platit o hudbě a videích vytvořených umělou inteligencí.

Někteří umělci výslovně odmítají postoupit své snímky společnostem vyvíjejícím umělou inteligenci. V roce 2022 vypukly na ArtStation a dalších uměleckých portálech protesty proti umělé inteligenci. Komunita DeviantArt reagovala tím, že umělcům umožnila označit svá díla “noai” (ne umělé inteligenci). Takto označená díla byla odhlášena z výzkumu třetích stran. DeviantArt také spustila aplikaci DreamUp, která trénuje pouze na obrázcích odsouhlasených jejich tvůrci. Více informací se dozvíte zde. -Keith Hammond

ZDROJ: Článek převzat a přeložen, Stefania Druga PH.D., K. H. (2023, May 24). Generative AI for makers: AI has truly arrived – and it’s here to help you make and Craft. Make. https://makezine.com/article/craft/fine-art/generative-ai-for-makers-ai-has-truly-arrived-and-its-here-to-help-you-make-and-craft/