4. PROČ OBRAZY POTŘEBUJÍ NÁZVY


HOLLY F*** WE ARE LIVING IN THE FUTURE

Stihl jsem to sice jen taktak, ale narodil jsem se ještě do analogové éry. Krátce po tom započala digitální revoluce. Vedle rozmachu globálního propojení skrze internet, GPS systémy a mobilní telefony se začal sekvenovat lidský genom a v následné éře se objevily sociální sítě, virtuální realita, samořiditelná auta, úprava DNA a další technologické novinky. Přesto jako bychom nějak zaostávali za futuristickými představami našich předků, žijících v éře po úspěšném přistání člověka na Měsíci v roce 1969. Jejich technoutopie a vědomí, že lidstvo dosáhlo něčeho skutečně převratného, se do našich časů příliš nepropsalo. Technologický vývoj jsem po celý svůj dosavadní život přijímal jako samozřejmost bez většího emocionálního zapojení. Tedy až do 30. listopadu 2022, kdy společnost OpenAI veřejně vypustila chatGPT. Možná jsem jen někomu skočil na špek, ale když jsem s chatGPT začal poprvé komunikovat, ihned se u mě dostavil pocit mírného vzrušení i znepokojení, který asi nejlépe vyjadřuje věta z jednoho z doprovodných materiálů k systémům generativní AI: „Holy f*** we are living in the future.“ Mimochodem, toto je jedna z prvních věcí, kterou jsem po chatbotovi chtěl: 

 

 

prompt: Aktualizuj popis Achillova štítu v Homérově Iliadě s ohledem na stav světa v 21. století.


chatGPT: Velký a pevný štít bůh tvořil pro novou éru,

kruhový, s elegantním lemem, světelnými diodami osvětlen.

Vrstev pokročilý štít měl pět, na jeho povrchu

promyšlené obrazy mnohé svou futuristickou myslí vytvářel:

Uprostřed zobrazil Zemi, prostor vesmíru a kybernetickou sféru,

slunce neúnavné, měsíc jasný v úplňku, připomínající čas,

s nimi i veškeré satelity a GPS družice, jež obíhají planetu, 

kosmické teleskopy sledující nekonečný vesmír. 

Také síť internetu ztvárnil spojující svět rychlými datovými toky, 

propojující znalosti různých národů a kultur.



Faktem je, že jsem si na používání některých nástrojů AI velmi rychle zvykl. Euforii vystřídala samozřejmost, se kterou už nahrávky rozhovorů, které potřebuji přepsat do písemné podoby, nezasílám paní Pavle Skalické z Rokytnice v Orlických horách jako dřív, ale přepisuje mi je software založený na strojovém učení. Pocit znepokojení ale tak úplně nevyprchal. Vlastně by se dal připodobnit pocitu tzv. tísnivého údolí (angl. uncanny valley1). Ten podle profesora robotiky Masahiro Moriho nastává, když pozorujeme s menším či větším pocitem nevolnosti přílišné prolnutí robotického s lidským – např. při interakci s humanoidním robotem. To, s čím interagujeme, sice prozatím antropomorfní podobu nemá. Člověku se ale blíží tím, že ho imituje skrze generované texty, zvuky, obrazy, videa a bůhví co ještě. Tíseň přichází, jakmile stroj začne příliš připomínat člověka – nebo, jako v tomto případě, jeho výtvory.

 

 

 



KOMPRIMACE VIZUÁLNÍ INFORMACE

Ponechme stranou debaty o tom, zda lidstvo vyvinulo technologii srovnatelnou se vznikem knihtisku nebo s vynálezem kola, stejně tak nejasnosti kolem copyrightu, zneužití AI pro generování deepfake obsahu, obavy ze ztráty pracovních míst a další problematické aspekty spojené s užíváním těchto nástrojů. Nechci se věnovat ani otázce, která IT odvětví v současnosti pálí asi nejvíc, a sice absence tzv. use case – tedy případů užití, ve kterých by bylo možné se na AI skutečně spolehnout a které by zároveň obhájily extrémní náklady a environmentální zátěž spojenou s jejím vývojem a provozem.2

 

V tomto textu se chci zaměřit především na to, jak dnes, tj. kolem roku 2025, s AI komunikujeme, konkrétně jak komunikujeme s generátory obrázků jako je DALL-E 2, Midjourney nebo Stable Diffusion. To jsou modely, které jsou podle dostupných informací naučeny na stovkách milionů nebo nižších jednotkách miliard obrázků a dokáží převést textový popis na obraz. Jak o těchto modelech uvažují sami jejich tvůrci, shrnuli ve svém blogpostu z 22. srpna 2022 Stability AI, když napsali:

 

 

 

Stability AI: Tento release je vyvrcholením mnoha hodin společného úsilí o vytvoření jediného souboru, který komprimuje vizuální informace lidstva do několika gigabajtů.3



Člověk interaguje s generátory obrázků a také textů, zvuků a dalšího obsahu přes přirozený jazyk. Takzvaný prompt, na základě kterého stroj vygeneruje obsah, může mít podobu jednoslovného zadání až po složitý básnický popis. Ještě nedávno se zdálo, že ekfráze je spíše úzce okrajovou záležitostí. Ryze akademickým předmětem zájmu, který byl pozoruhodný možná pro část literárních vědců, historiků umění nebo klasické filology. V rádiu, jediném médiu, kde ekfráze ještě měla své zastoupení, se vytrácela spolu s vizuální zkušeností posluchačstva a s tím, jak rozhlas začal produkovat další vizuální obsah na internetu. Jedná se o efekt velmi podobný tomu, kdy se ekfráze upozaďovala kvůli masivnímu rozšíření knižní ilustrace po vynálezu knihtisku – o obou fenoménech jsem podrobně psal v 1. a 2. kapitole. Zdá se, že ekfráze má v historii své vzlety a pády. Jeden z jejích návratů přišel, možná trochu nečekaně, s náhlou demokratizací systémů, které umožňují generovat obrázky. Prakticky ze dne na den začaly popisy kýženého obrazového výstupu formulovat miliony uživatelů na celé planetě, protože jde o jediný způsob, jak s generátorem obrázků komunikovat.

 

 

RTFM

Jak vypadá proces, kdy se z textu stane obrázek? Jak už bylo zmíněno, prompt může být jedno slovo, sekvence slov, věta, několik vět nebo dokonce emotikony. V závislosti na AI modelu, se kterým komunikujeme, se liší limit znaků, jež se dají do políčka pro prompt vepsat. Bot následně slova a fráze v promptu rozdělí na menší části, které se nazývají tokeny, porovná je s daty, kterými byl vytrénován a vygeneruje obrázek. Ten ne vždy odpovídá představě uživatele. I malá změna slovosledu nebo použití jiného výrazu mají na výsledný obrázek zásadní vliv.

 

Jak se tomuto vyhnout a začít generovat zajímavější obrazy? Cesta vede prozatím jen a pouze přes cizelování popisu. U běžného softwaru bychom si pravděpodobně otevřeli manuál a hledali v něm návod na použití veškerých funkcionalit, které programátoři navrhli. Návod na to, jak dobře napsat prompt. Problém je, že tyto generátory s žádným manuálem v pravém slova smyslu nepřicházejí. Proč? Jednoduše proto, že přesně nevíme, jak tyto stroje fungují.

 

 

Daniela Písařovicová: U generátoru známe zadání, známe vlastně i výsledek. Rozumíme detailně cestě, jakou se k němu umělá inteligence dostala? 

Jan Tyl: No, to je stejný, jako kdybysme řekli, jestli rozumíme tomu, jak nás napadla nějaká myšlenka.4

Josef Šlerka: Technologicky, samozřejmě ty lidi, co to naprogramovali a naučili, vědí, jak došlo k tomu naučení, ale zpětně vědět, co vedlo právě k tomuhle, to se vlastně dneska zjišťuje víceméně experimentálně.5

Lukáš Matoška: Aha, není to trochu paradoxní, že nerozumíme jako lidi něčemu, co jsme sami vyvinuli?

Jan Kulveit: Je.6

Jan Tyl: My to do určité míry dokážeme vidět, ale je to tak obrovský množství parametrů. DALL-E 1 měla 12 miliard parametrů a představme si 12 miliard čísel, který jsou někde umístěný...7

Jan Romportl: [...] a my k tomu vlastně stojíme úplně slepý.8

Jan Šlerka: Ano, v jistým slova smyslu nevíme, co to všechno umí, a dokonce vlastně ani nevíme, co to znamená, že to něco umí.

Pavel Šplíchal: A dá se to k něčemu přirovnat, třeba v dějinách informatiky?

Josef Šlerka: Já myslím, že ne. Že tento aspekt je skutečně disruptivní.9

 

Ani samotní tvůrci těchto generátorů tedy netuší, co všechno se stroj naučil a co nikoliv. Nevědí ani, jak zareaguje na konkrétní frázi. Nezbývá nám nic jiného než to experimentálně zkoumat. Umělci a teoretici umění vzdělaní v dějinách umění, ve výtvarných technikách a v dalších specifikách oboru by v tomto měli mít jistý náskok a předpoklady k tvorbě nečekaných výstupů. Tento náskok lze ale obejít a dohonit jinak než zdlouhavým studiem umění nebo jeho teorie.

 

 

A Beginner’s Guide to 10x Your Output 

with Killer Text Prompts



The Big Book of prompts:

100+ Midjourney Prompts to Ignite Your Imagination



The DALL-E 2 Prompt Book:

Turning Sentences Into Beautiful Pictures In Seconds Like Magic 



The Book of Prompts - Volume 1:

Spice up your prompt with keywords that MidJourney and Dall-E are familiar with.



 

Toto jsou názvy některých příruček, které si můžete stáhnout na webu a v nichž uživatelé sdílejí strategie, jak napsat prompty, aby výsledek co nejvíce odpovídal představě uživatele, případně ji předčil. Jejich autoři nás navádějí k tomu, abychom stroji specifikovali svůj požadavek například tzv. modifikátory, tedy abychom určili, jak má být scéna či objekt nasvícen, v jakém prostředí se má nacházet, jaké barevné schéma, ohnisko objektivu či úhel pohledu apod. mají být použity. Výsledek markantně ovlivní to, zda se má jednat o kresbu, fotografii, malbu, 3D render nebo další umělecká média. Můžeme specifikovat jakoukoliv výtvarnou techniku, dobu vzniku či emoci. Velmi účinným modifikátorem je, ve stylu jakého umělce má být obraz vygenerován. V prompt bookách, jak se tyto příručky také nazývají, najdeme jména a ukázky prací malířů, fotografů, ilustrátorů, grafických designérů a dalších umělců, o kterých už nemusíme vůbec nic vědět a slouží nám pouze jako reference pro dosažení kýžené vizuality. Stejné je to u uměleckých slohů nebo moderních hnutí. Prompt booky jsou tak ve skutečnosti utilitárně scvrklé a z kontextů vytržené dějiny vizuální kultury, v nichž jména autorů, umělecké styly a výtvarné techniky pozbývají výpovědní hodnotu a provázanost a slouží jen jako vizuální reference. 

 

 

 

 

Užití popisu obrazu v IT ale není něčím, co by náhle spadlo z nebe. Jak mi vysvětluje Pavol Hejný, vývojář a zakladatel projektů s AI, je to naopak něco, co je na webu kontinuálně přítomno už od jeho vzniku. Jenže ve vrstvě, která není pro běžné uživatele na první pohled viditelná.

 

 

Rozhovor s Pavlem Hejným

V PRAZE 22.4.2014


Pavol Hejný: Už od začátku vzniku webu tam byla jedna z věcí poměrně rychle – ke každému obrázku, který se umístil na nějakou stránku nebo do dokumentu, se musel napsat tzv. ALT text neboli alternativní text. Pravidla ALT textu byla taková, že měl obsahovat deskriptivní popis toho, co na daném obrazu je, aby opravdu kdokoliv, kdo si text vezme, dokázal plus minus domalovat podstatu toho obrazu, fotky, animace nebo v podstatě čehokoliv, co na tom dokumentu bylo. A účelem právě bylo, aby byl web přístupný pro nevidomé lidi, kdy existují čtečky, které dokážou číst slovo od slova web (tehdy před těmi patnácti dvaceti lety to bylo opravdu neohrabané, sentezátory zněly velmi strojově, ale pro slepé lidi to má ohromný význam). A ve chvíli, kdy narazí na obrázek, pro což tehdy neexistovaly žádné algoritmy, by dokázaly obrázek dekódovat a deskriptivně ho popsat. Tudíž bylo potřeba, aby každý autor stránky popsal obraz proaktivně. A stalo se z toho určité pravidlo, řekněme, a díky tomu, že to na webu bylo, dalo se to použít na jiných místech. Například Google nebo fotobanky podle toho dokáží vyhledávat. A mělo to takový velmi příjemný vedlejší efekt, který spočíval v tom, že všechny algoritmy, které umí něco generovat nebo něco emitovat, potřebují poměrně hodně velké množství dat na své doučení a tímhle tím jsme velmi mimoděk získali obrovské množství obrázků, které k sobě mají poměrně dobrý popis. A tím, že máme miliony, stamiliony, miliardy – teď ani nevím, v jakém řádu je tohle na internetu – takových popisků, dají se s jejich pomocí vytrénovat neuronové sítě a dokáží nafejkovat ten miliardtý první obrázek z nějakého popisu. A ono je to trochu podobné u textu, protože textové modely taky fungují díky tomu, že na internetu je opravdu velké množství textů, a jazykové modely se přesně tímhle textem učí. 


Roman Štětina: Ty sám máš nějakou zkušenost právě s psaním ALT textu? Jak jsi to vnímal? Bylo to spíš na obtíž, nebo jak ses s tím vypořádával? 


PH: Ano, psaní ALT textu je typicky na obtíž, protože existuje taková věc, která se jmenuje PageRank nebo nějaký ranking stránek, který funguje tak, že na to, aby stránka byla dobře zalistovaná například na Googlu, potřebuje splnit nějaká technická kritéria a jedno z těchto technických kritérií – a ono je to tak, že pagering není jediným kritériem a je to celé složitější, ale pro zjednodušení –je, aby všechny obrázky na té stránce byly kvalitně popsané. A tohle je většinou pro mnoho lidí, co dělají stránky, hlavně nějaké menší weby, docela obtížné. Nebo obtížné, je to otravné, musí se to aktualizovat, musí se na to myslet, musí to tam někde být a velmi často se sklouzává k tomu, že člověk tam dá jméno souboru nebo tam napíše prostě „obrázek“, „logo“ nebo něco takového a ten význam podceňuje. Zároveň, já jsem například pracoval na elektronických učebnicích, kde bylo potřeba tyhle obrázky psát dobře, protože tam byl velký tlak na tu přístupnost samotnou. Ale druhá zajímavá věc je, že obecně všechny tyto modely jsou v principu modely dva, kdy jeden umí popisovat a druhý umí imitovat. A úplně v základu té technologie, té, na které to běží, musí být tyhle dva agenti. Ale zhruba do té doby, než OpenAI přišlo se svým modelem DALL-E 2, to bylo tak, že mnohem větší pozornost se soustředila na modely, které umí z obrázku vyrobit text. Bylo to užitečnější, například Microsoft poskytuje obrovskou škálu různých možností, jak jim člověk může poslat obrázek, oni mu pošlou popisek. Hodně se o tom mluví v kontextu kamer, které dokáží automaticky rozpoznávat, co vidí…


RŠ: Nebo právě pro ty nevidomé… 


PH: …nebo právě pro ty nevidomé. Existuje také služba, která se jmenuje Google Lens. Vzbudila senzaci už asi před deseti lety, kdy můžete mobilem namířit kamkoliv a ono vám to řekne: „Tady máš stůl, tady máš takový text, tam máš takový text.“ A na to byla upřena primární pozornost, zatímco OpenAI přišlo s tím: „Pojďme to obrátit. Pojďme navenek vystavit druhou část toho problému a pojďme z libovolného textu vytvořit nějaký bohatý obrázek.“ A s OpenAI vlastně poprvé (oni tedy nebyli úplně první, ale první, kteří vzbudili opravdu velkou pozornost) dokázali syntetizovat libovolný obrázek, kdy to nebylo specifické jenom pro text nebo jenom pro rostliny nebo jenom pro zvířátka, ale bylo to úplně cokoliv, co si člověk smyslí. 


RŠ: Člověk interaguje s generátory obrázků přes přirozený jazyk, tedy tzv. prompt, na základě kterého ten stroj vygeneruje obraz. Ten je možné, co já alespoň vím, napsat jako holou větu, příběh, báseň nebo jako sekvenci příkazů. V souvislosti s psaním promptů se často hovoří o nové profesi, tedy o tzv. prompt engineerovi, což by tedy, jak to chápu já, měl být někdo, kdo je schopen představy o výsledném obrazu strukturovat do slov a slovních sekvencí, které jsou pro ten model srozumitelné, může je interpretovat – jakýsi tedy novodobý rétor nebo mistr novodobé ekfráze. Je prompt engineering dneska už skutečná profese, nebo je to spíš dovednost, kterou si zkrátka ve větší či menší míře osvojíme všichni, podobně jako googlování? 


PH: Mně se velmi líbí to přirovnání k novodobému rétorovi. V této souvislosti se opět pustím do určitého věštění, což je vždycky nevděčná role, protože za pět let mi někdo řekne, ty jsi říkal tohle, ale ono to je úplně jinak. S tím googlováním je to podle mě velmi dobré přirovnání, a to proto, že googlovat umí každý a googlování je velmi rozšířená znalost. Ale existuje ještě druhá rovina toho celého problému a to, když mám nějakou informaci, aby mě uměli lidi najít. Jakási optimalizace vyhledatelnosti. Tomu se říká SEO – Search Engine Optimalization – a to je opravdová profese. Skutečně existuje profese, která před Googlem a vyhledávači neexistovala a která se zabývá tím, že dostane text, e-shop, web, cokoliv a potřebuje ho nějakým způsobem dostat do takové formy, aby ho dokázali vyhledat vyhledávače a aby se ideálně dostal na první stránku Googlu nebo aby byl dobře vyhledatelný, typicky na nějaká klíčová slova. A je to těžko říct, jestli je to věda, asi ne, ale je to opravdu profese, která má nějaká pravidla a nějaká svá omezení, je poměrně dobře placená a tak. Myslím si, že to samé vznikne, co se týká promptů. Já sám vyvíjím službu na generování webů a ona na pozadí funguje na nějakém promtování a je opravdu velmi velký rozdíl v tom, jaký promt se použije. Dneska je mnohem menší rozdíl v tom či onom konkrétním modelu, jestli se použije GPT 3.5, GPT 4.0 s nějakým jiným kontextem nebo Claude 3.0. Mnohem víc záleží na tom, jak konkrétně se ten prompt, ten text, napíše. Často se hraje o konkrétní slovíčkaření, mnohdy ten výsledek hodně změní jedno slovo, jeden správně použitý znak nebo nějaké jedno správné zarámování celého kontextu či rozdělení celého problému na vícero promptů. A já nevím, jestli vývoj bude směřovat k tomu, že to přestane být potřeba, protože je docela možné, že ty modely začnou být tak chytré, že bude jedno, jak se ho člověk zeptá, anebo jestli se to ustálí a bude opravdu existovat člověk, který to takzvaně umí zadávat, umí promptovat.


RŠ: Já jsem si všiml, když chci vygenerovat nějaký zajímavý, nekonvenční obrázek, tak je dobré mít kulturní přehled, orientaci v dějinách umění, znalost výtvarných technik. Je to tak, že když mám banální znalosti v těchto odvětvích, generuju také banální obsah. Co by ten dobrý prompt engineer měl znát? 


PH: Já to zkusím říct v tom jazykovém modulu a pak to přenesu do toho obrázkového. Ono je to tak, že ten model je v principu jenom pokračování v nějakém textu někde na pozadí. A teď já, když přijdu například do chatGPT a řeknu mu: „Ahoj,“ a teď nějaký sprostý slovo a pak budu pokračovat: „Jak se máš? Tě péro,“ tak on bude pokračovat v konverzaci, která pravděpodobně začala takhle, a pravděpodobně pokračuje nějak méně formálně, třeba trochu neslušně a tak. Ono to spočívá v tom, že každý model má nějaký vektorový prostor, který reprezentuje jeho myšlenkovou mapu, a vlastně jakýkoliv text, jakákoliv myšlenka pro něj je nějaké místo tady v tom prostoru. A teď existují místa, která jsou neformální a zahrnují neslušnou konverzaci, jiné místo je konverzace o umění, jiné místo je profesionální machine learning engineer, další místo je bavení se o hrách. A je dobré, pokud ho už těmi slovy dostanu na správné místo té mapy. To hraje velmi velkou roli. Obdobné je to u obrázků – jakmile mu tam popisuji texty, které můžu najít jako ALT texty pro fanoušky aut, tak on spíš bude generovat obrázky, které budou imponovat fanouškům aut. Když budu psát popisky jako z Louvru, tak bude imitovat galerii Louvru. 


RŠ: Tím jsi mi částečně odpověděl i na otázku, jak jazykové rozdíly a kulturní kontexty ovlivňují tvorbu promptů. Že ho vlastně naviguju, možná nevědomky, na tom vektoru do oblasti, která odpovídá mému kulturnímu kontextu. 


PH: Ano. Ten prompt engineering – já tedy profesionalitu toho odvětví vnímám právě v tom, že ten člověk umí imitovat různé kultury, různé subkultury, a teď nejde jenom o jazyky, ale jde o různé formy vyjadřování, o různé profesní slangy a styly. A pokud je někdo dobrý prompt engineer, když jsme si to definovali jako profesi, tak by měl umět správně napsat prompt pro chat pro děti i pro profesionální generátor textů na krabice od produktů. 


RŠ: A je to stále tak – to se jenom doptávám –, že ta forma toho, jak s ním komunikuji, je běžný, volný jazyk? Nejsou to nově i nějaké příkazy, kterým by běžný laik nerozuměl?


PH: Ono je to tak, že rozmach tohoto odvětví je do velké míry způsobený právě tím, že modely používají přirozený jazyk, že je umíme ovládat přirozeným jazykem. Už předtím, než přišlo DALL-E 2 a daly se ty prompty zadávat přirozeným jazykem, existovaly generátory, do kterých jsem ten vstup mohl dělat přímo tím umístěním v tom vektorovém prostoru a mohl jsem s tím manipulovat přes vektory a matice, což bylo populární u nějakého velmi malého zlomku populace, která byla nadšená a hrála si s tím. Ale ten opravdový rozmach nastal až s vulgarizací toho celého. 


RŠ: To je dobré, já to nazývám demokratizací a ty vulgarizací…

PH: Demokratizace, vulgarizace… prostě to, že to umí používat běžný člověk. Ale ano, demokratizace, to je lepší slovo. Je to trochu podobné jako u programovacích jazyků. Když začaly někdy po druhé světové válce počítače, tak nejdřív byl počítač doslova člověk, který počítal. Pak se z toho stal člověk, který přepojoval kabely a v podstatě v nějaké místnosti propojoval jednotlivé části počítače fyzicky pomocí kabelů. Debugování, to je takový pojem z programování, vzniklo doslova proto, že v nějaké z těch elektronik našli brouka a odstranili ho a ten program najednou začal fungovat. A program byl jenom nějaké propojení těch drátů, to byla první fáze. Druhou fázi určily symbolické jazyky, kde člověk pomocí děrných štítků a jedniček a nul dokázal napsat nějaké instrukce, které ale stále byly hodně podobné tomu, co se dělo v rámci toho předrátovávání, akorát to člověk psal přes symboly a pak se to například dalo poslat poštou někam na druhou stranu Spojených států. A pak přišly jazyky, které tu samou věc uměly popsat nějakými slovy a velmi populární byl jazyk, který se jmenuje C, z něj vznikly v podstatě téměř všechny dnešní programovací jazyky nebo všechny populární programovací jazyky, které nějakým způsobem formalizovaly to, že pomocí běžných anglických slov a nějakých poměrně jasných symbolů dokážu popisovat nějaký postup, co má program dělat, řádek po řádce a mělo to ohromný úspěch. Dneska je programátor člověk, který píše kód, ne ten, který propojuje dráty. A já bych tohle vnímal jako jenom další takový krok, že já pomocí přirozeného jazyka dokážu tu samou věc dostat do ještě širší části populace, ale neviděl bych to úplně jako fundamentální změnu. Vývoj jde jednoznačně od toho naprosto expertního odvětví směrem k tomu, co umí ovládat každý.


RŠ: Ve výrazu tvé tváře jsem viděl, že nesouhlasíš s tím, když jsem řekl, že úplně nerozumíme tomu, jak ty modely fungují. Tak co je tedy důvodem, že nemáme sepsaný manuál na generátor obrázků? Proč neexistuje nějaký přesný návod a výsledky se z toho pokoušíme vydolovat nějak experimentálně? 


PH: To je zase velmi dobrá otázka, která opravdu směřuje do podstaty toho, jak funguje machine learning a neuronové sítě. Ono víceméně ještě, řekněme, rok 2010 byl dobou, kdy téměř všechno, co jsme viděli na internetu, co jsme měli v mobilu apod., bylo vytvořeno pomocí klasických algoritmů, které fungují tak, že nějaký programátor někde řádek po řádce přesně napíše, co se má dít. Přesně napíše, jaké dva pixely se mají vypnout, zapnout a tak. A kdybychom šli až na dřeň, tak vždycky najdeme nějakou příčinu toho, proč se někde něco stalo. Proč se tam ten pixel zapnul, proč se tohle písmeno zobrazilo takhle a proč je někde tady chyba. Tím, že systémy byly komplexní, tak tam často chyby stejně nastávaly, ale vždycky se dal dosledovat ten původ toho, jak se ten stroj chová. A dneska algoritmy, například na generování obrázků, textu nebo rozpoznávání obrázků, jsou založené na něčem, čemu se říká neuronové sítě, co funguje trochu jinak. To je algoritmus, který funguje tím způsobem, že na začátku dostane spousty dat, všechna si projde a naučí se je, nastaví nějaké své interní parametry, nějaké své interní potenciometry, jak to říct česky? Šoupátka! A ta interní šoupátka si nastavuje podle toho, zda v tom konkrétním procesu uspěl nebo neuspěl. Pokud uspěl, tak si posílí ty svoje jakoby mozkové dráhy, pokud neuspěl, tak si je oslabí a takhle projde miliony a miliony dat a pak pro ten miliontý první případ dokáže mnohem lépe dělat tu imitaci těch předchozích dat, co viděl. Trochu problém je v tom, že my tam úplně nemáme přesně to spojení mezi tím jedním konkrétním šoupátkem a nějakým konkrétním naším lidským výsledkem, že ty obrázky fungují v nějakém vektorovém prostoru, a kdybych v tom vektorovém prostoru dělal nějaké jednoduché operace, že bych šel jenom o nějakou jednu dimenzi trošku víc, trošku níž, tak se tam na tom obrázku něco bude měnit, ale to něco není úplně popsatelné lidskými slovy. Ale ve chvíli, když se na to dívám jako na černou skříňku, tak to najednou začíná fungovat mnohem líp. A ona to není magie, ale do nějaké míry to tak působí, protože my naučíme ten stroj strašně moc daty a on je najednou umí imitovat. Je ale dobré si uvědomit, že jazykové modely nebo obecně tyto AI modely nefungují tak, jak fungují klasické algoritmy. Klasické algoritmy mají přesně daný postup, co mají dělat, zatímco neuronové sítě mají mnoho pro nás velmi neprůhledných šoupátek, která se nastaví díky těm datům a… that’s it!

BUĎ MÝM ZRAKEM

Sedím na lavičce v parku s absolventem kulturologie, rozhlasovým publicistou a moderátorem Jakubem Kamberským. Jakub je od narození nevidomý. Už když jsme do parku šli, uvědomil jsem si, že popis přirozeně zapojuju, když mám Jakubovi zprostředkovat informace, které jsou dostupné pouze zrakem – např. upozornit na překážku v cestě. Naznačuje to, jak významnou roli v životě nevidomých popis hraje. Nejenom v orientaci, ale i ve společenském začlenění, vzdělávání se nebo ve zprostředkování (audio)vizuálních děl, jako je například film. Na ty se Jakub běžně dívá a informace, které potřebuje doplnit, mu buď zprostředkují jeho blízcí nebo tzv. Audio Description (AD), doplňková hlasová informace, která se u vybraných televizních pořadů vysílá v pauzách mezi textem dialogů, a zrakově postižený divák má tak možnost lépe pochopit sledované dílo. Jakub mi teď ale na svém mobilním telefonu ukazuje ještě o něco pokročilejší technologii.

 

 

Jakub Kamberský: Ta aplikace má sloužit k tomu, že můžeš někomu zavolat a on ti třeba něco popíše – kdy přes videohovor vidí, já nevím, datum spotřeby nebo takovéto věci. To já nedělám, říkám si, že mám lidi v okolí, rodinu nebo tak, snad si poradím. Ale chápu, že někdo je třeba úplně sám, tak mu to může helfnout.



Kromě toho ale Be My Eyes, jak se aplikace jmenuje, obsahuje i funkci založenou opět na strojovém učení a trénování neuronových sítí. Ta nevidomému uživateli umožňuje vyfotit danou scénu a nechat na programu, aby ji popsal. 

 

 



Jakub Kamberský: Já ti to můžu ukázat, ale jak bychom to udělali? Tak schválně udělej nějakou fotku. 

Roman Štětina: Udělám selfíčko?

JK: Jak chceš. 

RŠ: Tak dělám fotku…

JK: Já tu fotku otevřu… Popsat s Be My Eyes. Tak jedem!

Be My Eyes: By My Eyes píše zprávu. Počkejte prosím. By My Eyes píše zprávu.

JK: Tak dělej!

BME: Na fotografii jsou dva muži, jeden z nich vpravo se dívá do kamery a má na sobě černou bundu a černou čepici a nasazena sluchátka. Muž vlevo má na sobě modrou bundu a je zaměřen na mobilní telefon, který drží v rukou. Oba jsou venku v parku s holými stromy a se zeleným trávníkem na pozadí. 

JK: Ty v*le! Takhle jo? 

RŠ: Wow! Tak to je mazec! 

JK: Že jo? Taky koukám! Já jsem to zkoušel zatím jenom párkrát. 

RŠ: To je ale přesný.


 

 

Když se ale Jakuba ptám na to, co mu jako první vytane na mysl, když se řekne popis, možná poněkud překvapivě mluví o frustraci. 

 

 

Jakub Kamberský: Tak první, co mě napadlo, bylo: „Proboha, co já tomu Romanovi budu říkat?“ Protože když se mi řekne nějaký popis, tak si vždycky vzpomenu na takovýto ve škole: „Popiš mi, jak vypadá, nevím, nějaký obrázek, nějaká stavba.“ A já jsem nevidomý, takže není to tak, kterou jsem viděl, ale kterou jsem třeba plasticky viděl. Já nevím, někdo mi ukázal nějaký plastický model nějaké stavby a řekl: „Ty mi popiš, co tam bylo, kde jsou ty věžičky, kde je tohle…“ S tím já měl vždycky hrozný problém. Mám asi dost špatnou představivost, fantazii tu samozřejmě mám, ale tu vizuální představivost mám dost bídnou. A není to tím, že nevidím. Je spousta nevidomých, kteří mají prostorovou orientaci i prostorovou představivost dobrou, a tím pádem jsou pak třeba schopní programovat, protože si to prostě umí představit. Nebo když jsme měli geometrii, tak ti prostě řeknou: „Vždyť to je úplně jednoduché, tři krát tři, tohle, čtyři krát čtyři, čtverec…“ Říkám: „Jo, no dobře, dobře.“ Tohle mi dělalo problémy.



Jak už jsem zde mnohokrát zmínil, ekfráze je tradičně chápána jako popis, který má vyvolat vizuální představy. Takový výklad sice nevylučuje, že toto může být rozšířeno o sugestivní prožitky bez ohledu na konkrétní smyslový kanál. Popisy mohou aktivizovat chuťové, čichové a sluchové představy, emocionální, estetické nebo tělesné reakce. Na vizualizaci popisu je ale ve většině výkladů dáván bezesporu největší důraz a musím se přiznat, že i já jsem tíhl k přesvědčení, že vizuální představivost posluchače nebo čtenáře je pro ekfrázi klíčová. Že ekfráze je něco, co vyžaduje aktivní účast příjemce, který si musí „vytvořit“ obraz ve své mysli a že pokud se tak z nějakého důvodu neděje, pak tento přenos selhává. Až z rozhovoru s Jakubem mi došlo, že to tak vůbec být nemusí. 

 

 

Jakub Kamberský: Tohle, o čem mluvíš, mám asi vždycky spojené spíš s nějakou sugescí. Určitě se nedá tvrdit, že by mě nějaký popis natolik ohromil nebo uhranul, že by se mi to nějak vizualizovalo v hlavě. Je otázka, jestli to vůbec jde, když člověk nikdy neviděl, jenom rukama něco. Takže spíš je to takové pocitové, třeba někde v knížkách je popis nějaké hostiny, co všechno měli dobrého. A já už cítím ty vůně v hlavě a úplně si představuju, jak to jím nebo jak to muselo být dobré, jo? Nebo rozhlasová dramatizace Let do nebezpečí, teď tam jsou ty dramatické situace, jestli to letadlo spadne, a já si úplně představuju, že v tom letadle sedím a teď se snažím to letadlo uřídit. Ale to jenom takový pocit, vůbec si nepředstavuju prostor letadla, jak to dělám, jenom, že to dělám, že jsem vně. Takhle to mám, jakože spíš skrz nějakou tu sugesci. Ono to prostě je fakt pocitové a hodně jakoby tělesné. Když mám dobrou interpretaci, já se prostě umím vcítit.



Jakub, který se živí kontrolním poslechem audioknih, je znalcem rozhlasového archivu a vášnivým posluchačem rozhlasových dramatizací, dokumentů a všemožných dalších pořadů, při poslechu žádné vizualizace nemá. Nebrání mu to ale v tom se do díla plně ponořit, užít si ho, být v něm. To, co u poslechu Jakub prožívá, je zjevně těžko zprostředkovatelné. V důsledku je to tak ale s každou subjektivní zkušeností. Nikomu do hlavy nevidíme, a tak mohou být naše představy o prožívání jiného člověka jen přibližné. Tedy prozatím. Možná se to brzy změní s novým objevem.

 

 

VIDĚT DO HLAVY

Zní to jako zpráva z konspiračního webu, ale jedná se o výsledek reálné vědecké studie. V roce 2023 se japonským vědcům Takagimu a Nishimotovi z univerzity v Ósace podařilo napojit se na mozek zkoumané osoby a za pomoci umělé inteligence vizualizovat obrazy, na které člověk myslí.10

 

Výsledek sice svou kvalitou připomíná výstupy, které generátory obrázků produkovaly v úplných začátcích. Už ale víme, jak rychlým vývojem tyto technologie prochází. Experiment může napovídat, jakou roli by v budoucnu mohli hrát umělci nebo obecně lidé s bujnou fantazií. Představte si svět, ve kterém lidé místo s generátorem, jako je Midjourney nebo Dall-E 2, komunikují přímo s mozkem vybraného umělce. Ten na základě jejich ekfrází – promptů generuje unikátní obrazy, objekty, filmy, literaturu nebo úplně nové formy umění, které si doposud nedokážeme představit. Takový vynález by se mohl prakticky zužitkovat například i během přijímacích zkoušek na umělecké školy, kdy bychom mohli lépe vybírat uchazeče s dobrou odezvou na zadání a naopak vyloučit ty, jejichž mysl generuje banální obrazy. A docela dobře by mohl fungovat i při konzultacích jako pomocník, který by odstranil nedorozumění mezi pedagogy a studujícími, způsobená tím, že si každý představuje zamýšlený výstup úplně jinak. Pokud se tak stane, pak už ekfrázi, s veškerými jejími limity a mezerami, zase na chvíli potřebovat nebudeme, protože uvidíme vše takové, jaké to je. Možná díky tomu dojdeme i do fáze, kdy už nebude potřebné cokoliv vyrábět, protože se spokojíme s projekcemi nejrůznějších multisenzorických představ a vjemů, které se nebudou muset potýkat s limity vnějšího světa a veškeré dosavadní umělecké výtvory na všech úrovních předčí.

 

 

…i když jeden docela dobrý důvod, proč nepřestat realizovat svoje představy, zmínil před časem Lukáš Procházka, studující našeho ateliéru. Když jsme zpětně hodnotili práci na společném projektu, pojmenoval tehdy velmi přesně něco, co, věřím, zůstane ještě dlouhou dobu motorem veškeré lidské činnosti a umění zvlášť.

 

 

Lukáš Procházka: Neviem, ako ostatní, ale pre mňa to teda dopadlo inak, než som si to predstavoval. Ale vlastne je to tak podľa mňa vždy. A to je dobré – inak by nikto nemusel robiť nič, iba si to predstavil v hlave a tým by to skončilo. Keď sa to potom stretne s realitou, vždy je to niečo iné, vždy treba robiť kompromisy alebo improvizovať na mieste. To je podľa mňa tiež dobrá skúsenosť.11

»