Innlent

Sora-tæknin gerir mynd­bönd af öllu mögu­legu mögu­leg

Myndband sem sýnir Hollywood-stjörnuna Will Smith borða spaghettí vakti athygli heimsbyggðarinnar í febrúar á síðasta ári. Myndbandið, sem var búið til af gervigreind, þótti bæði fyndið og óhugnanlegt. 

Jón Þór Stefánsson skrifar
Líkt og sjá má getur Sora-gervigreindin sett sig í allra kvikinda líki. Sora

Myndband sem sýnir Hollywood-stjörnuna Will Smith borða spaghettí vakti athygli heimsbyggðarinnar í febrúar á síðasta ári. Myndbandið, sem var búið til af gervigreind, þótti bæði fyndið og óhugnanlegt. 

Fígúran, sem átti að vera Will Smith, minnti vissulega á Óskarsverðlaunaleikarann, en var að sama skapi mjög ólík raunverulegri manneskju. Nú, um það bil ári síðar, hefur bandaríska gervigreindarfyrirtækið OpenAI opinberað nýjustu tækni sína, myndbandsgerðartæknina Sora. Það verður að segjast að myndbönd Sorans eru meira sannfærandi en það sem sýndi spaghettíát Will Smith.

„Myndböndin eru orðin svo raunveruleg. Svona myndbandsgerðartækni er í raun ekki ný af nálinni, en þessi áfangi er í raun sá að við erum að sjá risastórt stökk í gæðum,“ segir Hafsteinn Einarsson, lektor í tölvunarfræði við Háskóla Íslands, í samtali við fréttastofu.

Stefán Ólafsson, lektor í tölvunarfræði við Háskólann í Reykjavík, tekur í sama streng. Hann segir gæðin sem Sora-tæknin bjóði upp á standa upp úr.

„Gæðin eru miklu, miklu meiri. Það er miklu betra í að fara á milli ramma í myndinni. Það er bara af því að reikniaflið sem þeir eru með er gríðarlega mikið,“ segir Stefán sem útskýrir að það séu hundruð milljarða breyta sem komi að því að svara notandanum við notkun svona tækni.

„Þetta er rosalega mikið magn. Og þú þarft að hafa ákveðna reiknigetu bara til þess að þjálfa líkön sem hafa svona margar tölur sem þarf að fikta í,“ segir Stefán og bendir á að OpenAI hafi innviðina til þess.

Hann segir öflugt mállíkan þurfa til að taka texta frá notanda og breyta í upplýsingar sem tölvan skilur.

„Þetta heldur síðan áfram þannig að líkanið sem myndar myndina notar þessar upplýsingar til þess að spá fyrir um hvaða pixlar eru réttir fyrir myndina,“ segir Stefán.

„En þá erum við bara að tala um mynd en ekki myndband, en myndbönd eru auðvitað bara runur af myndum. Þannig að þetta er beint framhald af þessari tækni sem við höfum nú haft í nokkur ár, að geta breytt texta yfir í mynd.“

Hér fyrir neðan má sjá tvö myndbönd búin til af gervigreind: Það fyrra er áðurnefnt spaghettíátsmyndband af Will Smith. Það seinna sýnir konu sem gengur um götur Tokyo og er búið til af Sora-gervigreindinni.

Stefán segir að OpenAI hljóti að nota sömu tækni, upp að ákveðnu marki, í spjallmennið ChatGPT, myndvinnsluforritið DALL-E og í nýjustu afurðina, Sora.

Hann nefnir sem dæmi að með ChatGPT væri hægt að biðja um lýsingu á kvikmyndaatriði af hundi á hjólabretti sem klessir á vegg. „Þú myndir setja þetta inn í ChatGPT með fyrirmælunum: brjóttu þessa setningu niður í senu fyrir kvikmynd sem á að vera sextíu sekúndur að lengd.“

Úr kæmi greinagóð lýsing á því sem myndi gerast í þessu ímyndaða myndbandi. „Fyrst gerist þetta, svo hitt, svo annað, og svo klessir hundurinn á vegg. Að öllum líkindum er þetta það sem er að gerast með Sorann.“

Villta vestrið orðið ljóslifandi

Stefán segir að OpenAI tali um að Sora-tæknin geri einskonar áætlunargerð fyrir myndböndin.

„Það sem ég held að þeir eigi við með þessari plönun, eða áætlunargerð, er að það sé verið að brjóta niður fyrirmælin þín í smærri einingar og það er gert plan um það hvernig senan á að þróast,“ segir Stefán og bætir við: 

„Þetta er ekkert einfalt dót, þetta er bara mjög flókið.“

Stefán Ólafsson, lektor í tölvunarfræði við Háskólann í Reykjavík.Aðsend

Blaðamaður nefnir þá ákveðið myndband úr kynningarefni Sora sem vakti sérstaka athygli hans: Myndband, tekið úr lofti, sýnir bæ sem er að því er virðist úr villta vestrinu. „Myndavélin“ færist áfram með læk sem rennur í gegnum bæinn og undir lokin snýst vélin til hægri og varpar þar með ljósi á annan hluta bæjarins.

Samkvæmt því sem kemur fram á vef OpenAI var textinn sem myndbandið byggir á: „Historical footage of California during the gold rush,“ sem útleggja mætti á íslensku sem: „Sögulegt myndefni af Kaliforníu á meðan gullæðið stóð yfir.“ Fyrirmælin eru ansi stutt í samanburði við annan texta sem leiðbeinir Soranum í öðrum myndböndum. Ekki er óskað eftir loftmyndbandi, eða hreyfingu á myndavélinni. Þá er heldur ekki talað um að myndbandið eigi að sýna bæ frekar en náttúru þar sem gullgröftur fer fram. Forritið virðist ekki þurfa slík fyrirmæli til að búa til myndbandið. Það getur tekið þessar ákvarðanir sjálft.

Umrætt myndband sem á að sýna Kaliforníu-ríki á meðan gullæðið stóð yfir.

Spurður út í þetta vaknar önnur spurning upp hjá Stefáni: Hvað gerist ef þú gefur þessi sömu fyrirmæli aftur? Kemur sama myndband? „Kannski kemur kjurr myndataka næst, eða nærmynd af einhverjum kúrekum. Við vitum það náttúrulega ekkert.“

Hann telur þó að ef fyrirmælin séu jafn stutt og haldið er fram ættu að koma út mismunandi útfærslur ef maður reynir aftur.

„Þeir segjast vera að gera einhvers konar áætlun þá þýðir það að þeir hljóti að vera að brjóta niður eða búa til fleiri skref en það sem þú leggur upp með í byrjun. Þeir vilja auðvitað að notendaviðmótið sé eins auðvelt og hægt er, að þú setur inn einhverja lýsingu og vélin bara sér um þetta sjálf. Það er náttúrulega eitthvað í gangi á bak við tjöldin. Hún hlýtur að þurfa að skálda eitthvað upp sjálf. Ég held að það sé alveg augljóst. Og því betri og nákvæmari sem lýsing notandans er, því minna þarf hún að koma með.“

Vandamál gervigreindarinnar

Þegar fréttastofa náði tali af Hafsteini var hann staddur í Noregi vegna evrópska gervigreindarverkefnisins TrustLLM. Þar segir hann að eitt meiginumfjöllunarefnið sé notkun gervigreindar á höfundarvörðu efni.

„Þetta er mjög erfitt og flókið vegna þess að það virðist ekki vera auðvelt að komast hjá höfundarréttavörðu efni.“

Slíkt hefur verið til mikillar umfjöllunar undanfarið, sérstaklega í kjölfar málsóknar New York Times á hendur OpenAI fyrir meintan þjófnað á höfundarréttarvörðu efni blaðsins.

Fleiri vandamál stafa af þessari gervigreindartækni. Gervigreind hefur verið notuð til að búa til falskar upplýsingar, og óttast er að slíkt gæti færst í aukanna.

„Ég held að ástæðan fyrir því að fólk sé svona hrætt við þetta er sú að þú getur liggur við búið til myndband af hverju sem er. En þau eru ekki búin að gefa þetta út til almennings, og þau eiga örugglega eftir að stýra því mikið hvað fólk getur gert. En það er núna ljóst að þetta er hægt, og það eru margir smeykir við það.“

Í þessu samhengi minnist Hafsteinn sérstaklega á forsetakosningar í Bandaríkjunum sem fara fram seinna á þessu ári, en óttast er að falskar upplýsingar gerðar af gervigreind verði notaðar í baráttunni um hvíta húsið.

Hafsteinn EInarsson, lektor í tölvunarfræði við Háskóla Íslands.Aðsend

Hafsteinn segir að OpenAI hafi gert innbyggðar hindranir í Dall-E myndvinnsluforritið í von um að koma í veg fyrir að ósæmilegar myndir séu búnar til. Hann segir að þrátt fyrir það sé mögulegt að fara krókaleiðir til að komast hjá þessum hindrunum.

„Þeir eru auðvitað bara að reyna að fá athygli og byggja upp fyrirtæki. Og þess vegna fara þeir fara ekki alla leið í að gera þetta fullkomið, því það er ekki hægt.“

Kvikmyndir framtíðarinnar

Aðspurður út í hvað sé langt í að heilu kvikmyndirnar verði gerðar einungis með myndefni frá gervigreind segir Stefán: „Um leið og þú færð aðgang að þessu getur þú búið til sextíu sekúndna klippu. Gerðu það bara sextíu sinnum. Þá er komin kvikmynd í ákveðnum skilningi.“

Hann viðurkennir þó að getan til að búa til bíómyndir velti að einhverju leyti á verkfærakistunni sem boðið verður upp á. „Ein klippa er sextíu sekúndur. Get ég beðið um eitthvað sem er eitthvað lengra, eða styttra? Get ég látið það byggja næsta vídjó á vídjóinu sem ég var að gera á undan? Get ég beðið um framhald?“ spyr hann.

„Tæknin er komin. Það er hægt að búa til myndband út frá texta. Spurningin er: Hversu gott er það? Hver dæmir um það? Sá sem býr það til eða þeir sem horfa á.“

Gervigreindarkvikmyndagerð stendur frami fyrir því vandamáli að blanda saman hljóði og mynd. Myndbönd Sora eru hljóðlaus og segir Stefán að það sé þekkt að samræming á þessum tveimur þáttum getur verið erfið og nefnir hann sérstaklega að það gæti verið flókið að láta varir hreyfast í takt við tal.

Í þessu samhengi minnist Hafsteinn þó á Elevenlabs, fyrirtæki sem sérhæfir sig í gervigreindarhljóði. Meðal annars er hægt að bæta hljóðrás ofan á myndbönd, bæði hefðbundin „raunveruleg“ myndbönd sem og gervigreindarmyndbönd.

„Þeir eru með aðferðir til að fylla inn í þá eyðu sem hljóðið er. Ef þú stígur niður fæti kemur svona hljóð og ef þú klappar höndum kemur svona hljóð. Og það er jafnvel hægt að láta fígúrur segja eitthvað, og með hvaða rödd sem er.“

Gervigreindin ekki með mannlegan skilning

Annar vandi er skilningur gervigreindarinnar á veraldlegu samræmi. Í einu kynningarmyndbandi Sora má sjá hóp ylfinga sem mjög erfitt er að telja. Stundum eru þeir þrír og seinna fleiri en fimm, og ekki nóg með það, heldur birtast hvolparnir útfrá hinum ylfingunum.

„Við erum með einhvern skilning á því sem eðlilegt,“ segir Stefán og veltir fyrir sér hvort að gervigreindin þurfi fleiri gögn til þess að öðlast hæfnina til að líkja betur eftir raunheiminum.

Um þetta segir Hafsteinn: „Líkönin í dag eru enn þá að gera einhver mistök. Þau virðast ekki alveg skilja hvernig heimurinn er, eins og til dæmis hvernig vökvi virkar og þess háttar. En þau standa sig samt furðu vel.“

Myndbandið af ylfingunum sem enginn getur sagt hvað séu margir.

Allt internetið ekki nóg

Í samtölum fréttastofu við Stefán og Hafstein minntust þeir báðir á mikilvægi reikniaflsins fyrir umrædda gervigreind.

 Að sögn Stefáns virðast stóru fyrirtækin ætla að reyna að leysa vandamál, líkt og umrætt ósamræmi í gervigreindarmyndböndunum, með því að afla sér enn fleiri gagna og láta risastór reiknilíkön um að fást við þau.

„Það er formúlan. En hvar endar þetta? Hver veit. Einhvers staðar er reikniaflsþak,“ segir Stefán.

Vegna reikniaflsins sem þarf til að keyra myndbandsgerðarforrit líkt og Sora telur Hafsteinn að mögulega verði þau ekki aðgengileg öllum í náinni framtíð.

„Það verður mögulega ekki á færi allra að geta keyrt þessi myndbandsgerðarlíkön. Því þau munu einfaldlega ekki passa á fartölvur hjá fólki, eða það þyrfti eitthvað magn af skjákorti til að geta keyrt líkönin nægilega hratt til að geta búið til myndband á ágætum hraða,“ segir Hafsteinn.

„En síðan mun þetta halda áfram að þróast, vélbúnaður þróast, aðferðir þróast. Og á endanum verður þetta komið í hendurnar á fólki, en það er erfitt að segja hvenær.“

Sjálft reikniaflið er ekki eina hindrunin fyrir endalausum vexti í gervigreindarþróun. Að sögn Hafsteins gæti magn texta sem er aðgengilegur á Internetinu farið að verða of takmarkandi til að þjálfa mállíkönin betur. Það gríðarlega magn af texta sem er að finna á netinu gæti hreinlega að verða of lítið.

„Bráðum fara þau að verða búin með allan texta sem hægt er að nota til að þjálfa líkönin,“ segir Hafsteinn. „Það gæti gerst að ef þú ætlar að þjálfa eitthvað líkan að þá þurfir þú svona mikið af texta sem er kannski ekki til.“

Þessi þróun gæti einnig átt við um myndbandsgerðartækni.

„Þú þarft ákveðið magn af myndböndum. Og ef það er ekki til nægilegt magn af myndböndum þá mögulega borgar það sig ekki lengur að reyna að stækka líkönin. Þá verður orðið takmarkað hvað það er mikið af gögnum,“ segir Stefán sem bendir þó að á móti gætu smiðir tækninnar reynt að búa til betri aðferðir.


Tengdar fréttir

Hraðar og ó­væntar vendingar hjá stærsta gervi­greindar­fyrir­tækinu

Microsoft hefur ráðið tvo stofnendur fyrirtækisins OpenAI til að leiða nýtt rannsóknarteymi á sviði gervigreindar, nokkrum dögum eftir að stjórn OpenAI rak annan þeirra og hinn sagði upp í mótmælaskyni. OpenAI er fyrirtækið á bakvið Chat GPT gervigreindina vinsælu.






×