Dixit egy kicsit másképpen

Fekete Imre | 2025.04.09.

Ha a Dixit kifejezést meghalljuk, akkor tipikusan Jean-Louis Roubira tervezte asszociációstársasjátékra gondolunk. A lényegében szinte korhatár nélkül játszható, gyönyörűen illusztrált játék 2008-as megjelenése óta töretlen népszerűségnek örvend. Magától értetődő, hogy társasági szituációkban kiváló lehetőséget teremt beszélgetések kezdeményezésére, valamint a hangulat oldására is. Nemcsak asszociációs játékként funkcionál, de történetmesélésre is alkalmas.

A játék játszása közben felmerült bennem, hogy a mesterséges intelligencia korában létezik-e automatizált lehetőség történetmesélésre. Szerencsére sikerült -- egy talán nem véletlen, de éppen -- egy Dixit fantázianevű keretrendszert találnom. Lentebb röviden a Dixit: Interactive Visual Storytelling via Term Manipulation c.^[1] szakcikk eredményeit foglalom össze.

A cikk egy olyan keretrendszert demonstrál, amelynek célja a generált történetmesélés a felhasználók által biztosított fényképsorozatok alapján.

A keretrendszer legfőbb jellemzői:

Fogalmi kifejezések kinyerése: A felhasználó fényképsorozatot tölt fel, amelyet ún. LSTM (Long Short-Term Memory - hosszú rövid távú memória) típusú neurális háló segítségével elemez. A javasolt modell az ún. image caption adatok és a FrameNet alapján azonosítja és kinyeri a képeken található tárgyakat és cselekvéseket. Például, ha egy képen egy kislány biciklizik, akkor a „lány”, „bicikli” és „biciklizik” kifejezéseket.
Felhasználói interakció: A felhasználók interaktívan hozzáadhatják vagy törölhetik a kinyert fogalmakat, ezzel pedig befolyásolhatják a történet tartalmát és irányát. Ez a felhasználó kontrollált és iteratív folyamat biztosítja, hogy a létrehozott történet összhangban legyen a felhasználó elképzeléseivel.
Történetgenerálás: A keretrendszer egy transzformer dekódert használ a kiválasztott fogalmak összekapcsolására. Ez azt biztosítja, hogy a generált történet összefüggő és kontextuálisan megfelelő legyen. A rendszer lehetővé teszi a többszöri módosítást, így a felhasználó elvárásának megfelelően finomhangolhatja a történetét.
Szerkesztés és értékelés: Az automatikus generáláson túl a keretrendszer lehetőséget biztosít a történetek manuális szerkesztésére és értékelésére, ami pedig még inkább személyre szabottabb élményt nyújt.

A cikk szerzői általánosan azonosítanak több problémát a meglévő mély neurális háló alapú történetmesélő modellekkel kapcsolatban:

Értelmezhetőség hiánya: A hagyományos modellek nem nyújtanak betekintést abba, hogy miként hozzák létre a narratívákat a képek alapján, így a felhasználók számára nehéz befolyásolni, vagy megérteni a történetalkotás folyamatát.
Rugalmasság hiánya: A végponttól végpontig működő (end-to-end) modellek általában egyetlen narratívát generálnak egy adott képsorozatra, ami korlátozza a történetmesélés kreatív lehetőségeit.
Értékelési nehézségek: A történetek minőségének objektív értékelése kihívást jelent, mivel a történetmesélés szubjektív jellegű, ugyanakkor az automatikus értékelési metrikák általában nem elég pontosak.
Adathiány: A megfelelően annotált kép-történet párok korlátozott elérhetősége nehezíti a hatékony történetmesélő modellek betanítását.

A keretrendszer ezeket a kihívásokat egy interaktív platformmal próbálja kezeli, amely lehetőséget biztosít a felhasználóknak, hogy lássák és módosítsák a történetet befolyásoló kifejezéseket. Ez egy átláthatóbb és jobban kontrollálható történetgenerálási folyamatot eredményez, amely nemcsak a felhasználói elégedettséget növeli, hanem értékes adatokat is biztosít a történetmesélő modellek további fejlesztéséhez.

Habár a Dixit keretrendszer korántsem tökéletes és a generálás során olyakor suta történeteket eredményez, de nagyon érdekes kutatási lehetőségeket nyit meg mesterséges intelligencia alapú történetmesélés tervezésében.

Irodalomjegyzék

^[1]C.C. Hsu, Y.H. Chen, Z.Y. Chen, H. Y. Lin, T.H. Huang, L.W. Ku: Dixit: Interactive Visual Storytelling via Term Manipulation, WWW '19: The World Wide Web Conference, pp. 3531- 3535, 2019
(https://doi.org/10.1145/3308558.3314131)

A cikk az ELTE EDUflow egyetemi oktatói ösztöndíjprogram és kurzusdesigneri részismereti képzés keretében és jóvoltából készült.