Dixit egy kicsit másképpen

A játék játszása közben felmerült bennem, hogy a mesterséges intelligencia korában létezik-e automatizált lehetőség történetmesélésre. Szerencsére sikerült -- egy talán nem véletlen, de éppen -- egy Dixit fantázianevű keretrendszert találnom. Lentebb röviden a Dixit: Interactive Visual Storytelling via Term Manipulation c. [1] szakcikk eredményeit foglalom össze.
A cikk egy olyan keretrendszert demonstrál, amelynek célja a generált történetmesélés a felhasználók által biztosított fényképsorozatok alapján.
A keretrendszer legfőbb jellemzői:
- Fogalmi kifejezések kinyerése: A felhasználó fényképsorozatot tölt fel, amelyet ún. LSTM (Long Short-Term Memory - hosszú rövid távú memória) típusú neurális háló segítségével elemez. A javasolt modell az ún. image caption adatok és a FrameNet alapján azonosítja és kinyeri a képeken található tárgyakat és cselekvéseket. Például, ha egy képen egy kislány biciklizik, akkor a „lány”, „bicikli” és „biciklizik” kifejezéseket.
- Felhasználói interakció: A felhasználók interaktívan hozzáadhatják vagy törölhetik a kinyert fogalmakat, ezzel pedig befolyásolhatják a történet tartalmát és irányát. Ez a felhasználó kontrollált és iteratív folyamat biztosítja, hogy a létrehozott történet összhangban legyen a felhasználó elképzeléseivel.
- Történetgenerálás: A keretrendszer egy transzformer dekódert használ a kiválasztott fogalmak összekapcsolására. Ez azt biztosítja, hogy a generált történet összefüggő és kontextuálisan megfelelő legyen. A rendszer lehetővé teszi a többszöri módosítást, így a felhasználó elvárásának megfelelően finomhangolhatja a történetét.
- Szerkesztés és értékelés: Az automatikus generáláson túl a keretrendszer lehetőséget biztosít a történetek manuális szerkesztésére és értékelésére, ami pedig még inkább személyre szabottabb élményt nyújt.
A cikk szerzői általánosan azonosítanak több problémát a meglévő mély neurális háló alapú történetmesélő modellekkel kapcsolatban:
- Értelmezhetőség hiánya: A hagyományos modellek nem nyújtanak betekintést abba, hogy miként hozzák létre a narratívákat a képek alapján, így a felhasználók számára nehéz befolyásolni, vagy megérteni a történetalkotás folyamatát.
- Rugalmasság hiánya: A végponttól végpontig működő (end-to-end) modellek általában egyetlen narratívát generálnak egy adott képsorozatra, ami korlátozza a történetmesélés kreatív lehetőségeit.
- Értékelési nehézségek: A történetek minőségének objektív értékelése kihívást jelent, mivel a történetmesélés szubjektív jellegű, ugyanakkor az automatikus értékelési metrikák általában nem elég pontosak.
- Adathiány: A megfelelően annotált kép-történet párok korlátozott elérhetősége nehezíti a hatékony történetmesélő modellek betanítását.
A keretrendszer ezeket a kihívásokat egy interaktív platformmal próbálja kezeli, amely lehetőséget biztosít a felhasználóknak, hogy lássák és módosítsák a történetet befolyásoló kifejezéseket. Ez egy átláthatóbb és jobban kontrollálható történetgenerálási folyamatot eredményez, amely nemcsak a felhasználói elégedettséget növeli, hanem értékes adatokat is biztosít a történetmesélő modellek további fejlesztéséhez.
Habár a Dixit keretrendszer korántsem tökéletes és a generálás során olyakor suta történeteket eredményez, de nagyon érdekes kutatási lehetőségeket nyit meg mesterséges intelligencia alapú történetmesélés tervezésében.
Irodalomjegyzék
[1] C.C. Hsu, Y.H. Chen, Z.Y. Chen, H. Y. Lin, T.H. Huang, L.W. Ku: Dixit: Interactive Visual Storytelling via Term Manipulation, WWW '19: The World Wide Web Conference, pp. 3531- 3535, 2019
(https://doi.org/10.1145/3308558.3314131)
A cikk az ELTE EDUflow egyetemi oktatói ösztöndíjprogram és kurzusdesigneri részismereti képzés keretében és jóvoltából készült. |
|