Keskusteleva kielimallidemo (sesame.com)

Sekä puheen tunnistus ja tuottaminen ovat harpanneet isoja loikkia eteenpäin muutaman viimeisen vuoden aikana. Sesame-niminen startup Piilaaksosta julkaisi hiljattain demon (ja toistaiseksi tyhjän GitHub repon), jossa voi keskustella kielimallin kanssa pelkän selaimen välityksellä. Englantia äidinkielenään puhuvat kuulevat puheessa paljon korjattavaa, mutta tällaiselle ei-natiiville puhujalle tämä vaikuttaa jo lähes magialta.

Kehittäjän oma kommentti Hacker Newsissa:

Verbal communication is complex. There’s a big list of interesting challenges to tackle. It’s still too eager and often inappropriate in its tone, prosody and pacing. The timing of when it responds is wrong more often than right. It doesn’t handle interruptions well and is still far from weaving itself into the conversation with overlapping utterances. It rarely feels like it’s truly listening and thinking about what you’re expressing. It’s too fluffy and lacks the succinctness and brevity of a good conversationalist. Its personality is inconsistent. Then add in hallucinations, terrible memory, no track of time, lack of awareness…

The list keeps going.

Viime vuonna julkaistu Parler-mallin demo näytti esimerkkiä kuinka pitkällä avoimen lähdekoodin mallit ovat puheen tuottamisessa. Nyt tutkimuksessa keskitytään siis jo keskusteluteknisiin asioihin kuten rytmiin, keskeytyksiin ja äänensävyyn.

Vielä kun Apple onnistuisi saamaan edes häivähdyksen näistä teknologioista omiin järjestelmiinsä jotta selaimen saisi lukemaan Webiä ääneen jonain muuna kuin Stephen Hawkinina.


Kommentit