Sonic-3 ja hoono soomi

Cartesia valmistaa monikielisiä tekstistä puheeeksi (TTS) -järjestelmiä. Tuoreen Sonic-3 mallin luvataan osaavan entistä paremmin intonaatioita ja luonnollisen kuuloista puhetta.

Suomea puhuvia tuotantokelpoisia rajapintoja ei ole markkinoilla liikaa, suurin osa markkinoista on Googlella ja OpenAI:lla, siksi on mukavaa että pienemmätkin toimijat liittyvät mukaan kilpaan. Oheisista demoista käy kuitenkin valitettavasti ilmi, että Sonic-3 ei vielä taita suomea ihan yhtä hyvin kuin englantia.

Demo (Englanti)

Syöte: <emotion value="excited" />Oh wow, Valentine's Day snuck up on you, huh? [laughter] Don't worry—we'll get you a table, no problem! Let's make it special.

Sonicin englanti kuulostaa erittäin hyvältä ja sopii hyvin kaikenlaisiin lyhyihin käyttötarkoituksiin kuten asiakaspalvelun ensikontaktiksi.

Demo (Suomi)

Syöte: <emotion value="surprised" />Oho, ystävänpäivä tulikin yllättäen. [laughter] Ei hätää—järjestän sinulle pöydän. <emotion value="excited" />Tehdään tästä erityinen. (Cartesian oma esimerkki)

Otto 1

Otto 2

Syöte: <emotion value="happy" />Hmm… mietitään hetki… kyllä, tämähän on ihan hauskaa. [laughter] Aloitetaan. (Cartesian oma esimerkki)

Otto 1

Otto 2

Suomenkieliset esimerkit kertovat karulla tavalla siitä kuinka vaikeaa suomen kieli on koneellekin kun laadukasta harjoitusmateriaalia ei ole loputtomiin ja mallien treenaus maksaa maltaita. En tiedä kuinka suuressa huudossa SSML-tyyliset emotiot ovat asiakkaille, mutta näin suomalaisena olisin ikionnellinen jos malli osaisi edes peruskieltä luonnollisesti ja ilman outoja maneereja.


Kommentit