Googlen uusi äänimalli Gemini 3.1 Flash Live lupaa tuottaa luonnollisen kuuloista puhetta reaaliajassa. Luonnollisen kuuloista ääntä tuottavia malleja on nykyään jo paljon, mutta uuden Geminin erikoisuutena on nimenomaan sen nopeus; sen kanssa pystyy käymään luonnollista keskustelua reaaliajassa. Mallin toinen suuri valttikortti on tuki usealle kielelle. Googlen Live API tukee jopa 97 kieltä.
Koodasin Claudella pienen testisivun ja testasin sen kykyä puhua suomea. Promptina oli “Esitä ravintolan työntekijää, puhu luonnollista suomea”. Käytin läppärin mikrofonia ja rajapinnan kaikkia oletusasetuksia (eli kaikin mahdollisin tavoin vaikeinta mahdollista lähtökohtaa). Tässä lopputulos:
Äänessä on selkeitä artefakteja ja osa tauoista on vähän turhan pitkiä, mutta täysin optimoimattomaksi demoksi kuulostaa yllättävän hyvältä. Tämä siis alle viiden minuutin toteutuksella! Gemini osaa vastaanottaa ääntä, kuvia, videota ja tekstiä ja tuottaa vastauksen joko äänenä tai tekstinä. Mallikortti kertoo tarkemmat speksit.
Gemini Liven hinnoittelu on maltillinen ja sisältää myös ilmaisen tason, eli ainakin demoversoiden toteutus ei ole rahasta kiinni. Myös esimerkiksi LiveKitillä on jo valmiiksi rakennettu Gemini Live lisäosa.