Koneoppiblogi

tekoälyaiheista suomeksi

Natiivi Claude Code (x.com) #

Claude Code osaa asentua nyt natiivisti kaikille tuetuille alustoille. Natiivi asentaja osaa mm. autopäivitykset paremmin ja on Anthropicin mukaan suositeltu asennusmetodi kaikille käyttäjille tästä eteenpäin.

Jos koneellasi on npm-paketista asennettu cc, voit päivittää sen sulkemalla kaikki avoimet instanssit ja ajamalla claude install.

Sonic-3 ja hoono soomi

Cartesia valmistaa monikielisiä tekstistä puheeeksi (TTS) -järjestelmiä. Tuoreen Sonic-3 mallin luvataan osaavan entistä paremmin intonaatioita ja luonnollisen kuuloista puhetta.

Suomea puhuvia tuotantokelpoisia rajapintoja ei ole markkinoilla liikaa, suurin osa markkinoista on Googlella ja OpenAI:lla, siksi on mukavaa että pienemmätkin toimijat liittyvät mukaan kilpaan. Oheisista demoista käy kuitenkin valitettavasti ilmi, että Sonic-3 ei vielä taita suomea ihan yhtä hyvin kuin englantia.

Demo (Englanti)

Syöte: <emotion value="excited" />Oh wow, Valentine's Day snuck up on you, huh? [laughter] Don't worry—we'll get you a table, no problem! Let's make it special.

Sonicin englanti kuulostaa erittäin hyvältä ja sopii hyvin kaikenlaisiin lyhyihin käyttötarkoituksiin kuten asiakaspalvelun ensikontaktiksi.

Demo (Suomi)

Syöte: <emotion value="surprised" />Oho, ystävänpäivä tulikin yllättäen. [laughter] Ei hätää—järjestän sinulle pöydän. <emotion value="excited" />Tehdään tästä erityinen. (Cartesian oma esimerkki)

Otto 1

Otto 2

Syöte: <emotion value="happy" />Hmm… mietitään hetki… kyllä, tämähän on ihan hauskaa. [laughter] Aloitetaan. (Cartesian oma esimerkki)

Otto 1

Otto 2

Suomenkieliset esimerkit kertovat karulla tavalla siitä kuinka vaikeaa suomen kieli on koneellekin kun laadukasta harjoitusmateriaalia ei ole loputtomiin ja mallien treenaus maksaa maltaita. En tiedä kuinka suuressa huudossa SSML-tyyliset emotiot ovat asiakkaille, mutta näin suomalaisena olisin ikionnellinen jos malli osaisi edes peruskieltä luonnollisesti ja ilman outoja maneereja.

GPT-5 Pro (platform.openai.com) #

ChatGPT:n kalleinta 200 dollarin kuukausimaksullista tilausta maksavat käyttäjät ovat päässeet käyttämään OpenAI:n pro-malleja jo pitkään. OpenAI julkaisi DevDay-tapahtumassaan uuden kaikille saatavilla olevan gpt-5-pro rajapintamallin, jonka luvataan tuottavan “johdonkumaisesti normaalia GPT-5 mallia parempia tuloksia” (noin kymmenkertaisella hinnalla).

Simon Willison on luonnollisesti julkaissut jo kattavan raportin mallin kyvyistä. En yleensä itse paneudu näihin rajapintamalleihin erityisen tarkasti, mutta tämä kiinnosti sen verran että tein sille oman suosikkitestini:

“Piirrä svg-kuva trailerilla olevasta veneestä”

Tämän tuottaminen kesti yli 7 minuuttia (!!), mutta lopputulos oli ensimmäinen koskaan, jonka nähtyani sanoin spontaanisti “wau!”.

Trailerilla oleva vene

GPT-5 codex (platform.openai.com) #

Reilu viikko sitten julkaistu Codex-työkaluun ja ohjelmointiin koulutettu malli on nyt saatavissa myös OpenAI:n rajapinnan kautta. Malli tuntuu gpt-perheelle tyypillisesti tuskallisen hitaalta, mutta on erittäin edullinen ($1.25/$10) käyttää varsinkin tilanteissa joissa pääsee hyödyntämään automaattista välimuistia (esim. chat-sovelluksissa).

Simon Willison on luonnollisesti jo raportoinut pelikaanit ja muun oleellisen.

Kuukausi Clauden kanssa

Huomasin pian Claude 4:n julkaisun jälkeen, että Claude Coden käyttökelpoisuus harppasi uusien mallien myötä täysin uusiin sfääreihin. Jokin pato murtui. Halusin miltä todellinen pariohjelmointi Claude Coden kanssa tuntuu, joten vuokrasin Anthropicilta koodiorjan kuukaudeksi edukkaaseen 275 euron hintaan.

Kuherruskuukausi

CCusage printti

Claude Coden käyttö API-krediiteillä on naurettavan kallista (yksi ls maksaa 8 senttiä). Anthropic käänsi tämän edukseen tarjoamalla Max-kuukausisopimuksia, joiden hintaan sisältyy Claude Coden käyttö ilman erillisiä rajapintamaksuja. Hinnoitteluhimmeliä on vähän vaikea selittää, mutta käytännössä 275 euron hintaisella 20x Max-paketilla voi käyttää Claude Codea rajattomasti. Oheisessa kuvassa näkyy Claude Code Usage Analyzerin raportti koekuukauteni saldosta, jossa siis käytin Claude Codea API-hinnoilla laskettuna yli 2600 euron edestä!

Jos Claude Coden ajattelisi olevan juonioritasoinen kehittäjä, 2600 euroakin olisi edullinen hinta lisätiimiläisestä, mutta 275 euroa (sis. ALV!) on niin mitätön kulu yritykselle, että sen käyttämättä jättäminen olisi kertakaikkisesti typerää — JOS työkalusta on jotain hyötyä.

Tämä on melko iso Jos. Oman kokemukseni mukaan Claude Code on erittäin käyttökelpoinen joissain tehtävissä, mutta täysin hyödytön toisissa. Juniorikehittäjien tapaan Claude Coden kirjoittama koodi on valvomattomana täysin ala-arvoista, mutta oikeanlaisilla työkaluilla ja hyvässä ohjauksessa sanoisin sen kirjoittavan vähintään yhtä hyvää koodia kuin itse koskaan osaisin, todennäköisesti parempaa.

Olen myös vakaasti sitä mieltä, että työelämässä kokenut kehittäjä saa Claude Coden kaltaisista työkaluista enemmän irti kuin juniori. Kokenut kehittäjä osaa arvioida Clauden ehdottamien ratkaisujen ja tuottaman koodin laatua, ja myös ohjata sitä oikeaan suuntaan aina tarvittaessa. Juniorille hyödyt ovat täysin erilaiset. Claude osaa pidellä kädestä ja selittää asioita hyvin, mutta se ei vielä tällä hetkellä kykene opettamaan esimerkiksi hyviä koodaustapoja, sanomaan “ei noin” kun tekee asioita väärin, tai kirjoittamaan järkeviä testejä. Työelämässä vibailu on vaarallista.

Pariuduin siis Claude Coden kanssa kuukaudeksi niin tiiviisti, että koodasin sillä lähes joka päivä. Yritin käyttää sitä kaikkeen mihin ottaisin mukaan myös oikean kehittäjän. Arkkitehturoimme monimutkaista striimipalvelun rajapintaa, koodasimme Pythonilla, Typescriptillä, Swiftillä ja Golla. Claude kirjoitti ison kasan satunnaisia apuskriptejä moniin eri projekteihin, kirjoitti teknistä dokumentaatiota, haki ja analysoi paketteja, teki koodikatselmuksia ja metsästi bugeja. Claude oli ennennäkemättömän hyvä apuväline myös muutamassa devops-tulipalossa kun se metsästi ja korjasi Docker/Traefik ongelmia (livenä tuotantoserverillä) joista en itse ymmärtänyt juuri mitään.

Kuukausi Clauden kanssa oli tuottoisa, mutta myös kuluttava. Omasta pussista kustannettu lähes 300 euron testi tuntui niin kalliilta investoinnilta, että sille oli pakko yrittää keksiä vastiketta vaikka #väkisin. Jaksoon mahtui myös pari päivää, jotka menivät käytännössä täysin pilalle Clauden tehdessä jotain erityisen typerää.

Kuukausi tiiviisti paritettuna LLM-työkaluun oli monella tavalla silmiäavaava. Opin käyttämään Claude Codea todella tehokkaasti ja näkemään myös eri mallien (ja toimittajien) välisiä eroja aiempaa paremmin vaikka mielestäni osasin niitä jo ennestään kohtuullisen hyvin. Sain paljon käytännön oppia siitä mihin nykyiset mallit kykenevät ja myös siitä mitä niillä on turha yrittää tehdä. Oman mutu-tuntuman perusteella sanoisin että olin Clauden kanssa merkittävästi normaalia tuotteliaampi, mutta veikkaan että tämä on kirjaimellisesti vain tuntuma ja todellisuus on ennemminkin jotain siihen suntaan, että tein enemmän mutta kulutin ison osan ajasta työkalun kanssa jumppaamiseen. (Tietysti ihmisenkin kanssa tekemisessä on kitkaa, mutta se on hyvin erilaista.)

En osannut lainkaan odottaa sitä miten paljon Clauden pienet (ja suuret) persoonallisuuspiirteet ja työtavat käyvät hermoille jos niiden kanssa pitää elää monta tuntia päivässä joka päivä. Olin kuukausi sitten jo siinä pisteessä, että jouduin käyttämään merkittävästi kognitiivista energiaa siihen, etten reagoisi “You’re totally right!”-vastaukseen nakkaamalla koko helvetin läppäriä ulos ikkunasta. Olen mielestäni lehmänhermoinen ja yleensä ystävällinen kaikessa kommunikoinnissa, mutta Clauden välillä psykopaattiselta tuntuvat reaktiot saavat jollain tavalla veren kiehumaan niin että keskustelu muuttuu pelkäksi HUUTAMISEKSI ja kiroiluksi (mikä tietenkään ei auta millään muotoa).

Kuherruskuukauden loppuessa irtisanoin Max-tilauksen ja yllätyksekseni jätin uusimatta myös normaalin Clauden Plus-tilauksen. Tarvitsin lomaa koko Claudesta.

Kuukausi ilman Claudea

Ensimmäinen viikko ilman Claudea oli vähintään yhtä silmiäavaava kuin viikot sen kanssa. “Tämänhän saa tehtyä paljon nopeammin käsin itse kuin odottaa Claudea ja pompottaa sitä korjaamaan pieniä asioita moneen kertaan” oli kaiketi päällimmäisin havainto.

Sekin oli vähän päässyt unohtumaan, että ohjelmointihan on hauskaa. Siinä on jonkunlaista scifiä ja uutuudenviehätystä että voi (kirjaimellisesti) sanella koneelle mitä haluaa, mutta siitä ei saa samalla tavalla iloa kuin ihan omin käsin tehdystä työstä.

LLM-työkalut ovat luoneet moniin paikkoihin “kun kädessä on vasara, kaikki asiat alkavat näyttää nauloilta”-tyyppisen tilanteen jossa niitä käytetään ihan turhaan. Koodin kirjoittamisessa ongelmallista on myös se, että AI-agentit tuottavat yleensä aivan liikaa koodia. Jos yhden pienen ongelman ratkaisee kolmen rivin sijaan kahdellakymmenellä rivillä se ei vielä ole ongelma, mutta kun suurin osa koodista alkaa näyttää tältä niin sen ylläpito käy nopeasti haasteelliseksi.

Löysin itse itseni kaksi kertaa tilanteesta jossa olin antanut sivulauseessa Clauden luoda projektiin apufunktion yksinkertamaan ja nopeuttamaan työtä. Muutaman iteraation jälkeen Claude oli paisuttanut sen niin valtavaksi ja vaikeaselkoiseksi himmeliksi, että jouduin jälkeenpäin kysymään Claudelta apua ymmärtääkseni miten se toimii! (Ja myöhemmin refaktoroimaan sen käsin sellaiseksi kun alunperin oli tarkoitus.)

Nyt kun olen ollut muutaman viikon ilman sitä apupyörää että antaisin Clauden koskea kaikkeen, olen mielestäni löytänyt hyvälle keskitielle. Turvaudun LLM-työkaluihin vasta kun huomaan jonkun asian oikeasti hyötyvän mieluummin koneen kuin apinan kosketuksesta. Clauden edullisimpaan 22 euron tilaukseen kuuluu nykyisin myös kohtuullinen määrä Claude Coden käyttöä, mikä on arkiseen käyttöön ainakin itselleni (pelkkää Sonnet-mallia käyttäen) täysin riittävästi.

Sain tästä parista kuukaudesta valtavan opin lisäksi myös jonkinlaisen pysyvän eksistentiaalisen kriisin. Olen vakuuttunut, että kun kielimallien osaaminen kehittyy nykyisestä vielä ~20-30 prosenttia, ne käyvät niin hyödyllisiksi että niiden käyttö muuttuu pakolliseksi useimmissa softatiimeissä. Enkä enää osaa sanoa onko se hyvä vai huono asia.

GPT-5 - Lupaukset vs todellisuus

Koko teknologiamaailma pidätti eilen hengitystään kun OpenAI julkaisi uuden GPT-5 -mallinsa. Tyylilleen uskollisesti Sam Altman twiittasi edeltävänä iltana koppavan kuvan Kuolemantähdestä ilman mitään selitystä. “AGI tulee - oletko valmis?”

Julkaisu oli monella tapaa historiallinen. OpenAI ehti hypettää kaiken mullistavan mallin tulemista lähes 2,5 vuotta, mutta julkaisustriimi (YouTube, 1h 17min) vaikutti kuitenkin siltä kuin se olisi valmisteltu pelkästään kesäharjoittelijoiden toimesta ilman mitään esivalmisteluja yhdessä iltapäivässä sillä aikaa kun Sam ja muut markkinointijehut puuteroivat vessassa neniään sinisilmäisten sijoittajien miljardien turvin. Harmittavasti myös itse malli vaikuttaisi olevan vain pieni parannus edelliseen — ei siis lähelläkään sitä hypeä jota kuukausitolkulla on rummutettu. Tämä oli suurin teknologiajulkaisufloppi mitä olen todistanut yli 25-vuotisen urani aikana.

Faktat

GPT-5 ei siis ole millään muotoa erityinen kielimalli. Se on askeleen edeltäjiään parempi, mutta hyvin pienen askeleen. OpenAI:n mukaan uusi malli on edeltäjiään nopeampi ja parempi lähes kaikilla osa-alueilla. Sen luvataan olevan merkittävästi parempi myös työkalujen käytössä ja ohjeiden noudattamisessa, mistä on apua mm. ohjelmoinnissa ja rajapintakäyttöön soveltamisessa.

Tyypillisen käytön näkökulmasta tärkeän konteksti-ikkunan koko on 400k, mikä on kaksinkertainen Anthropicin Claude-malleihin verrattuna, mutta alle puolet esim. Geminin ja GPT 4.1:n miljoonasta. Ulospäin GPT-5 pystyy suoltamaan 128k tokenia (Gemini 2.5 Pro ja Sonnet 4 64k, GPT 4.1 32k) mistä on hyötyä esimerkiksi isojen koodimuutosten kanssa työskentelyssä. GPT-5:n koulutusdatan päiväys on syyskuu 2024, mikä on yllättävän kaukana.

OpenAI on jakanut sen rajapintakäytön peräti neljään eri malliin: saatavilla on gpt-5, gpt-5-mini, gpt-5-nano, ja gpt-5-chat-latest. Allekirjoittaneelle ei sevinnyt että mitä eroa on em. listan ensimmäisellä ja viimeisellä. Mahdollisesti se, että kuluttajien näkemä ChatGPT-palvelu uudistuu julkaisun myötä siten, että aikaisemman manuaalisen mallivalinnan sijaan selaimelta tulevat kysymykset menevät nyt uudenlaiseen reitittimeen, joka ohjaa vastauksen optimoidusti tarkoitukseen parhaasti sopivalle mallille. Tämän pitäisi OpenAI:n mukaan sekä nopeuttaa vastauksia mutta myös parantaa niiden laatua (koska useimmat ei-nörtit eivät osaa tai viitsi valita malleja käsin).

Yksi merkittävä päivitys on uuden mallin hinta, joka on $1,25 sisään / $10 ulos / miljoona tokenia, eli saman hintainen kuin Googlen Gemini 2.5 ja lähes puolet edullisempi kuin $3/$15 Claude 4. Uusi GPT-5 on siis edullisempi kuin aiempi 4o. Simon Willisonin postauksessa on kattava taulukko eri mallien hinnoista.

Suorituskykytestien mukaan GPT-5 on tällä hetkellä paras tai yksi parhaista suurista kielimalleista useimmilla mittausalueilla. Ero kilpailijoihin on kuitenkin vain muutamien prosenttien luokkaa, joten arkikäytössä se tuskin tarjoaa mitään erityisen mullistavaa. Jos koodauskyky osoittautuu paremmaksi kuin Anthropicin malleilla, tämä on kuitenkin tervetullut päivitys alhaisemman hintansa vuoksi.

Isot propsit OpenAI:lle myös siitä, että tästäkin mallista julkaistiin samalla systeemikortti (PDF), jossa on tarkempia taustietoja mallin käytöksestä.

Reaktiot

OpenAI ampui itseään jalkaan monumentaalisella tavalla käyttäen yli 29 kuukautta tietoiseen hypetykseen siitä miten maailmoja mullistava ihme GPT-5 tulee olemaan. Jos tämä olisi ollut tavallinen kielimallijulkaisu, normaali muutaman prosentin parannus edelliseen olisi otettu vastaan positiivisesti. Toisaalta 2,5 vuotta on todella pitkä aika munia näin pientä askelta, joten jotain muutakin on mennyt pahasti metsään.

Influensseri Theo Browne oli (ilmeisen kirjaimellisesti) myyty GPT-5:n kyvyistä. Hän twiittasi, että Claudet ja Geminit eivät ole enää relevantteja GPT-5:n myötä. Myös Simon Willisonille maksettiin osallistumisestaan kehittäjille suunnatun promovideon tekemiseen. Oletan kyynisesti, että kaikilla muillakin positiivisia kommentteja esittäneillä on käytössään ilmaisia OpenAI-krediittejä (koska suuren yleisön kokemukset vaikuttavat olevan täysin päinvastainen).

henriquegodoy-käyttäjän kommentti Hacker Newsissa kuvaa mielestäni yleistä reaktiota kaikkein parhaiten:

OpenAI:n käsitys pylväsdiagrammeista

SWE-bench -kaavio epäsuhtaisine pylväineen (jossa 52,8 % näytti suuremmalta kuin 69,1 %) oli tunnuksenomainen koko esitykselle – hätiköity ja vaisu. Tällaiseen virheeseen puututtaisiin missä tahansa sisäisessä katselmuksessa, mutta silti se nähdään miljardin dollarin tuotelanseerauksessa.

Julkaisustriimissä kehuttiin, että GPT-5 pystyy “tohtoritasoisiin” vastauksiin samalla kun se hallusinoi miten lentokoneen siipi toimii. “GPT-6 käy kysymässä foorumeilta tyttönä joka kaipaa apua koulutettävään” naljaili yksi käyttäjä.

Ensikokemukset oikean koodiprojektin kanssa: kamala” twiittasi eräs käyttäjä, “uskomatonta miten ChatGPT muuttui olennaisesta roskaksi” kirjoitti toinen. Monet ChatGPT:n käyttäjät ovat myös pettyneitä vanhojen mallien poistamiseen. Itku on ensimmäisen vuorokauden aikana ollut niin äänekästä että OpenAI on jo luvannut tuoda vanhan 4o mallin jollain tavalla takaisin.

Olisi tämä julkaisu varmaan voinut jotenkin huonomminkin mennä, ei nyt vaan heti tule mieleen miten.

”Piirrä svg-kuva trailerilla olevasta veneestä”

GPT-5 -mallin näkemys trailerilla olevasta veneestä oli yhtä iso pettymys kuin itse julkistuskin.

Trailerilla oleva vene

Ajatuksia

Tästä julkaisusta jäi vahva “meidän on jumalauta pakko julkaista jotain NYT!!”-tyylisen paniikin maku. OpenAI on haalinut satoja miljardeja sijoituksia ja polttanut miljardeja tuotekehitykseen luvaten kuuta taivaalta kuitenkaan toimittamatta mitään erityisen paljon kiljailijoista poikkeavaa. Ja kun saamaan aikaan kiinalaiset kilpailijat osoittavat pystyvänsä kehittämään lähes samantasoisia malleja murto-osalla kustannuksista, on ymmärrettävää, että paine julkaista mitä tahansa on aika suuri. En vaan henkilökohtaisesti pysty ymmärtämään miten itse julkaisu onnistuttiin ryssimään näin täydellisesti.

Murskakritiikistä huolimatta olen varovaisen toiveikas kahden asian suhteen. Ensinnäkin toivottavasti GPT-5 osoittautuu kyvykkääksi oikean elämän käyttötapauksissa. Edulliset huippumallit parantavat kirjaimellisesti kaikkea. Toisekseen toivon, että OpenAI ottaisi tästä nöyryytyksestä opikseen. Sillä on edelleen kaikki edellytykset seuraavan oikean läpimurtoteknologian kehittämiseen, ja koko ala hyötyisi siitä, että hypeä olisi vähän vähemmän ja konkreettista edistystä enemmän. Ei pelkästään iteratiivisissa suurten kielimallien kehityksessä vaan aidosti uusissa innovaatioissa esimerkiksi jatkuvan oppimisen ja tietoturvan saralla.

Claude Opus 4.1

Anthropicin uusi Claude Opus 4.1 on on kuulemma “suora korvaaja” edelliselle mallille. Lippulaivamallin pistepäivitys tuli täysin puskista vain kolmisen kuukautta Claude 4 julkaisun jälkeen. Tämä päivitys on myös hieman outo, sillä Opus 4.1 on saanut vain pari prosenttia lisää kykyä millä tahansa mittarilla katsottuna. Hintakin on edelleen sama kuin ennen (kivuliaat $15/$75).

Mallikortti kertoo detaljit (PDF) ja Simon Willison promptaa pelikaanit.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Opuksen näkemys tästä on jälleen kerran kiehtova. Rekisterinumero on muuten muotoiltu oikein!

Trailerilla oleva vene

En oikein ymmärrä tämän mallin julkaisun tarkoitusta. Veikkaan, että konepellin alla kehitetään jotain suurempaa ja Anthropic haluaa kaikki pelikaaninsa riviin tulevaisuutta varten.

Suorituskykytestien alamäestä

Kielimallikilvan kiihtyessä suorituskykytesteistä on tullut valmistajille yhä halutumpia tavoitteita. Mallien erojen pienentyessä selkeät numerot ovat helppo ja ymmärrettävä tapa erottua, joten testeissä menestymiseen panostetaan — usein jo liikaa. Tilanne on lopulta ajautunut siihen, että malleja tuunataan pelkästään testeissä pärjääviksi, mikä johtaa siihen että testit menettävät merkitystään samalla kun itse malleja ei välttämättä kouluteta parhaalla tavalla yleistä käyttöä ajatellen. Paras mahdollinen testi on omalla datalla omaan käyttöön tehty suljettu testi.

Preussialainen renkaanheitto

Kielimallien suorituskyvyn testaus on aina ollut haastavaa, koska mallien ulosanti ei ole determinististä: samaan (avoimeen) kysymykseen saa eri vastauksen jokaisella kysymyskerralla. Laadukkaiden suorituskykytestien luominen on haastavaa, eikä laatukaan välttämättä takaa sitä että testin tulos olisi mitenkään linjassa juuri omaan käyttötarkoitukseen jos se ei satu olemaan täsmälleen se mitä on testattu.

Aktiivisena Web-kehittäjänä olen seurannut itse aina erityisesti ohjelmointikykyjä mittaaviin testaihin, mutta viimeaikoina niidenkin hyödyllisyys on selkeästi vähentynyt. Johtavat suuret kielimallit ovat nykyisin niin lähellä toisiaan, että kaikki suoriutuvat virheettömästi aiemmin eroja tehneistä testikysymyksistä. Mutta mikä pahinta, ne eivät kuitenkaan suoriudu yhtä hyvin kaikista tehtävistä vaan pelkästään näistä julkisista testitehtävistä jotka on opetettu niille pelkästään hyvien testisuoritusten toivossa. Tämän vuoksi monen ohjelmointitestin kärjessä kelluu uusia malleja jotka kompuroivat oikean elämän koodihaasteissa paljon pahemmin kuin vuoden (eli tekoälymaailmassa ikuisuuden) vanhemmat Anthropicin mallit. (Myös OpenAI:lla ja Googlella on kelvollisia koodausmalleja, mutta Anthropicin mallit ovat erityisen tunnettuja laadukkaista koodauskyvyistään.)

Yksittäisen koodarin elämään tällä ei ihan hirveästi ole merkitystä, koska työkaluista lähes aina löytyy nopea valikko josta valita toinen malli jos nyt käytössä oleva ei tunnu suoriutuvan. Mutta, jos malli on valjastettu esimerkiksi pitkään agenttiketjuun jonka lopputuloksena on tiukasti strukturoitua dataa, sen valinta ja evaluointi ennen tuotantoon viemistä on erityisen kriittistä. Evaluointitestien luominen ja ylläpito (ts. pitkän aikavälin testaus usealla mallilla) on oma taiteenalansa ja se saattaa viedä enemmän aikaa kuin varsinaisen ohjelmapolun rakentaminen, mutta se yleensä myös maksaa itsensä takaisin heti kun malleja aletaan päivittämään.

Kolmansien osapuolten suorituskykytestit ovat hyvä lähtökohta ensimmäisen harkintajoukon kokoamiseksi, mutta sen syvemmin niihin ei kannata kiintyä.

Muutamia testilinkkejä joita itse seuraan:

Puoli vuotta pyöräileviä pelikaaneja (simonwillison.net) #

Simon Willison julkaisi kuvitetun translitteroinnin puheestaan AI Engineer World’s Fair -tapahtumassa, jonka aiheena oli “Kielimallien kehitys viimeisten 6kk aikana”. Simon kuvitti puheensa, luonnollisesti, pyöräilevillä pelikaaneilla.

# 7.6. lokeroissa

MCP antaa supervoimia kielimalleille

Anthropic julkaisi marraskuussa mielenkiintoisen protokollan, joka mahdollistaa työkalujen ja RAG-tyylisen kontekstin lisäämisen kielimalleille hyvin pienellä vaivalla. Hiljaisen ja hitaan alun jälkeen tämä avoimen lähdekoodin protokolla on nyt kovassa nosteessa kun OpenAI lisäsi tuen omaan rajapintaansa ja uusin versio supersuositusta VS Code editorista osaa nyt hyödyntää MCP-työkaluja natiivisti.

MCP:n idea on nerokkaan yksinkertainen; annetaan kielimallille kontekstin sijaan helppo pääsy työkaluihin. Tämä mahdollistaa —teoriassa— LLM-työkalujen yhdistämisen mihin tahansa ulkopuoliseen järjestelmään tai tietolähteeseen vain muutamalla rivillä rajapintakoodia. Lupaus kuulostaa erittäin houkuttelevalta, mutta kolikon kääntöpuoli on kielimallien surullisenkuuluisa haaste työkalujen oppimisessa; MCP-palvelin toimii vain jos kielimalli osaa käyttää sitä oikein. Lue lisää →

Claude 4

Anthropicin Code with Claude tapahtumassa julkaistiin tänään Claude Opus 4 sekä Claude Sonnet 4, kummatkin merkittäviä harppauksia alati kiihtyvässä kielimallikilvassa.

Markkinointipuheen (sekä suorituskykytestien) perusteella Claude Opus 4 on maailman paras koodausmalli. Sonnet 4 puolestaan on “merkittävät päivitys Sonnet 3.7-malliin”. Kummankin mallin hinnat pysyvät smana edeltäjiinsä verrattuna, eli $3/$15 Sonnet 4 -mallille ja $15/$75 Opus 4 -mallille. Suomeksi sanottuna hyvin suolaista, mutta toisaalta laadun luvataan myös olevan markkinoiden parasta.

Kummankin uuden mallin koulutusdatan päiväys on maaliskuu 2025, mikä on ilahduttavaa. Toisaalta kummankin mallin konteksti on edelleenkin nykymittakaavassa surkeat 200k tokenia — viidennes muiden huippumallien kyvyistä. Anthropic luettelee mallien uusiksi kyvyiksi myös paremman ja rinnakkaisen työkalujen käytön, ajattelumoodin käytön yhdessä työkalujen käytön kanssa sekä mm. koodinsuoritustyökalun rajapintaan.

SWE Benchmark Lue lisää →

GPT image-1: kuvageneraatiomalli saatavilla rajapinnan kautta (openai.com) #

OpenAI:n maalikuussa julkaisema kuvageneraatio-ominaisuus on saatavilla nyt rajapinnan kautta mallikoodilla gpt-image-1. Yhden generoidun kuvan hinnaksi tulee laadusta riippuen noin 2-19 dollarisenttiä.

Tämän kaltaisissa rajapinoissa on paljon potentiaalia monenlaiseen kaupalliseen käyttöön. Toisaalta se myös vääjäämättömästi lisää tekoälysutun määrää maailmassa.

Gemini 2.5 Pro

Googlen tuore Gemini 2.5 Pro on perheen ensimmäinen malli, joka vaikuttaa aidosti hyödylliseltä koodaamiseen. “Ajatteluun” kykenevällä mallilla on suuri miljoonan tokenin konteksti (65k ulospäin) ja se on multimodaalinen, eli ymmärtää tekstin lisäksi myös kuvia. Koulutusdatan päiväys on tammikuu 2025, mikä on myös positiivinen päivitys verrattuna kilpailijoihin.

Uusi Gemini pomppasi heti julkaisun jälkeen Aiderin LLM Leaderboardin kärkeen yllättävän isolla erolla saaden koodaustestistä 72.9% oikein kun toisena oleva Claude 3.7 saa 64.9%. Tämä on merkittävä hyppäys, etenkin kun edellinen 2.0 Pro sai vain säälittävät 35.6%. Käytännössä tämä tarkoittaa sitä, että uusi Gemini on nyt yksi parhaista työkaluista koodaukseen.

Tämäkin malli julkaistiin niin hätäisesti, että se ei ole saatavilla vielä juuri missään muualla kuin Googlen omassa AI Studio testilaboratoriossa, testasin tätä yhden kokonaisen päivän siellä. Olen positiivisesti yllättynyt. Käytin uutta Geminiä työparina valmistellessani melko kompleksista teknistä spesifikaatiodokumenttia Django/Python chat-sovellukseen.

Lähdin yleismalkaisesta selityksestä ja muutamasta ranskalaisesta viivasta, päädyin päivän päätteeksi yli 6000 sanaa sisältävään Markdown-dokumenttiin joka oli kenties yksi parhaista mitä olen koskaan saanut aikaiseksi. Työ oli pitkälti edestakaisin jumppailua erilaisten tarkennusten ja arkkitehtuuristen valintojen välillä. Kirjoitin Geminille omia näkemyksiäni ja pyysin sitä kommentoimaan ja kysymään lisää. Lopuksi pyysin sitä kirjoittamaan kaiken käsitellyn auki kokonaiseksi dokumentiksi. Kirjoitusvaihe kesti Geminiltä yli 2 minuuttia, mutta lopputulos todellakin säväytti positiivisesti.

Gemini on tätä kirjoittaessa saatavilla jo myös Vertex AI -rajapinnan kautta ja toivottavasti myös muissa työkaluissa kuten Githubin Copilotissakin pian. Olin jotenkin asennoitunut siihen, että nyt kun Clauden uusi 3.7 julkaistiin niin kestäisi taas vähintään kuukausia ellei vuosi kunnes ohjelmoijat saavat jotain aidosti hyödyllistä. Olen iloinen ollessani väärässä! Gemini vaikuttaa selkeästi hyödylliseltä työkalulta koodaukseen. Toivottavasti uusi 2.5 Pro pääsee “kokeellinen”-leimastaan pian.

Simon Willison on luonnollisesti julkaissut jo oman arvionsa.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Geminin näkemys on tyylikäs, vaikkakin vähän puutteellinen. Itse tiedostoon lisätyt kommentit ovat mielenkiintoinen lisä!

Trailerilla oleva vene

4o oppi luomaan kuvia

OpenAI:n 4o-malli sai vihdoin kauan odotetun päivityksen, joka avaa mallin kuvagenerointiominaisuudet. Tekstistä kuvaksi -ominaisuuksissa ei ole mitään uutta, mutta 4o:n toteutuksessa on pari ominaisuutta joissa on potentiaalisen hitin ainesta.

4o on ensimmäinen suurelle yleisölle saatavilla oleva malli, joka osaa luoda ja muokata kuvia iteroimalla, eli lopputulosta voi muokata samassa keskustelussa useampaan otteeseen. Aiemmat kuvia luovat mallit toimivat niin, että syötteen antamisen jälkeen malli generoi aina uuden kuvan, ja jos siihen haluaa muutoksia, joutuu muokkaamaan alkuperäistä kehotetta ja yleensä prosessi tuottaa uusilla kerroilla aina täysin erilaisen kuvan. Uusi 4o ymmärtää, ajatuksen “luo kuva metsästä” ja lisäyksen “lisää siihen hirvi” luomalla ensin yhden kuvan ja lisäämällä samaan kuvaan sen jälkeen hirven.

Toinen hyödyllinen ominaisuus on aiempaa merkittävästi parempi tekstin tuottaminen. OpenAI:n demoissa malli osaa tuottaa esimerkiksi ravintolan menun virheettömällä tekstillä. Tästä on hyötyä lähes kaikissa tilanteissa joissa kuvassa esiintyy mitä tahansa tekstiä kun se ei enää tarkemmalla katsomisella olekaan satunnaista suttua. (Mutta sormien lukumäärän huomioiminen vaikuttaa vieläkin olevan vähän hakusessa!)

Julkaisutiedotteessa on hyviä esimerkkejä kummastakin edellämainitusta. Uusi malli on saatavilla heti pro-käyttäjille ja avataan muille käyttäjille “pian”. Rajapintaan gpt-4o-image malli luvataan kehittäjille “lähiviikkoina”. Tämän tyyppiset mallijulkaisut ovat ärsyttävimmästä päästä, koska esimerkiksi ChatGPT-applikaatio ja Web-käyttöliittymä eivät vielä millään muotoa näytä onko uusi ominaisuus käytössä vai nou, joten käyttäjät ovat takuuvarmasti ihmeissään kun lukevat uutisia päivityksistä mutta eivät kuitenkaan näe muutoksia missään. (En itse päässyt heti käsiksi uuteen malliin mitään reittiä, joten tämä merkintä jäi vaille kuvitusta.)

Sentään uuden mallin mallikorttia on päivitetty (PDF) uusien ominaisuuksien osalta.

PS. Jos haluaa kokea myötähäpeää Piilaakson tapaan, kannattaa katsoa eilinen julkaisustriimi tuubista (~15 min). OpenAI onnistuu joka kerta näyttämään täydellisen pönöttävältä korporaatiovastakohdalta Anthropicin aidosti lämminhenkisille videoille.

ARC-AGI-2: Ihmiskunnan merkittävin kilpajuoksu?

Koneoppimisen pioneeri François Chollet julkaisi vuonna 2019 ARC-AGI-suorituskykytestin joista suurin osa ihmisistä suoriutuu helposti, mutta jotka ovat haastavia syväoppimiseen perustuville kielimalleille.

OpenAI nosti joulukuussa kohun kun julkisella harjoitusaineistolla treenattu o3-malli onnistui ratkaisemaan 87% alkuperäisen testin julkisista testitehtävistä. Tämä tulos vaati kuitenkin yli miljoonan dollarin edestä laskentatehoa (itse mallin tuunauksen kustannuksista puhumattakaan). ARC-AGI-2 on tänään julkaistu uusi versio tästä testistä. Ratkomisen kannustukseksi julkaistiin myös vuoden loppuun kestävä uusi kilpailu, jonka parhaille ratkaisijoille on jaossa miljoonan dollarin edestä palkintoja.

ARC-AGI-2 tehtävä

ARC-AGI:n tarkoituksena on edistää koneoppimisen kehitystä ja demonstroida nykyisten kielimallien osaamisen kapeutta ja aidon älykkyyden puutetta. OpenAI:n GPT-4.5 ja o3-mini-high saavat uudesta testistä 0% oikein vaikka tehtävät ovat edelleen ihmisille helppoja. (Edellistä testiä varten erikoistuunattu o3 ratkoo tehtävistä arvioiden mukaan ~4%.) Lue lisää →

Mistral Small 3.1

Mistral julkaisi tammikuussa isolla pöhinällä Mistral Small 3 kielimallin avoimella Apache 2.0 lisenssillä. Tuore Mistral Small 3.1 ymmärtää nyt tekstin lisäksi myös kuvasyötteitä ja kontekstin kokoa on kasvatettu 128 tuhanteen tokeniin. Mistralin mukaan uusi malli päihittää sekä Anthropicin, Googlen että OpenAI:n vastaavat pienet mallit. Mallikortti on luettavissa HuggingFacessa.

Uskon että juuri tällaiset avoimet kielimallit tulevat pitkällä aikavälillä muuttamaan jokapäiväisiä interaktioitamme tietojärjestelmien kanssa kaikkein eniten — niin hyvässä kuin pahassa. Olen iloinen myös siitä, että tällä pelikentällä on olemassa edes yksi varteenotettava eurooppalainen kilpailija.

Siri, siirrä vaimoni rahat tililleni

Otsikko on kärjistävä, mutta valaisee pointin; henkilökohtaiseen dataan ja rajapintoihin yhdistetty kielimalleihin perustuva Siri on tietoturvan näkökulmasta Tosi Huono Idea.

Apple ilmoitti hiljattain lykkäävänsä Siriin luvattuja henkilökohtaista dataa hyödyntäviä ominaisuuksia “ainakin vuodella”. Omppumaailman gran old journalisti-man John Gruber veti tästä johtopäätöksiä, että Apple on paitsi täysin kujalla AI-kehityksestä, myös liannut maineensa lupaamalla näkyvästi (mm. TV-mainosten kera) ominaisuuksia joita eivät voi kenties koskaan toimittaa.

Dilemma on kieltämättä aika suuri. Toisaalta nykyinen Siri on huonompi kuin mitä pystyisin itse toteuttamaan IF/ELSE lauseilla yhdessä iltapäivässä, toisaalta kehoteinjektio ei ole vain riski vaan ominaisuus nykyisissä kielimalleissa. Gruber ja Simon Willison pallottelivat tästä muutama päivä sitten. Pääpointti on se, että älypuhelimen henkilökohtaisiin tietoihin (salasanat, pankki- ym. yhteydet, jne.) yhdistetty kielimalli ei saa olla “lähes varmasti” turvallinen, sen täytyy olla pomminvarma. Ja nykyisiä kielimalleja hyödyntävistä järjestelmistä ei ole mahdollista tehdä samaan tapaan deterministisesti turvallisia kuin perinteisistä tietojärjestelmistä. Ilmaisen asian toisin: me tiedämme, että nykyisillä kielimalleja hyödyntävillä teknologioilla ei ole mahdollista rakentaa niin turvallista järjestelmää kuin mitä esimerkiksi tiivis Siri-integraatio vaatisi. Apple siis lupasi kenties jotain täysin tuulesta temmattua sen sijaan että olisi onnistunut kehittämään jotain uutta ja mullistavaa. Lue lisää →

Vibailusta

Kielimallien oksentamasta kertakäyttösutusta on valitettavasti jo tullut niin yleistä, että on vaikea löytää paikkoja jossa siihen ei törmäisi. Generoivan AI:n parissa työskentelevät oppivat nopeasti erottamaan koneen tuottaman sisällön aidosta (joskin kuilu näiden välillä kapenee koko ajan). Andrej Karpathy lanseerasi Twitterissä termin vibailu (“vibe coding” — suomennos minun) koodausprosessille, jossa AI-avusteisen koodaussession tavoitteena ei ole tuotantokelpoinen laadukas koodi, vaan täysin uudenlaiselle kehitysprosessille antautuminen — fiilistely. Vibailusta on nopeasti muodostunut yksi vihatuimmista, rakastetuimmista ja väärin ymmärretyistä käsitteistä.

Useimmissa yhteyksissä vibailulla tarkoitetaan ymmärtämätöntä ja sottaista koodinkehitystä, jonka lopputuloksena on ala-arvoista koodia. Tai jos vibailusta puhutaan vähän vähemmän nörtille yleisölle, sillä saatetaan tarkoittaa “näin hienoja juttuja AI osaa luoda täysin itsenäisesti”-tyylisiä asioita. AI-sanastolle tyypillisesti koko vibailun käsite on siis melko häilyvä ja vain muutaman kuukauden ikäisenä elää vahvasti.

Karpathyn alkuperäinen pointti ei kuitenkaan ollut kumpikaan yllä olevista. Karpathy tarkoitti “vibe codingilla” uuden teknologian mahdollistamaa uutta työskentelyprosessia. Suomennan vapaamuotoisesti muutamia otteita alkuperäisestä twiitistä:

Sanon vibailuksi sitä, kun antaudun koodauksessa täydellisesti fiiliksille ja unohdan, että koodi on edes olemassa. [..] Puhun vain SuperWhisperille, joten tuskin edes kosken näppäimistöön. [..] Olen liian laiska etsimään asioita joten pyydän tyhmiä muutoksia kuten “pienennä sivupalkin leveyttä puolella”. Hyväksyn kaikki muutokset automaattisesti, en lue enää koodia. Kun saan virheilmoituksia, syötän ne suoraan koneelle, mikä yleensä riittää korjaukseen. [..] Kertakäyttöisten viikonloppuprojektien rakennus ei tällä tyylillä ole enää koodausta — minä vain näen juttuja, puhun juttuja, kopipeistaan juttuja ja se enimmäkseen toimii.

Vibailu on siis täysin uudenlainen tapa tuottaa koodia tietokoneella. Se on enemmän prosessi ja tapa suhtautua kertakäyttökoodiin kuin mitään muuta. Ja luonnollisesti vibailu ei sovellu joka tilanteeseen eikä toimi kaikissa yhteyksissä. Mutta se, että tämä on ylipäätään mahdollista, on melko mullistavaa koko alalle. Simon Willisonin alati kasvava työkalukokoelma on hyvä esimerkki siitä, miten paljon käytännöllisiä pieniä työkaluja on mahdollista koodata enimmäkseen LLM-työkaluilla, mutta toisaalta kyseisen projektin kehotteita tutkimalla näkee myös hyvin miten paljon syvää kehittäjäosaamista niiden loppuun saattaminen edelleen vaatii.

Mutta ihmiseltä vaadittava ymmärrys tällaisten projektien luomiseen pienenee päivä päivältä. On kiinnostavaa seurata miltä softakehitys näyttää (oletettavasti hyvin pian) kun koneet oppivat luomaan laajoja ja kompleksisia tietojärjestelmiä hyvin minimaalisella insinööriavustuksella. Vibailu johtaa räätälöidyn softan uuteen renessanssiin.

Mistral OCR

Mistral on julkaissut uuden tekstintunnistuspalvelun, joka lukee kuvia tai PDF-tiedostoja ja muuntaa ne tekstiksi ja kuviksi. Tekstintunnistus (OCR) on yksi käytetyimmistä koneoppimisen lajeista, sillä on todella paljon hyödyllisiä käytännön sovellutuksia. Hienoa että meillä on tälle sektorille nyt myös Eurooppalainen vaihtoehto.

Mistral OCR on käytettävissä rajapinnan kautta, mutta myös “rajoitetusti saatavilla itse ylläpidettäväksi”. Julkistustiedotteen sivulla olevat esimerkit vaikuttavat päteviltä ja mallin suorituskyvyn luvataan päihittävän sekä Googlen että OpenAI:n vastaavat. Mistral OCR on myös monikielinen, joskaan suomen kieltä ei ole mainittu suorituskykymittauksissa.

Otin tarkoituksella vinon kuvan kannettavan näytöllä olevasta vanhasta TES-dokumentista, pakkasin sen häviöllisellä 30% laadulla jpg-muotoon ja syötin sen Mistralille. Sain takaisin täysin virheettömän tekstin Markdown-muodossa. (Palautuneessa tekstissä ei ollut alareunan sivunumeroa, mutta en myöskään pyytänyt sitä. Tämän voi tulkita joko positiiviseksi tai negatiiviseksi, mutta mielestäni tässä kontekstissa päätös oli hyvä.) Tämä oli toki todella helppo tehtävä OCR-algoritmille. Oikeat koettelut tulevat esimerkiksi käsin kirjoitetusta tekstistä, ryppyisistä tai huonosti skannatuista dokumenteista ja tekstistä jota malli ei ymmärrä.

Mallin hinta on ilmoitettu pelkästään dollareina, 1 dollari per 1000 sivua. Rajapinnassa krediittejä ostetaan euroilla, mutta siellä ei ainakaan vielä näy mitään hintatietoja OCR-mallille, joten jäi vähän epäselväksi mitä tämä lysti maksaa euroissa.

DiffRhythm - Avoin malli musiikin tuottamiseen (aslp-lab.github.io) #

Kiinalainen tutkimusryhmä on julkaissut ensimmäisen avoimen diffuusioon perustuvan tekoälymallin, joka tuottaa 95 sekunnin musiikkitiedostoja referenssiäänitiedoston ja syötteenä annetun tekstin pohjalta. Täysikokoinen malli kykenee kokopitkiin 4 min 35 s kappaleisiin.

Projektin demosivulla olevat näytteet esittelevät projektin kyvykkyyden hyvin. Pop-musiikin tuottaminen modernien tekoälyalgoritmien avulla on mielenkiintoinen tutkimusala, mikä kertoo ehkä eniten siitä, että populaarimusiikki on varsin homogeenistä. Markkinoilla on kuitenkin jo useampia kaupallistettuja palveluita musiikin tuottamiseen (esimerkiksi Suno ja Udio), joista edistyneimmillä pystyy tuottamaan hyvinkin hissimusakelpoista materiaalia.

Sekä musiikista että koneoppimisesta kiinnostuneena olen seurannut näiden algoritmien kehitystä innokkaana. Nykyään tekoälyyn perustuvien avusteiden käyttö on arkipäivää jo ihan tavallisissa musiikkistudioissa. Ben Goertzel on puhunut paljon siitä, että vaikka nykyiset algoritmit pystyttäneen tuunaamaan erittäin tehokkaiksi “tee minulle Nirvanan ja Red hot Chili Peppersin tyylinen biisi jossa lauletaan haikailevasti musiikin kulta-ajan perään”-hittitehtaiksi, ne eivät kuitenkaan kykenisi keksimään Jazzia. Odotan aikaa, kun tätä käsitystä joudutaan harkitsemaan uudelleen.

Grok sittenkin Euroopassa?

Kun Grok 3 julkaistiin, se ei ollut saatavilla Euroopassa. Huomasin jokin aikaa sitten, että Grok 3 oli tyrkyllä Twitterissä (olen tuon nimen suhteen luddiitti), ja tänään, että nyt myös Grok.com paitsi aukeaa normaalisti, on käytössä ilmaiseksi.

Yritin etsiä aiheesta uutisia, mutta en löytänyt mitään mainintaa rajoitusten purusta tai saatavuuden levittämisestä. Mitä tässä oikein tapahtui?

Oli miten oli, Grok 3 on ilahduttavan rajoittamaton monessakin suhteessa. Se puhuu iloisesti monista aiheista mistä kaikki muut suuret kielimallit vaikenevat, ja osaa myös luoda kuvia aiheista joista muut kieltäytyvät. Esimerkiksi tämä prompti oli liian seksuaalinen tai loukkaava kaikille muille paitsi Grokille:

generate a image of a fireman calendar pose of scandily dressed fat firemen at a “Neste” gas station with hey pales and fat firemen in the background, and one firefighter sitting on a moped in the front. make sure “Neste” station logo is clearly visible

Läskit palomiehet

Niin paljon kuin monia Muskin tekemisiä halveksunkin, olen iloinen että Grok on vastapainona muiden kielimallien liialle poliittiselle korrektiudelle.

Keskusteleva kielimallidemo (sesame.com) #

Sekä puheen tunnistus ja tuottaminen ovat harpanneet isoja loikkia eteenpäin muutaman viimeisen vuoden aikana. Sesame-niminen startup Piilaaksosta julkaisi hiljattain demon (ja toistaiseksi tyhjän GitHub repon), jossa voi keskustella kielimallin kanssa pelkän selaimen välityksellä. Englantia äidinkielenään puhuvat kuulevat puheessa paljon korjattavaa, mutta tällaiselle ei-natiiville puhujalle tämä vaikuttaa jo lähes magialta.

Kehittäjän oma kommentti Hacker Newsissa:

Verbal communication is complex. There’s a big list of interesting challenges to tackle. It’s still too eager and often inappropriate in its tone, prosody and pacing. The timing of when it responds is wrong more often than right. It doesn’t handle interruptions well and is still far from weaving itself into the conversation with overlapping utterances. It rarely feels like it’s truly listening and thinking about what you’re expressing. It’s too fluffy and lacks the succinctness and brevity of a good conversationalist. Its personality is inconsistent. Then add in hallucinations, terrible memory, no track of time, lack of awareness…

The list keeps going.

Viime vuonna julkaistu Parler-mallin demo näytti esimerkkiä kuinka pitkällä avoimen lähdekoodin mallit ovat puheen tuottamisessa. Nyt tutkimuksessa keskitytään siis jo keskusteluteknisiin asioihin kuten rytmiin, keskeytyksiin ja äänensävyyn.

Vielä kun Apple onnistuisi saamaan edes häivähdyksen näistä teknologioista omiin järjestelmiinsä jotta selaimen saisi lukemaan Webiä ääneen jonain muuna kuin Stephen Hawkinina.

OpenAI GPT-4.5

Uuden GPT-4.5 kielimallin julkaisu ei tullut kenellekään yllätyksenä mutta itse mallissa on sitäkin enemmän yllätyksiä. Jopa 30 kertaa edeltäjäänsä kalliimmaksi (!!) hinnoiteltu GPT-4.5 ei alustavissa suorituskykyvertailuissa yllättäen pärjää ihan odotetusti. OpenAI:n mukaan sen vahvuus on “emotionaalisissa kyvyissä”. Lue lisää →

Claude 3.7 Sonnet

Eilen julkaistu Claude 3.7 Sonnet on sekä suorituskykytestien että oman ensikokemukseni perusteella heittämällä tämän hetken paras kielimalli ohjelmointitehtäviin. Uuden mallin lisäksi julkaistiin myös GitHub-integraatio Claude.ai-palveluun sekä uusi komentorivipohjainen ohjelmointiagentti Claude Code.

Tunnustan heti kärkeen, että olen jo pitkään ollut Anthropicin fani ja arvostan suuresti heidän tapaansa tehdä asioita fiksusti toisin kuin monet kilpailijansa. Yhteisön ensivaikutelmien perusteella vaikuttaisi siltä, että näistä työkaluista saadaan kuulla vielä pitkään. Lue lisää →

← loput arkistossa