GPT-5 - Lupaukset vs todellisuus

Koko teknologiamaailma pidätti eilen hengitystään kun OpenAI julkaisi uuden GPT-5 -mallinsa. Tyylilleen uskollisesti Sam Altman twiittasi edeltävänä iltana koppavan kuvan Kuolemantähdestä ilman mitään selitystä. “AGI tulee - oletko valmis?”

Julkaisu oli monella tapaa historiallinen. OpenAI ehti hypettää kaiken mullistavan mallin tulemista lähes 2,5 vuotta, mutta julkaisustriimi (YouTube, 1h 17min) vaikutti kuitenkin siltä kuin se olisi valmisteltu pelkästään kesäharjoittelijoiden toimesta ilman mitään esivalmisteluja yhdessä iltapäivässä sillä aikaa kun Sam ja muut markkinointijehut puuteroivat vessassa neniään sinisilmäisten sijoittajien miljardien turvin. Harmittavasti myös itse malli vaikuttaisi olevan vain pieni parannus edelliseen — ei siis lähelläkään sitä hypeä jota kuukausitolkulla on rummutettu. Tämä oli suurin teknologiajulkaisufloppi mitä olen todistanut yli 25-vuotisen urani aikana.

Faktat

GPT-5 ei siis ole millään muotoa erityinen kielimalli. Se on askeleen edeltäjiään parempi, mutta hyvin pienen askeleen. OpenAI:n mukaan uusi malli on edeltäjiään nopeampi ja parempi lähes kaikilla osa-alueilla. Sen luvataan olevan merkittävästi parempi myös työkalujen käytössä ja ohjeiden noudattamisessa, mistä on apua mm. ohjelmoinnissa ja rajapintakäyttöön soveltamisessa.

Tyypillisen käytön näkökulmasta tärkeän konteksti-ikkunan koko on 400k, mikä on kaksinkertainen Anthropicin Claude-malleihin verrattuna, mutta alle puolet esim. Geminin ja GPT 4.1:n miljoonasta. Ulospäin GPT-5 pystyy suoltamaan 128k tokenia (Gemini 2.5 Pro ja Sonnet 4 64k, GPT 4.1 32k) mistä on hyötyä esimerkiksi isojen koodimuutosten kanssa työskentelyssä. GPT-5:n koulutusdatan päiväys on syyskuu 2024, mikä on yllättävän kaukana.

OpenAI on jakanut sen rajapintakäytön peräti neljään eri malliin: saatavilla on gpt-5, gpt-5-mini, gpt-5-nano, ja gpt-5-chat-latest. Allekirjoittaneelle ei sevinnyt että mitä eroa on em. listan ensimmäisellä ja viimeisellä. Mahdollisesti se, että kuluttajien näkemä ChatGPT-palvelu uudistuu julkaisun myötä siten, että aikaisemman manuaalisen mallivalinnan sijaan selaimelta tulevat kysymykset menevät nyt uudenlaiseen reitittimeen, joka ohjaa vastauksen optimoidusti tarkoitukseen parhaasti sopivalle mallille. Tämän pitäisi OpenAI:n mukaan sekä nopeuttaa vastauksia mutta myös parantaa niiden laatua (koska useimmat ei-nörtit eivät osaa tai viitsi valita malleja käsin).

Yksi merkittävä päivitys on uuden mallin hinta, joka on $1,25 sisään / $10 ulos / miljoona tokenia, eli saman hintainen kuin Googlen Gemini 2.5 ja lähes puolet edullisempi kuin $3/$15 Claude 4. Uusi GPT-5 on siis edullisempi kuin aiempi 4o. Simon Willisonin postauksessa on kattava taulukko eri mallien hinnoista.

Suorituskykytestien mukaan GPT-5 on tällä hetkellä paras tai yksi parhaista suurista kielimalleista useimmilla mittausalueilla. Ero kilpailijoihin on kuitenkin vain muutamien prosenttien luokkaa, joten arkikäytössä se tuskin tarjoaa mitään erityisen mullistavaa. Jos koodauskyky osoittautuu paremmaksi kuin Anthropicin malleilla, tämä on kuitenkin tervetullut päivitys alhaisemman hintansa vuoksi.

Isot propsit OpenAI:lle myös siitä, että tästäkin mallista julkaistiin samalla mallikortti (PDF), jossa on tarkempia taustietoja mallin käytöksestä.

Reaktiot

OpenAI ampui itseään jalkaan monumentaalisella tavalla käyttäen yli 29 kuukautta tietoiseen hypetykseen siitä miten maailmoja mullistava ihme GPT-5 tulee olemaan. Jos tämä olisi ollut tavallinen kielimallijulkaisu, normaali muutaman prosentin parannus edelliseen olisi otettu vastaan positiivisesti. Toisaalta 2,5 vuotta on todella pitkä aika munia näin pientä askelta, joten jotain muutakin on mennyt pahasti metsään.

Influensseri Theo Browne oli (ilmeisen kirjaimellisesti) myyty GPT-5:n kyvyistä. Hän twiittasi, että Claudet ja Geminit eivät ole enää relevantteja GPT-5:n myötä. Myös Simon Willisonille maksettiin osallistumisestaan kehittäjille suunnatun promovideon tekemiseen. Oletan kyynisesti, että kaikilla muillakin positiivisia kommentteja esittäneillä on käytössään ilmaisia OpenAI-krediittejä (koska suuren yleisön kokemukset vaikuttavat olevan täysin päinvastainen).

henriquegodoy-käyttäjän kommentti Hacker Newsissa kuvaa mielestäni yleistä reaktiota kaikkein parhaiten:

OpenAI:n käsitys pylväsdiagrammeista

SWE-bench -kaavio epäsuhtaisine pylväineen (jossa 52,8 % näytti suuremmalta kuin 69,1 %) oli tunnuksenomainen koko esitykselle – hätiköity ja vaisu. Tällaiseen virheeseen puututtaisiin missä tahansa sisäisessä katselmuksessa, mutta silti se nähdään miljardin dollarin tuotelanseerauksessa.

Julkaisustriimissä kehuttiin, että GPT-5 pystyy “tohtoritasoisiin” vastauksiin samalla kun se hallusinoi miten lentokoneen siipi toimii. “GPT-6 käy kysymässä foorumeilta tyttönä joka kaipaa apua koulutettävään” naljaili yksi käyttäjä.

“Ensikokemukset oikean koodiprojektin kanssa: kamala” twiittasi eräs käyttäjä, “uskomatonta miten ChatGPT muuttui olennaisesta roskaksi” kirjoitti toinen. Monet ChatGPT:n käyttäjät ovat myös pettyneitä vanhojen mallien poistamiseen. Itku on ensimmäisen vuorokauden aikana ollut niin äänekästä että OpenAI on jo luvannut tuoda vanhan 4o mallin jollain tavalla takaisin.

Olisi tämä julkaisu varmaan voinut jotenkin huonomminkin mennä, ei nyt vaan heti tule mieleen miten.

”Piirrä svg-kuva trailerilla olevasta veneestä”

GPT-5 -mallin näkemys trailerilla olevasta veneestä oli yhtä iso pettymys kuin itse julkistuskin.

Trailerilla oleva vene

Ajatuksia

Tästä julkaisusta jäi vahva “meidän on jumalauta pakko julkaista jotain NYT!!”-tyylisen paniikin maku. OpenAI on haalinut satoja miljardeja sijoituksia ja polttanut miljardeja tuotekehitykseen luvaten kuuta taivaalta kuitenkaan toimittamatta mitään erityisen paljon kiljailijoista poikkeavaa. Ja kun saamaan aikaan kiinalaiset kilpailijat osoittavat pystyvänsä kehittämään lähes samantasoisia malleja murto-osalla kustannuksista, on ymmärrettävää, että paine julkaista mitä tahansa on aika suuri. En vaan henkilökohtaisesti pysty ymmärtämään miten itse julkaisu onnistuttiin ryssimään näin täydellisesti.

Murskakritiikistä huolimatta olen varovaisen toiveikas kahden asian suhteen. Ensinnäkin toivottavasti GPT-5 osoittautuu kyvykkääksi oikean elämän käyttötapauksissa. Edulliset huippumallit parantavat kirjaimellisesti kaikkea. Toisekseen toivon, että OpenAI ottaisi tästä nöyryytyksestä opikseen. Sillä on edelleen kaikki edellytykset seuraavan oikean läpimurtoteknologian kehittämiseen, ja koko ala hyötyisi siitä, että hypeä olisi vähän vähemmän ja konkreettista edistystä enemmän. Ei pelkästään iteratiivisissa suurten kielimallien kehityksessä vaan aidosti uusissa innovaatioissa esimerkiksi jatkuvan oppimisen ja tietoturvan saralla.

Koneoppiblogi