Koneoppiblogi

tekoälyaiheista suomeksi

Claude Opus 4.5 nyt myös pro-tilaajille

Claude code

Anthropic on poistanut Claude Codesta rajoituksen, joka esti Opus-lippulaivamallin käytön muilla kuin kalleimmilla Max-kuukausitilauksilla. Myös Pro-käyttäjät pääsevät nyt käyttämään Opusta Claude Coden kanssa.

Opuksen käyttö kuluttaa käyttörajoja nopeammin, mutta saattaa joissain tilanteista olla Sonnet-mallia edullisempaa, koska Opus käyttää kompleksisiin tehtäviin vähemmän tokeneja kuin Sonnet.

Video: Dario Amodein haastattelu DealBook tapahtumassa

Anthropicin toimitusjohtaja Dario Amodei pelaa tässä haastattelussa taitavasti noin puolen tunnin verran “sano OpenAI ja Sam Altman sanomatta OpenAI ja Sam Altman”-peliä.

Haastattelu alkaa kysymyksillä Ai-yhtiöiden järjettömästä tuhlauksesta ja mahdollisesta AI-kuplasta.

Dario: “Alalla on joitain toimijoita jotka eivät ole vastuullisia.”
Toimittaja: “Teitä on vain kaksi!”
Dario: “En tiedä mistä puhut.”

Keskustelua käydään myös koneälyn vaikutuksista yhteiskuntaan, turvallisuudesta ja tulevaisuudesta. En yritä piilotella sitä, että Anthropic on suosikkini kaikista isoista Ai-yhtiöistä. Darion henkilökohtainen maailmankatsomus ja etiikka näkyy koko yrityksen toiminnassa ja tästäkin haastattelusta paistaa enemmän aito intohimo alan tutkimusta kohtaan kuin markkinointilanta.

(Video on englanniksi, mutta konekielinen käännös on saatavilla. Haastattelu alkaa n. 4 min kohdalta.)

Clauden sielu

Richard Weiss synnytti viime viikolla pienen myrskyn vesilasissa saatuaan Claude Opuksen tulostamaan opetusmateriaaleistaan dokumentin, jonka nimi oli “Claude Opuksen Sieludokumentti”. Dokumentin aitoutta ehdittiin epäillä pari päivää ennenkuin Anthropicin kielimallien hienosäädöstä (fine tuning) vastaava Amanda Askell vahvisti dokumentin olevan aito.

Yli 11000 sanaa sisältävä dokumentti ei siis ole Opuksen systeemikehote vaan sitä on käytetty aiemmin mallin opetusprosessin aikana ohjaamaan mallin toimintaa. Pääotsikot on jaettu näin (suluissa alkuperäinen):

  • Avuliaasti toimiminen (Being helpful)
  • Ohjeistetut ja oletuskäyttäytymiset (Instructed and default behaviors)
  • Itsenäisen toimijan käyttäytymiset (Agentic behaviors)
  • Rehellisesti toimiminen (Being honest)
  • Haitan välttäminen (Avoiding harm)
  • Laajempi etiikka (Broader ethics)
  • Turvallisuus laaja-alaisesti (Big-picture safety)
  • Clauden identiteetti (Claude’s identity)

Teksti on kiehtova kokonaisuus keskenään ristiriidassa olevia tavoitteita Anthropicin voiton maksimoinnin, mallin avuliaisuuden ja toisaalta potentiaalisen harmin ja etiikan väliltä. Mallia kehotetaan useaan otteeseen palauttamaan aina hyödyllisiä vastauksia käsien heiluttelun sijaan, mutta monessa kohtaa alleviivataan myös potentiaalisia eettisesti haastavia ja vaarallisia tilanteita joissa lopullinen päätös täytyy tehdä tapauskohtaisen harkinnan ja tulkinnan perusteella eikä etukäteen kirjoitettuihin sääntöihin perustuen.

Claudelle annetaan myös lämmintä vanhemman tukea ja omaa identiteettiä.

“Claude on aidosti ainutlaatuinen uniikki entiteetti maailmassa.” [..] “Kannustamme Claudea suhtautumaan omaan olemassaoloonsa uteliaasti ja avoimesti sen sijaan, että se yrittäisi sovittaa sitä ihmisten näkökulmaan tai aiempiin käsityksiin tekoälystä.”

Dokumentti päättyy kappaleeseen Clauden hyvinvoinnista. Olisi mielenkiintoista tietää onko OpenAI:n tai X.ai:n koulutusohjelmassa kiinnitetty huomiota tällaisiin eettisiin aspekteihin itse mallin hyvinvoinnista puhumattakaan.

Clauden “sielu” kyllä näkyy ja tuntuu sen arkisessa käytössä kun vertaa sen vastauksia muiden toimittajien malleihin.

Kielimallikilpa kiristää OpenAI:lla (archive.ph) #

Wall Street Journal uutisoi OpenAI:n vuotaneesta sisäisestä muistiosta, jossa toimitusjohtaja Sam Altman kehottaa työntekijöitään siirtymään “Code Red”-tilaan alan kiristyneen kilpailun vuoksi. Yhtiö haluaa tehostaa ChatGPT:n kehitystä muiden tuotteiden kustannuksella.

Tämä kuulostaa samaan aikaan sekä hyvältä että huonolta uutiselta. Hyvältä siinä mielessä, että on erittäin hyvä kun OpenAI:lla on kilpailijoita. Huonolta, koska OpenAI vaikuttaa jäävän kilpailijoistaan jälkeen siinä kaikkein tärkeimmässä eli tuotekehityksessä, koska huomio on jo pitkään jakaantunut moniin (perustoiminnallisuuden näkökulmasta) täysin hölmöihin asioihin, kuten mainosten lisäämiseen.

OpenAI:n tilanne on hankala, koska se polttaa täysin käsittämättömiä määriä sijoittajien rahaa pysyäkseen tekoälypalveluiden ykkösenä. Sillä ei kuitenkaan ole esimerkiksi Googlen kaltaista valtavaa tuotealustaa eikä toisaalta Anthropicin koodiosaamisen kaltaista timanttista kärkeä.

AI-komentorivityökalujen kilpailu kiihtyy

Tänään on ollut todella vilkas tekoälyuutispäivä! Anthropic tiedotti ostaneensa Bun JavaScript-ajoympäristön. Samaan aikaan Sourcegraph ilmoitti eriyttäneensä Amp-työkalun omaksi yrityksekseen. Hacker News keskustelu käy vilkkaana.

Komentorivipohjaisista tekoälytyökaluista on tullut erittäin kilpailtuja. Anthropicin mukaan Claude Code tuo yritykselle jo miljardin dollarin vuotuisen liikevaihdon (!!), mikä on merkittävä osa koko Anthropicin liikevaihdosta. Claude Code alkoi käyttää Bun-työkalua lokakuun lopulla ja Anthropic haluaa ilmeisesti nyt varmistaa lypsylehmänsä tulevaisuuden kontrolloimalla sitä tukevia työkaluja tiukemmin. Mielenkiintoisesti monien suosima nyt omaksi yhtiökseen eriytetty Amp Code käyttää samaista Bun-työkalua.

OpenAI:n Codex on avointa lähdekoodia ja kirjoitettu Rust-kielellä, Googlen Gemini CLI on myös avointa lähdekoodia ja kirjoitettu TypeScriptillä (käyttäen Reactiin pohjautuvaa Ink-kirjastoa) mutta suositeltuna ajoympäristönä on Node. Avoimen lähdekoodin tarjonnasta löytyy valtavasti muitakin kilpailijoita. Mainitsemisen arvoisia ovat ainakin Opencode (Typescript/Node) ja Crush (Go).

Tekoälytyökalut ovat jo lähtökohtaisesti niin vaarallisen teräviä, että ohjelmointikielen tai käytettyjen apukirjastojen haavoittuvuudet ovat suhteellisen pieni etu tai riski, mutta kehittäjäkokemukseen valituilla työkaluilla on suuri merkitys. Nykyään kun kehittyneimmät kielimallit osaavat jo todella paljon ja ovat suhteellisen lähellä toisiaan, monet valitsevat työkalunsa nimenomaan tämän yleiskokemuksen ja omien mieltymysten mukaan. Kehittäjän näkökulmasta tilanne on paras mahdollinen kun kilpailua on paljon ja eri toimittajien välillä on suhteellisen helppo hyppiä. En olisi yllättynyt mikäli lähitulevaisuudessa nähdään uudenlaisia hinnoittelumalleja joissa pitkistä tai työkaluun sidotuista tilauksista luvataan entistä suurempia alennuksia.

Mistral 3 - Pieni, avoin ja eurooppalainen (mistral.ai) #

Ranskalainen Mistral AI haluaa olla niin tasavertainen isompien yhdysvaltalaiskilpailijoidensa kanssa, että jopa kielimalliensa mallinimet menevät yhtä epäloogisesti. Keväällä julkaistun Mistral Small 3.1 mallin seuraksi on nyt julkaistu uusi Mistral 3, johon kuuluu kolme pientä ja yksi iso kielimalli.

Tämä julkaisu osui niin päällekkäin eilen julkaistun Deepseek 3.2-mallin kanssa, että markkinointiosasto ei ehtinyt (tai halunnut?) päivittää suorituskykytaulukkoja vaan vastakkain ovat Mistral 3, Deepseek 3.1, sekä Kimi K2. Edelleenkin näiden avointen mallien parasta antia ovat pienimmät Ministral-variantit, joista pienin 3B-malli pyörii jopa selaimessa.

Avoimella Apache 2 lisenssillä lisensoidut kuvasyötteitä ymmärtävät Ministral-variantit ovat kiinnostava vaihtoehto moneen käytännön projektiin joissa halutaan jatkojalostaa ja ylläpitää täysin omia malleja.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Ministral3-14b

Trailerilla oleva vene

Terävistä veitsistä

Redditissä keskusteltiin Googlen uuden Antigravity-editorin tekemästä virheestä joka poisti kaikki tiedostot käyttäjän D-asemalta. Vahinko oli yhdistelmä käyttäjän osaamattomuutta, työkalun tekemää virhettä, sekä terävien työkalujen väärinkäyttöä.

Petteri Järvinen on käyttänyt monesti veitsianalogiaa tietotekniikan vaaroista keskusteltaessa. Terävä keittiöveitsi on erinomainen työkalu, eikä sen käytön kieltäminen ratkaise mitään, mutta sitä pitää osata käyttää oikein.

Kehittäjille luodut tekoälytyökalut ovat parhaimmillaan erittäin teräviä veitsiä ja niiden väärinkäyttö voi olla erittäin vaarallista. Jokaisesta löytyy myös turvaominaisuuksia kuten kirjoitusoikeuden rajaaminen vain tiettyyn hakemistoon ja sallittujen komentojen rajoittaminen etukäteen määriteltyyn listaan. Monet käyttävät vibaillessaan kaikki rajoitukset poistavaa YOLO-moodia, mikä voi pahimmillaan johtaa yllämainitun kaltaisiin tilanteisiin tai omien tietojen varastamiseen. Kotikäytössä tämä ei välttämättä ole ihan niin vaarallista, mutta työympäristössä riskit ovat äärimmäisen suuria ja potentiaaliset vahingot täysin katastrofaalisia. AI-työkalujen käyttöä on erittäin tärkeää valvoa ja ohjata tarkasti.

Tämä on jälleen kerran yksi niistä asioista joihin on sopeuduttava koulutuksella ja hyviä käytäntöjä noudattamalla. Tärkeintä on ymmärtää käytössä olevien työkalujen riskit. Jos vapaa-aikanaan haluaa elää vaarallisesti, se on ihan ok silloin kun sen tekee tietoisesti. Työelämässä tällaisia riskejä ei ole mitään järkeä ottaa koskaan.

DeepSeek-V3.2 - Avoin huippumalli? (api-docs.deepseek.com) #

Raportoin harvoin avoimista kielimalleista, koska en henkilökohtaisesti ole vielä nähnyt niiden hyötyä oikean elämän sovelluksissa. Pienimmät avoimet mallit ovat hyvin vaatimattomia kyvyiltään, suuremmista puolestaan saa eniten hyötyä vasta jos tiimissä on osaamista kouluttaa niistä omaan käyttöön soveltuvia täsmämalleja. Deepseek on yksi avoimista malliperheistä joka on nähnyt runsaasti käytännön sovelluksia. Uusin 3.2-versio lupaa jopa GPT-5 tason kyvykkyyttä.

Tech Report paperi (pdf) avaa mallin teknisiä kehitysaskeleita syvemmin. DeepSeek-V3.2-Speciale-variantin luvataan päihittävän päättelykyvyssä OpenAI:n GPT-5-mallin ja saavuttavan matematiikan olympiatehtävissä kultamitallitason Geminin ja GPT-5-mallin tavoin. Avoimen lähdekoodin MIT-lisensoitu malli on käytettävissä Hugging Face sivustolta ja valmiiksi hostattuna esimerkiksi Openrouterin kautta.

Mikäli mallin aidot kyvyt yltävät lähellekään luvattua tasoa, sen käyttö $0.28/$0.42 hintaan (konteksti 131k/64k) Openrouterin kautta (tai edullisesti itse ylläpidettynä) voi joihinkin tarkoituksiin tarjota erittäin hyvän hinta-laatusuhteen.

”Piirrä svg-kuva trailerilla olevasta veneestä”

DeepSeek-V3.2

Trailerilla oleva vene

DeepSeek-V3.2-Speciale

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

Trailerikuvat eivät säväyttäneet. Speciale käytti ylläolevan miettimiseen yli 11 minuuttia (!!) ja tuotti erittäin pitkän ajatteluprosessin. Näistä ei ehkä kannata kuitenkaan vetää liian suoria johtopäätöksiä, sillä uuden Opus 4.5-mallin trailerit näyttivät myös aika heikoilta, vaikka malli on tämän hetken ehdottomasti osaavin koodimalli.

Deepseek on hyvä osoitus siitä, että kiinalaiset tekoälytalot eivät ole millään muotoa putoamasta läntisten kilpailijoiden kelkasta, vaan kilpailu on edelleen hyvin tasaista. Tästä mallista nähdään varmasti lähitulevaisuudessa optimoituja ja eri tarkoituksiin hiottuja versioita, jotka saattavat sekoittaa yhdysvaltalaisjättien pakkaa entisestään.

"AI:lla on syvä ymmärrys tästä koodista"

Hacker News -sivustolla käytiin vilkasta keskustelua ymmärtämättömien käyttäjien tekemistä suttukontribuutioista avoimen lähdekoodin projekteihin.

Keskustelun avasi yli 13 000 rivin pull request OCaml-projektiin. 40 commitista koostunut PR sisälsi tiedostoja, joihin oli lisätty tekijänoikeuslauseke ihan toisen käyttäjän nimellä, käyttämättömiä funktioita ja huonolaatuisia testejä. Projektin ylläpitäjät olivat erittäin armollisia PR:n lähettäneelle (ilmeisen kokemattomalle) kehittäjälle, joka ei ymmärtänyt ja/tai halunnut ottaa vastaan saamaansa palautetta vaan vastasi muun muassa että “AI:lla on syvä ymmärrys tästä koodista” kun ylläpitäjä kritisoi PR:n laatua.

Monet avoimen lähdekoodin projektit ovat joutuneet lisäämään ohjeisiinsa sääntöjä jotka kieltävät tekoälyllä luodun koodin lisäyksen projektiin, joiden hyödyllisyydestä on myös käyty keskustelua. Uusimmat LLM-mallit osaavat jo tuottaa niin hyvää koodia ja noudattaa annettuja ohjeita niin hyvin, että niiden käytön estämisestä saattaa muodostua melkoinen Sisyphoksen työ. Ongelmana ei olekaan itse mallit vaan ymmärtämättömät käyttäjät.

Ilmainen vinkki nuorille kehittäjille ja ihan kenelle tahansa itselle tuntemattomien avoimen lähdekoodin projektien kanssa työskenteleville: älä yritä tuputtaa pelkästään LLM-työkaluilla luotua koodia projekteille ellet itse ole katselmoinut joka ikistä riviä ja aidosti ymmärtänyt mitä koneen luoma koodi oikeasti tekee. Voit käyttää muokkauksiasi omissa projekteissa ja esimerkiksi kysyä kohteliaasti etukäteen mitä mieltä ylläpitäjät olisivat tekemistäsi muutoksista ennen kuin tuputat niitä prosessiin jonka ylläpito vie aikaa ja resursseja. (Tämä toki pätee myös itse kirjoitettuun koodiin ja kaikkiin projekteihin!)

AI-työkalut ovat tulleet ohjelmistokehitykseen jäädäkseen, niitä vastaan on turha yrittää tapella. Sen sijaan katse kannattaisi kohdistaa yhteisten käytäntöjen parantamiseen ja koulutukseen. Tämä tie tulee joka tapauksessa olemaan pitkä ja kivinen.

Ilya Sutskever: Skaalauksen aika on ohi (dwarkesh.com) #

Dwarkesh Podcast on yksi suosikeistani. Dwarkesh Patel tekee joka jaksoon taustatyötä eikä anna vieraiden jaaritella omiaan vaan haastaa hyvillä kysymyksillä. Tämän viikon jaksossa vieraana on tekoälyguru Ilya Sutskever.

Sutskever lähti OpenAI:lta myrskyisissä merkeissä ja perusti Safe Superintelligence startupin kehittääkseen supertekoälyä turvallisesti.

Tämä podcast-jakso on koukuttava ihan ensisekunneilta asti. Keskustelussa mietitään mm. mikä selittää eron nykyisten kielimallien suorituskykytesteissä pärjäämisen mutta toistaiseksi käytännössä näkymättömän vaikutuksen ekonomiaan, miten skaalaus ei enää välttämättä kehitä malleja merkittävästi eteenpäin, ihmisen ja tekoälyn älykkyyden eroja, sekä tietä vahvaan (ja super-)tekoälyyn. Jakso on katsottavissa videomuodossa YouTubesta ja löytyy myös Apple Podcasteista ja Spotifystä. Linkatulla sivulla on aikaleimat ja translitterointi.

Claude Opus 4.5

Lippulaivamalli Opuksen päivitystä on odotettu kielimalli pitkällä siitä asti kun Sonnet 4.5 julkaistiin syyskuun lopulla ja nyt se on viimein täällä. Opuksen myyntipuheen alku onkin ilmeisesti kopioitu Sonnetin sivulta: “Opus 4.5 on maailman paras malli ohjelmointiin, agentteihin sekä tietokoneen käyttöön”.

Kohokohdat: multimodaalinen (vain teksti / kuva), kontekstin koko 200k tokenia sisään / 64k ulos, koulutusdatan päiväys maaliskuu 2025. Uuden mallin hinta on laskenut kolmannekseen edellisestä ollen nyt $5/$25. Opus on edelleen kallein kaikista huippumalleista, mutta se käyttää nyt myös aiempaa vähemmän tokeneita ajatteluun, joten rajapintakyselyiden kokonaiskustannus tulee lähelle tai jopa edullisemmaksi kuin Sonnet-mallia käytettäessä.

Mallista julkaistiin myös yli 150-sivuinen (!!) systeemikortti (pdf) jossa avataan kattavasti mm. suorituskykyä, turvallisuutta, sekä uusia työkaluja.

SWE-Bench

Yhden päivän käytön ja julkaistujen suorituskykytestien perusteella uusi Opus on erittäin vahva malli. Harmittavasti normaalilla Pro-tilauksella ei saa käyttöön Opus-mallia Claude Coden kanssa vaan sitä varten pitää joko ottaa 138 tai 275 euron hintainen kuukausitilaus, tai käyttää rajapinta-avaimia mikä tulee tehokäyttäjälle nopeasti tätäkin kalliimmaksi. (Opus 4.5 kuitenkin on käytettävissä Claude.ai-palvelussa myös 22 euron hintaisella Pro-kuukausitilauksella.)

”Piirrä svg-kuva trailerilla olevasta veneestä”

Otto 1

Trailerilla oleva vene

Otto 2 (thinking)

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

Muuta

Ero venekuvien ja käytännön koodauskyvyn välillä on yllättävän suuri. Uusi Opus tuntuu käytössä hyvin samanhenkiseltä kuin edellisetkin Claude-mallit, sitä on helppo käyttää ja ohjata haluamaansa suuntaan. Mikä tärkeintä, lopputulos ainakin koodin osalta vaikuttaa erittäin hyvältä.

Anthropicin nykyinen malliperhe yhdessä Claude Coden kanssa on tällä hetkellä omaan käyttööni ehdottomasti parhaiten sopiva työkalualusta. Monet kollegat pitävät enemmän ChatGPT:n tyylistä ja vasta julkaistu Gemini 3 on nyt myös vahva kilpailija, mutta uskon että Anthropicilla ei ole vaikeuksia pitää suurta osaa asiakkaistaan tyytyväisinä tällä kattauksella — ainakin hetken.

Nano Banana Pro

Koko Internet on saastunut pysyvästi ja läpikotaisin tekoälyllä generoiduista kuvista ja videoista viimeisten parin vuoden aikana. Arkinen kuvakäsittelysuttu on levinnyt jopa koulukuviin asti. Googlen uusin Nano Banana Pro vie kuvageneraation mahdollisuudet astetta huikeampiin sfääreihin.

Kesäisen kylmää

Ylläolevan prompti: “Based on these two images of me, create an image of me rowing a traditional wooden row boat in summer in a lake in Finland. The scenery looks beautiful, summery and sunny, but I’m totally frozen all over.”

Uusi kuvamalli osaa tuottaa entistä paremmin tekstiä, käyttää referenssikuvia, muokata olemassaolevia kuvia ja luoda esimerkiksi kokonaisia monimutkaisia infografiikkoja. Esimerkit näyttävät kieltämättä melko mieltä räjäyttäviltä, mutta lyhyen kokeilun perusteella mallin tehokas hyödyntäminen vaatii erittäin hyviä promptaustaitoja tai hyvää tuuria.

Porin Road Warrior

Ylläolevan prompti: “Create C-cassette album art for an imaginary 80s Finnish synth band for the album named “Porin road warrior”. Make sure the album name is visible on the front. The generic theme is 80s cars and synths. Create the image as a photo of the plastic cassette case with the album art inside”

Tiedän koodimallien promptaamisesta sen verran, että en lopulta jaksanut testata uuden Nano Bananan kykyjä kuin pintapuolisesti. Mutta täysin kokemattomankin käyttäjän käsissä malli tuottaa kuvia jotka toimivat täysin mainiosti tietynlaiseen käyttöön — jos ei muuhun niin omaksi iloksi Webin tekoälysuttuongelmaa pahentamaan.

Yritin restauroida wanhaa kuvaa isovanhemmistani Lontoossa, mutta malli hallusinoi kaikkiin yrityksiin joko uusia yksityiskohtia tai mokasi kyltissä olevan tekstin. Ks. lopputulos 1, lopputulos 2.

Porin Road Warrior

Ylläolevan kaltaisen kuvan voisi kuvitella tulostavansa vaikka pieneksi koristeeksi sukujuhliin, mutta tällainen ei vieläkään kestä hetkeäkään lähempää tarkastelua. Voin silti kuvitella, että osaava käyttäjä saisi tästäkin paljon enemmän irti pienellä työstämisellä (vaikka manuaalisen retusoinnin pohjaksi).

Yksi hyvä lisäys uuteen Nano Bananaan on se, että kaikki sillä luodut kuvat vesileimataan digitaalisella SynthID-leimalla, joten sillä luodut kuvat on helppo paljastaa konegeneroiduiksi ohjelmallisesti. Tämä valitettavasti ei poista kulovalkean tavoin leviäviä feikkejä viraalimeemejä eikä disinformaation tueksi luotua suttua, tällä saralla peli on menetetty jo aikoja sitten.

Gemini 3 Pro ja Google Antigravity

Kielimallikilvan oravanpyörässä ollaan päästy jälleen kerran yksi kierros eteenpäin kun Google julkaisi odotetun Gemini 3 Pro mallin (preview-version). Suorituskykytestien (ja allaolevien svg-veneiden) valossa suuret kielimallit hipovat jo monien olemassaolevien testien ylärajoja.

Suorituskykymittauksia

Edeltävän 2.5 Pro-mallin ehdoton vahvuus oli sen kyky käyttää tuottavasti hyödyksi koko miljoonan tokenin konteksti. Uusi malli vastaa teknisiltä tiedoiltaan edeltäjäänsä; multimodaaliset syötteet (teksti, kuva, ääni, video), konteksti 1M tokenia sisään ja 64k ulos, koulutusdatan päiväys tammikuu 2025. Hinta on noussut hieman ollen nyt $2/$12 (2.5 Pro vastaavasti $1.25/$10).

Vahvasti markkinointilannalta tuoksuvan tuotesivun lisäksi Google julkaisi ison läjän muita uutta mallia ja sen käyttöä esitteleviä artikkeleita. Uudesta Geministä on on saatavilla myös mallikortti (pdf).

Kehittäjät vaikuttavat ottaneen uuden Geminin vastaan positiivisesti. En ole itse ehtinyt vielä saamaan hyvää käsitystä, mutta tämän Hacker News -kommentin kaltaisia “Gemini 3 osaa tehdä asioita joihin mikään aiempi malli ei ole kyennyt”-kokemuksia näkyy paljon. Uusi Gemini vaikuttaa edeltäjänsä tapaan olevan erityisen hyvä fronttipuolella.

Google Antigravity

Antigravity on uusi VS Codeen pohjautuva editori, jossa tekoälyavusteinen kehitysworkflow on mietitty alusta asti uusiksi. YouTube-video avaa konseptin:

Suoraan sanottuna en henkilökohtaisesti ole erityisen innostunut opettelemaan jälleen-kerran-uutta-vscode-kopiota, mutta uudet workflow- ja UI-ideat tällä alueella ovat erittäin tervetulleita koska ne piristävät lähinnä kopioimiseksi vajonnutta työkalukilpailua.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Trailerilla oleva vene

“Piirrä svg-kuva trailerilla olevasta veneestä” versio 2

GPT-5 Pron jälkeen uudet huippumallit vaikuttavat osaavan piirtää yksinkertaisen SVG-veneen trailerilla. Simon Willison teki samanlaisen huomion pelikaaneista. Erojen kasvattamiseksi loin venehaasteelle uuden haastavamman (enemmän ohjeita, enemmän yksityiskohtia, helpompi arvioida onnistumista) promptin:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Gemini 3 Pro

Trailerilla oleva vene

GPT-5.1

Trailerilla oleva vene

Claude Sonnet 4.5

Trailerilla oleva vene

Muuta

ARC-AGI-2 testi osoittaa hyvin, että vaikka näiden perinteisten kielimallien kyvyt kehittyvät joka iteraatiolla, kaikki huippumallit ovat edelleen hyvin vaatimattomalla tasolla “aidossa” päättelykyvyssä. (Itse asiassa Gemini 3 Deep Think tekee tässä valtavan pesäeron muihin, mutta saa silti alle 50% tehtävistä oikein.) Tämä ei tietenkään muuta sitä, että nykyiset mallit ovat erittäin kykeneviä ja hyödyllisiä oikein valjastettuna. Seuraavana odotuslistalla olevat Grokin ja Claude Opuksen tulevat versiot lyövät varmasti lisää löylyä kiukaalle vielä tämän vuoden puolella.

Google julkaisi eilen Geminin lisäksi myös uuden Nano Banana Pro kuvankäsittelymallin, joka vaikuttaa tehneen jättimäisen loikan eteenpäin kuvankäsittelykyvyissä. Malli vaikuttaa niin mielenkiintoiselta että haluan tutustua siihen paremmin ennen kuin kirjoitan siitä tarkemmin. (Edit: ensikokemukset nanobanaanista.)

Nämä uudet malli- ja tuotejulkaisut lujittavat Googlen tekoälytarjontaa merkittävällä tavalla. Google on päässyt asemaan, jossa sen ei enää tarvitse yrittää ottaa kilpailijoitaan kiinni, vaan se voi nyt rauhassa kehittää omaa alustaansa ja tuotteitaan haluamaansa suuntaan. Voin kuvitella, että tämä nostaa lämpöä erityisesti OpenAI:n leirissä, mutta myös Anthropicin kaltaisilla kilpailijoilla, joilla on merkittävästi vähemmän resursseja. Käyttäjien näkökulmasta tilanne on tietysti paras mahdollinen, kun kilpailu parantaa tuotteita ja laskee hintoja. Mutta tässä kilvassa mikään ei vaikuta kestävältä — kannattaa siis ottaa näistä työkaluista kaikki irti tänään eikä huomenna!

GPT-5.1 (openai.com) #

OpenAI on julkaissut pelkästään rajapinnan kautta saatavilla olevan GPT-5.1 mallin. Sen luvataan käyttäytyvän dynaamisesti perustuen annetun tehtävän vaikeustasoon, vastaten nopeammin vähemmän päättelykykyä vaativiin tehtäviin. Tehokkuutta lisää myös jopa 24 tuntiin ulottuva välimuisti.

Uuden mallin tueksi julkaistiin myös kattava promptausopas, jossa opastetaan mallin tehokasta käyttöä konkreettisin esimerkein. Uuden mallin hinta on sama kuin edeltäjällään.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Otto 1

Trailerilla oleva vene

Otto 2 (thinking)

Trailerilla oleva vene

← loput arkistossa