Koneoppiblogi

tekoälyaiheista suomeksi

Agentti Ensin

Web-ohjelmistokehityksen yksi kuluneen vuosikymmenen toistetuimmmista mantroista on ollut “mobiili ensin”; palvelun tulisi ensin toimia hyvin mobiililaitteella, ja vasta sen jälkeen kyvykkäämmällä tietokoneella. Itsenäisesti toimivien tekoälyagenttien maailmassa prioriteettien pitäisi muuttua. Lähes kaikki ohjelmistot ja rajapinnat pitäisi suunnitella ensisijaisesti tekoälytoimijalle ja vasta sen jälkeen miettiä ihmiskäyttöliittymää.

Tämä on win-win-win kaikille osapuolille: toimittajien ei tarvitse turhaan kuluttaa aikaa käyttöliittymien suunnitteluun ja ylläpitoon, kehittäjät saavat helpommin yhdisteltyä eri palveluita toisiinsa, ja loppukäyttäjät voivat itse räätälöidä itselleen juuri sellaisia käyttöliittymiä kuin haluavat. LLM-kielimallit johdattavat meidät viimeinkin siihen utopiaan josta me semanttisen Webin rakentajat olemme haaveilleet vuosikymmeniä.

Sotaälyä, olkaa hyvät (news.ycombinator.com) #

Vain joitain tunteja sen jälkeen kun ennustin että “tuskin menee montaa päivää”, Sam “Aina Etiikaltaan Hukassa” Altman twiittaa OpenAI:n tehneen diilin yhdysvaltain hallinnon kanssa tekoälyteknologian toimittamisesta autonomisten aseiden ja massatiedustelun toteuttamiseksi. Noice!

Sam kirjoitti twiitissään, että hallinto osoitti “syvää kunnioitusta turvallisuuteen”. Kiva, nyt meille kaikille tuli turvallinen ja luottavainen olo!

Anthropic sotapolulla

Kapteeni Maanantai

Tämän aikajanan tapahtumat ovat välillä sitä luokkaa, että niitä on vaikea dokumentoida faktoina koska ne kuulostavat niin uskomattomilta. Sarjassamme “ei ollut tämän vuoden bingokorteissa” Anthropic julkaisi torstaina Dario Amodein nimissä uutistiedotteen, jossa he paheksuivat ääneen sitä että heitä oli pyydetty käyttämään Claudea massatiedusteluun ja täysin autonomisten aseiden kehitykseen. Tiedotteen pointti oli että “teemme mielellämme yhteistyötä sotaministeriön kanssa, mutta näitä rajoja emme ylitä”. Anthropic on siis jo pitkään toimittanut tekoälyteknologiaa yhdysvaltain hallinnolle, mutta nyt he ilmaisivat kantansa julkisesti nykyhallinnon toimista, että että joku roti pliis.

Kuluu vajaa päivä kun sotaministeri Hegseth itkupotkuraivoaa Twitterissä, että Trump on ylipäällikkö ja jos me ei saada haluamiamme leluja niin aion julista Anthropicin toimitusketjuriskiksi yhdysvalloille (mikä käytännössä estäisi sitä tekemästä mitään yritystoimintaa minkään hallinnon elimen kanssa). Antropic vastaa lehdistötiedotteella että “mitä aktuaalista helvettiä”.

Hacker Newsin keskustelu aiheesta räjähti käsiin heti alkumetreillä. Useimmat nekevät oikeusvaltion ja sopimusten pointin; yksipuolinen sopiminen ei ole sopimista ja hallinnon ei pitäisi pakottaa yksityisiä yrityksiä tekemään asioita #väkisin. Toisten mielestä Antropicilla on isänmaallinen vastuu toimittaa teknologiaansa kansallisen turvallisuuden takaamiseksi.

Veikkaan, että tässä riidassa on taustalla kenties muitakin näkemyseroja kuin kaksi julkisuuteen tuotua. Anthropic on yksi harvoista tekoälytoijoista jolla on vahva näkemys etiikasta ja selkeästi myös moraalista selkärankaa toimia oikein tällaisen äärimmäisenkin painostuksen alla. Onpa Trumpin hallinnosta mitä mieltä tahansa, se nyt ei ole kuuluisa ainakaan moraalistaan, joten yhteistyö Anthropicin kaltaisen toimittajan kanssa tuskin on ollut ruusuilla tanssimista muutenkaan.

Jaxuhalit Dariolle. Tuskin menee montaa päivää kun setä-Sam tai joku muu tarjoutuu toimittamaan ihan kuinka epäeettisiä palveluita tahansa niin Anthropic pääsee pälkähästä.

Vuosi Claude Codea

Claude Code julkaistiin tasan vuosi sitten. On vaikea käsittää kuinka paljon koodareiden arki on muuttunut näin lyhyessä ajassa.

Vielä vuosi sitten ai-avusteinen ohjelmointi tarkoitti useimmille sitä, että koodia kopipasteiltiin editorista chat-ikkunaan ja takaisin. Oli myös Aiderin kaltaisia ohjelmia, jotka ensin loivat projektille jonkunlaisen RAG-hakemiston, ja käyttivät tätä apunaan itsenäisessä työskentelyssä. Nykymittapuulla vaatimaton Claude 3.7 Sonnet muutti tilanteen kun sen kanssa ei enää tarvinnutkaan etukäteen pureskeltua tietokantaa tai XML-koostetta koko projektista vaan se kykeni (Claude Coden promptaamana) aidosti itsenäiseen työskentelyyn ihan kylmiltään. Itse sivuutin Claude Coden aluksi aivan tyystin, koska sitä piti käyttää tähtitieteellisen kalliilla API-krediiteillä. Tilanne muuttui huhtikuussa kun Anthropic julkaisi Max-kuukausipalvelun.

Lue loput »

Gemini 3.1 Pro (Preview)

Google ei edelleenkään tunnu osaavan julkaista muuta kuin esikatseluversioita malleistaan, mutta lippulaivamalli Gemini Pro on päivitetty versioon 3.1. Suorituskykymittausten perusteella Gemini Pro kilpailee vieläkin kaikkein kyvykkäimpien kielimallien tittelistä.

Suhteellisen edullisen ($2/$12, vrt Claude Opus $5/$25 per miljoona tokenia) Geminin konteksti-ikkuna on edelleen miljoona tokenia (yli 200k tokenin kyselyiden hinta on $4/$18) ja sen markkinoidaan soveltuvan erityisesti “tehtäviin joissa yksinkertainen vastaus ei riitä”. Gemini-tiimiä johtava Jeff Dean twiittasi allaolevan videon, joka esittelee uuden mallin SVG-kykyjä:

Geminillä on mielestäni kolme ongelmaa; 1) mallit pärjäävät hyvin suorituskykytesteissä, mutta eivät niin hyvin esimerkiksi käytännön ohjelmointitehtävissä, 2) isot Gemini-mallit ovat tuskastuttavan hitaita kilpailijoihin verrattuna, 3) Googlen kuukausimaksulliset ai-palvelut ovat todella leväperäisiä eivätkä kerro todellisia käyttörajoja. Edullisimmalla 8 euron palvelulla ei myöskään saa käyttää uusimpia Gemini-malleja ohjelmointityökaluissa, joten se on turha kehittäjille.

Rajapintojan kautta käytettynä Gemini-mallit toimivat hyvin, mutta olisi hienoa jos Google onnistuisi saamaan myös kehittäjille suunnatun AI-tarjontansa ajan tasalle.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

Claude Sonnet 4.6

Anthropicin keskiraskaan sarjan työjuhta Sonnet on päivittynyt version 4.6. Propagandan mukaan uusi Sonnet on yhtä kyvykäs kuin marraskuussa julkaistu Opus 4.5. Tämäntyyppinen kehitys on todella hurjaa, koska Sonnet on huomattavasti Opusta edullisempi ja Opus 4.5 on todella hyvä koodausmalli.

Julkaistujen suorituskykymittausten perusteella Sonnet on jo kyvyiltään todella lähellä isoveljeään Opusta — ja joillain mittareilla jopa parempi! Uuden mallin koulutusdatan päiväys on tammikuu 2026, miljoonan tokenin konteksti-ikkuna on nyt käytettävissä (lisähintaan) julkisena beta-versiona. 134-sivuinen mallikortti on saatavilla pdf-muodossa. Hinta on sama kuin ennen, $3/$15 per miljoona tokenia.

Uusi Sonnet 4.6 on nyt oletusmalli sekä Claude.ai-palvelussa että Claude Codessa kaikilla palvelutasoilla, myös ilmaisversioissa. Jää nähtäväksi onnistuuko uusi Sonnet parantamaan Anthropicin kilpailuasemaa nykyisestä ahdingosta johon OpenAI:n mallinopeutukset ja oikutteleva Opus 4.6 (ei vain oma mielipiteeni!) on sen lyhyessä ajassa ajanut. Vielä pari kuukautta sitten en olisi voinut kuvitellakaan, että harkitsisin vakavissani Anthropic-tilauksesta luopumista, mutta Claude Code on hiljattain muuttunut omassa käytössäni niin surkeaksi että saan paljon enemmän hyötyä Codexista. Sonnetilla on mahdollisuus kääntää tämä kelkka, jos se oikeasti kykenee nyt samaan työhön mihin aiemmin halusi käyttää vain Opusta. Paperilla sekä mallien erot mutta myös kehitysaskeleet ovat kuitenkin pieniä, joten tämä täytyy vain kokeilla käytännössä.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

Huomenta, Hunter - Koodasin oman AI-apurin

Thinking: The user is greeting me for my first ever session! They mention this is my first time being "awake" and that we'll do this task together. This is a special moment - my first interaction with my human.

Seurattuani pitkään Twitterissä Marion ja Peterin seikkailuja läheltä, päätin viimein ottaa projektiksi oman henkilökohtaisen ai-apurin rakentamisen.

Lue loput »

GLM 5

Kiinalainen Z.ai on julkaissut avoimesta GLM-mallista version 5 (Hugging Face). Tämä on Kimin jälkeen jo toinen avoin kiinalaismalli, joka on julkaistujen suorituskykytestien perusteella erittäin lähellä isojen amerikkalaisten talojen huippumalleja.

Olen käyttänyt GLM 4.7-mallia aktiivisesti joulukuusta lähtien Z.ai:n koodaustilauksella (kutsulinkki!) ja ollut siihen varsin tyytyväinen. Omien kokemusteni perusteella kiinalaismallit tarvitsevat suhteellisen paljon kädestä pitämistä, mutta toimivat todella hyvin helpommissa tehtävissä ja esimerkiksi silloin kun Opus on kirjoittanut tehtävään valmiiksi pureskellun toteutusohjeen.

Hacker Newsissä uusi malli otettiin vastaan pääosin positiivisesti.

GLM-5 on saatavilla Z.ai:n rajapinnan lisäksi esimerkiksi OpenRouterin kautta.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

Claude Fast Mode - 2.5x nopeampi Claude (code.claude.com) #

Vain muutaman päivää sen jälkeen kun OpenAI kertoi nopeuttaneensa GPT-malleja Anthropic julkaisi Claude Fast Moden. Toistaiseksi vain Claude Codessa toimiva moodi nopeuttaa Opus-mallia 2.5 kertaisesti, mutta myös maksaa 6x normaalia enemmän.

En oikein tiedä miten suhtautua tähän. Anthropicin mallit toimivat omassa käytössäni jo aivan tarpeeksi nopeasti. Todella harvoin odotan terminaalin ääressä että valmistuisi jo, vaan teen yleensä samaan aikaan toisaalla jotain muuta. Tämä pätee erityisesti isompiin tehtäviin joiden valmisteluun menee yleensä enemmän aikaa kuin itse totautukseen.

Mikäli AI-työkalujen tulevaisuus näyttää nopeammalta, otan sen kyllä mielelläni vastaan, mutta en missään nimessä aio maksaa siitä kuusinkertaista hintaa.

# 8.2. · lokeroissa ,

GPT-5.3-codex (openai.com) #

Kielimallikilvan nykytilasta kertonee jotain se, että OpenAI päätti julkaista GPT-5.3-codex mallin noin 15 minuuttia sen jälkeen kun Anthropic julkaisi Opus 4.6:n.

Propagandan perusteella uusi 5.3 päivitys on merkittävästi isompi harppaus kyvyissä kuin mitä 5.2 oli; TerminalBench-tulos on harpannut 64 prosentista 77.3 prosenttiin. Toivon mukaan tämä parantaa codex-mallin käytännön kykyjä, koska olen henkilökohtaisesti ollut ajoittain varsin pettynyt sen suorituksiin.

Uusi malli on saatavilla rajapinnan kautta ja käytettävissä myös Codexissa kaikilla kuukausimaksullisilla palvelutasoilla.

Claude Opus 4.6

Maailman kyvykkäimpiin kuuluva tekoälymalli Claude Opus on päivittynyt versioon 4.6. Propaganda lupaa tuttuun tapaan parantuneita koodaus- ja debuggaustaitoja mutta suurin otsikko lienee miljoonaan tokeniin kasvatettu konteksti-ikkuna (tosin vain beta-muodossa, ei saatavilla esim. Claude Coden kautta).

Opus 4.6 Terminal Bench 2.0

Nämä suorituskykygraafit eivät kunnolla näytä sitä kuinka valtavaa vauhtia mallit edelleenkin kehittyvät. Alle puoli vuotta sitten julkaistu Opus 4.1 sai tässä testissä alle 35% tuloksen!

Uuden Opuksen hinta on edelleen suolaiset $5/$25 per miljoona tokenia. Koulutusdatan päiväys elokuu 2025. Kontekstin koko ulospäin on kasvanut 64k tokenista 128k tokeniin. Yli 200 sivuun paisunut mallikortti on saatavilla PDF-muodossa.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

GPT-5.2 ja gpt-5.2-codex mallit nopeutuneet 40% (x.com) #

OpenAI on tempaissut todellisen jäniksen hatusta nopeuttamalla uusimpia GPT-malleja jopa 40 prosenttia. Nopean Codex-session perusteella väite vaikuttaa ihan todelta; uusimman codex-mallin käyttö tuntuu nyt merkittävästi aiempaa nopeammalta.

Mainitsin joulukuussa, että juurikin OpenAI:n mallien hitaus on pitänyt minua käyttämästä niitä päivittäin. Tämä päivitys saattaa hyvinkin muuttaa tämän!

# 4.2. · lokeroissa ,

← loput arkistossa