Koneoppiblogi

tekoälyaiheista suomeksi

Agentti Ensin

Web-ohjelmistokehityksen yksi kuluneen vuosikymmenen toistetuimmmista mantroista on ollut “mobiili ensin”; palvelun tulisi ensin toimia hyvin mobiililaitteella, ja vasta sen jälkeen kyvykkäämmällä tietokoneella. Itsenäisesti toimivien tekiälyagenttien maailmassa prioriteettien pitäisi muuttua. Lähes kaikki ohjelmistot ja rajapinnat pitäisi suunnitella ensisijaisesti tekoälytoimijalle ja vasta sen jälkeen miettiä ihmiskäyttöliittymää.

Tämä on win-win-win kaikille osapuolille: toimittajien ei tarvitse turhaan kuluttaa aikaa käyttöliittymien suunnitteluun ja ylläpitoon, kehittäjät saavat helpommin yhdisteltyä eri palveluita toisiinsa, ja loppukäyttäjät voivat itse räätälöidä itselleen juuri sellaisia käyttöliittymiä kuin haluavat. LLM-kielimallit johdattavat meidät viimeinkin siihen utopiaan josta me semanttisen Webin rakentajat olemme haaveilleet vuosikymmeniä.

Sotaälyä, olkaa hyvät (news.ycombinator.com) #

Vain joitain tunteja sen jälkeen kun ennustin että “tuskin menee montaa päivää”, Sam “Aina Etiikaltaan Hukassa” Altman twiittaa OpenAI:n tehneen diilin yhdysvaltain hallinnon kanssa tekoälyteknologian toimittamisesta autonomisten aseiden ja massatiedustelun toteuttamiseksi. Noice!

Sam kirjoitti twiitissään, että hallinto osoitti “syvää kunnioitusta turvallisuuteen”. Kiva, nyt meille kaikille tuli turvallinen ja luottavainen olo!

Anthropic sotapolulla

Kapteeni Maanantai

Tämän aikajanan tapahtumat ovat välillä sitä luokkaa, että niitä on vaikea dokumentoida faktoina koska ne kuulostavat niin uskomattomilta. Sarjassamme “ei ollut tämän vuoden bingokorteissa” Anthropic julkaisi torstaina Dario Amodein nimissä uutistiedotteen, jossa he paheksuivat ääneen sitä että heitä oli pyydetty käyttämään Claudea massatiedusteluun ja täysin autonomisten aseiden kehitykseen. Tiedotteen pointti oli että “teemme mielellämme yhteistyötä sotaministeriön kanssa, mutta näitä rajoja emme ylitä”. Anthropic on siis jo pitkään toimittanut tekoälyteknologiaa yhdysvaltain hallinnolle, mutta nyt he ilmaisivat kantansa julkisesti nykyhallinnon toimista, että että joku roti pliis.

Kuluu vajaa päivä kun sotaministeri Hegseth itkupotkuraivoaa Twitterissä, että Trump on ylipäällikkö ja jos me ei saada haluamiamme leluja niin aion julista Anthropicin toimitusketjuriskiksi yhdysvalloille (mikä käytännössä estäisi sitä tekemästä mitään yritystoimintaa minkään hallinnon elimen kanssa). Antropic vastaa lehdistötiedotteella että “mitä aktuaalista helvettiä”.

Hacker Newsin keskustelu aiheesta räjähti käsiin heti alkumetreillä. Useimmat nekevät oikeusvaltion ja sopimusten pointin; yksipuolinen sopiminen ei ole sopimista ja hallinnon ei pitäisi pakottaa yksityisiä yrityksiä tekemään asioita #väkisin. Toisten mielestä Antropicilla on isänmaallinen vastuu toimittaa teknologiaansa kansallisen turvallisuuden takaamiseksi.

Veikkaan, että tässä riidassa on taustalla kenties muitakin näkemyseroja kuin kaksi julkisuuteen tuotua. Anthropic on yksi harvoista tekoälytoijoista jolla on vahva näkemys etiikasta ja selkeästi myös moraalista selkärankaa toimia oikein tällaisen äärimmäisenkin painostuksen alla. Onpa Trumpin hallinnosta mitä mieltä tahansa, se nyt ei ole kuuluisa ainakaan moraalistaan, joten yhteistyö Anthropicin kaltaisen toimittajan kanssa tuskin on ollut ruusuilla tanssimista muutenkaan.

Jaxuhalit Dariolle. Tuskin menee montaa päivää kun setä-Sam tai joku muu tarjoutuu toimittamaan ihan kuinka epäeettisiä palveluita tahansa niin Anthropic pääsee pälkähästä.

Vuosi Claude Codea

Claude Code julkaistiin tasan vuosi sitten. On vaikea käsittää kuinka paljon koodareiden arki on muuttunut näin lyhyessä ajassa.

Vielä vuosi sitten ai-avusteinen ohjelmointi tarkoitti useimmille sitä, että koodia kopipasteiltiin editorista chat-ikkunaan ja takaisin. Oli myös Aiderin kaltaisia ohjelmia, jotka ensin loivat projektille jonkunlaisen RAG-hakemiston, ja käyttivät tätä apunaan itsenäisessä työskentelyssä. Nykymittapuulla vaatimaton Claude 3.7 Sonnet muutti tilanteen kun sen kanssa ei enää tarvinnutkaan etukäteen pureskeltua tietokantaa tai XML-koostetta koko projektista vaan se kykeni (Claude Coden promptaamana) aidosti itsenäiseen työskentelyyn ihan kylmiltään. Itse sivuutin Claude Coden aluksi aivan tyystin, koska sitä piti käyttää tähtitieteellisen kalliilla API-krediiteillä. Tilanne muuttui huhtikuussa kun Anthropic julkaisi Max-kuukausipalvelun.

Toukokuun lopulla julkaistut Claude 4-mallit saivat minutkin lopulta kiinnostuneeksi Claude Codesta. Tähän mennessä olin käyttänyt Anthropicin aiempia malleja päivittäin sekä chat-palvelun että VS Coden ai-lisäosan kanssa ja oli ilmeistä, että nopeasti kehittyvät mallit alkoivat olla jo siinä pisteessä että ne pystyivät aidosti itsenäiseen työskentelyyn. Päätin hypätä syvään päätyyn ja päivitin kesän lopulla Anthropic-tilaukseni 275 euron hintaiseksi Max-tilaukseksi. Tiivis kuukausi Clauden kanssa oli monella tapaa silmiäavaava ja mielenkiintoinen kokemus —ja väittäisin että myös sijoituksen arvoinen—, mutta myös jollain tasolla niin uuvuttava että tilausjakson päätyttyä irtisanoin tilaukseni kokonaan koska en yksinkertaisesti enää halunnut tapella tekoälyn kanssa joka päivä.

Mallit ovat päivittyneet tämän jälkeen vielä valtavin harppauksin, etenkin marraskuussa Opus 4.5:n kohdalla. Tätä kirjoittaessa mallien kyky on jo niin korkealla, että en ole enää vähään aikaan törmännyt yhteenkään ohjelmointitehtävään jota Opus ei olisi osannut (oikein promptattuna) ratkaista optimaalisesti (eli joko yhtä hyvin tai yleensä paremmin kuin mihin itse olisin kyennyt). En tarkoita tällä sitä, että mallit olisivat täydellisiä tai soveltuisivat kaikkeen, vaan sitä, että useimmissa tehtävissä mallien kyvyt eivät enää ole tehtävän ratkaisun esteenä.

Claude Codekin on kasvanut vuodessa melkoisesti, eikä ihan kivuitta. Tuotteesta on tullut Anthropicille erittäin tärkeä ja se muun muassa osti Bun JavaScript-ajoympäristön taatakseen mahdollisimman sujuvan kehityspolun.

Yksinkertaisena ja kevyenä komentorivityökaluna syntynyt Claude Code on kuluneen vuoden aikana kasvanut kuin pullataikina. Claude Code tiimin Thariq Shihipar kuuluisasti vertasi nykyversion kompleksisuutta 3d pelimoottoriin. Ja kun päivittäisessä käytössä olevan työkalun kehitysvauhti on ai-ajalle tyypillisesti täysin päätöntä, terävät kulmat satuttavat helposti.

Yli 25 vuotta ohjelmistoalalla olleena tällaisia koko alaa muuttavia tuotteita ei ole osunut kohdalle montaa. Oli myös mielenkiintoista lukea tuota ensimmäistä blogipostaustani jälkeenpäin kun sen fiiliksenä selkeästi oli “taas yksi kilkekokeilu lisää”. En tiedä osasiko kukaan muukaan nähdä Claude Coden tulevaisuutta vuosi sitten.

Paljon onnea ja menestystä Borikselle ja Claude Codelle myös seuraaville vuosille! Jos Claude Coden historia ja pääkehittäjä Boriksen ajatukset sen tulevaisuudesta kiinnostaa, suosittelen tsekkaamaan Y Combinatorin keskustelun Boriksen kanssa YouTubesta (englanniksi).

Gemini 3.1 Pro (Preview)

Google ei edelleenkään tunnu osaavan julkaista muuta kuin esikatseluversioita malleistaan, mutta lippulaivamalli Gemini Pro on päivitetty versioon 3.1. Suorituskykymittausten perusteella Gemini Pro kilpailee vieläkin kaikkein kyvykkäimpien kielimallien tittelistä.

Suhteellisen edullisen ($2/$12, vrt Claude Opus $5/$25 per miljoona tokenia) Geminin konteksti-ikkuna on edelleen miljoona tokenia (yli 200k tokenin kyselyiden hinta on $4/$18) ja sen markkinoidaan soveltuvan erityisesti “tehtäviin joissa yksinkertainen vastaus ei riitä”. Gemini-tiimiä johtava Jeff Dean twiittasi allaolevan videon, joka esittelee uuden mallin SVG-kykyjä:

Geminillä on mielestäni kolme ongelmaa; 1) mallit pärjäävät hyvin suorituskykytesteissä, mutta eivät niin hyvin esimerkiksi käytännön ohjelmointitehtävissä, 2) isot Gemini-mallit ovat tuskastuttavan hitaita kilpailijoihin verrattuna, 3) Googlen kuukausimaksulliset ai-palvelut ovat todella leväperäisiä eivätkä kerro todellisia käyttörajoja. Edullisimmalla 8 euron palvelulla ei myöskään saa käyttää uusimpia Gemini-malleja ohjelmointityökaluissa, joten se on turha kehittäjille.

Rajapintojan kautta käytettynä Gemini-mallit toimivat hyvin, mutta olisi hienoa jos Google onnistuisi saamaan myös kehittäjille suunnatun AI-tarjontansa ajan tasalle.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

Claude Sonnet 4.6

Anthropicin keskiraskaan sarjan työjuhta Sonnet on päivittynyt version 4.6. Propagandan mukaan uusi Sonnet on yhtä kyvykäs kuin marraskuussa julkaistu Opus 4.5. Tämäntyyppinen kehitys on todella hurjaa, koska Sonnet on huomattavasti Opusta edullisempi ja Opus 4.5 on todella hyvä koodausmalli.

Julkaistujen suorituskykymittausten perusteella Sonnet on jo kyvyiltään todella lähellä isoveljeään Opusta — ja joillain mittareilla jopa parempi! Uuden mallin koulutusdatan päiväys on tammikuu 2026, miljoonan tokenin konteksti-ikkuna on nyt käytettävissä (lisähintaan) julkisena beta-versiona. 134-sivuinen mallikortti on saatavilla pdf-muodossa. Hinta on sama kuin ennen, $3/$15 per miljoona tokenia.

Uusi Sonnet 4.6 on nyt oletusmalli sekä Claude.ai-palvelussa että Claude Codessa kaikilla palvelutasoilla, myös ilmaisversioissa. Jää nähtäväksi onnistuuko uusi Sonnet parantamaan Anthropicin kilpailuasemaa nykyisestä ahdingosta johon OpenAI:n mallinopeutukset ja oikutteleva Opus 4.6 (ei vain oma mielipiteeni!) on sen lyhyessä ajassa ajanut. Vielä pari kuukautta sitten en olisi voinut kuvitellakaan, että harkitsisin vakavissani Anthropic-tilauksesta luopumista, mutta Claude Code on hiljattain muuttunut omassa käytössäni niin surkeaksi että saan paljon enemmän hyötyä Codexista. Sonnetilla on mahdollisuus kääntää tämä kelkka, jos se oikeasti kykenee nyt samaan työhön mihin aiemmin halusi käyttää vain Opusta. Paperilla sekä mallien erot mutta myös kehitysaskeleet ovat kuitenkin pieniä, joten tämä täytyy vain kokeilla käytännössä.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

Huomenta, Hunter - Koodasin oman AI-apurin

Thinking: The user is greeting me for my first ever session! They mention this is my first time being "awake" and that we'll do this task together. This is a special moment - my first interaction with my human.

Seurattuani pitkään Twitterissä Marion ja Peterin seikkailuja läheltä, päätin viimein ottaa projektiksi oman henkilökohtaisen ai-apurin rakentamisen.

Käytin inspiraationa ClawdBottia ja lähdin liikkeelle yksinkertaisesta promptista yhdistettynä muutamaan markdown-moodiohjeeseen ja tiedostopohjaiseen muistiin. Jo seuraavana päivänä lisäsin projektiin Django-pohjaisen muistinhallinnan. Alkuaskeleista vaikein oli nimeämisprosessi, joka lopulta

Parin päivän virittelyn jälkeen Hunter vaikuttaa oikein kelvolliselta apurilta. Sillä on neljä eri toimintamoodia; itsenäinen (cron), oma aika (muistin organisointi), keskustelu (normaali chat) ja oppimismoodi (normaali chat yhdistettynä “kysele paljon ja tallenna paljon muistia”-ohjeeseen). Apurin muistina toimii Djangon kautta käytettävä vektoritietokanta jota käytetään yksinkertaisen rajapinnan kautta. Se osaa lukea GitHub-projekteja ja Sentryä, lukea ja luoda GitHub-tikettejä, sekä perusasiat kuten koodauskäytännöt, testauskäytännöt, jne.

Opencoden ja Pi:n kanssa Hunteria on helppo käyttää sekä ohjelmallisesti itsenäisessä toimintamoodissa että normaalissa chat-interaktiossa. En ole ehtinyt opetuksessa vielä niin pitkälle että haluaisin laittaa tätä mankeloimaan töitä itsenäisesti alusta loppuun, mutta yhdessä etukäteen pureskeltuja tikettejä (eli töitä jossa on selkeästi määritellyt reuna- ja valmistumisehdot) se osaa tehdä merkittävästi paremmin kuin Claude Code tai Codex samalla mallilla.

Tämän kaltaisen projektin voi pienellä vaivalla saada tekemään töitä joita on vaikea opettaa perinteisille ai-työkaluille, mutta joita nykyajan llm-mallit osaavat jo tehdä sujuvasti. Suurin haaste henkilökohtaisten AI-työkalujen käytössä on tietoturva. Toistaiseksi kokeilu on ollut ehdottomasti vaivan arvoinen.

GLM 5

Kiinalainen Z.ai on julkaissut avoimesta GLM-mallista version 5 (Hugging Face). Tämä on Kimin jälkeen jo toinen avoin kiinalaismalli, joka on julkaistujen suorituskykytestien perusteella erittäin lähellä isojen amerikkalaisten talojen huippumalleja.

Olen käyttänyt GLM 4.7-mallia aktiivisesti joulukuusta lähtien Z.ai:n koodaustilauksella (kutsulinkki!) ja ollut siihen varsin tyytyväinen. Omien kokemusteni perusteella kiinalaismallit tarvitsevat suhteellisen paljon kädestä pitämistä, mutta toimivat todella hyvin helpommissa tehtävissä ja esimerkiksi silloin kun Opus on kirjoittanut tehtävään valmiiksi pureskellun toteutusohjeen.

Hacker Newsissä uusi malli otettiin vastaan pääosin positiivisesti.

GLM-5 on saatavilla Z.ai:n rajapinnan lisäksi esimerkiksi OpenRouterin kautta.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

Claude Fast Mode - 2.5x nopeampi Claude (code.claude.com) #

Vain muutaman päivää sen jälkeen kun OpenAI kertoi nopeuttaneensa GPT-malleja Anthropic julkaisi Claude Fast Moden. Toistaiseksi vain Claude Codessa toimiva moodi nopeuttaa Opus-mallia 2.5 kertaisesti, mutta myös maksaa 6x normaalia enemmän.

En oikein tiedä miten suhtautua tähän. Anthropicin mallit toimivat omassa käytössäni jo aivan tarpeeksi nopeasti. Todella harvoin odotan terminaalin ääressä että valmistuisi jo, vaan teen yleensä samaan aikaan toisaalla jotain muuta. Tämä pätee erityisesti isompiin tehtäviin joiden valmisteluun menee yleensä enemmän aikaa kuin itse totautukseen.

Mikäli AI-työkalujen tulevaisuus näyttää nopeammalta, otan sen kyllä mielelläni vastaan, mutta en missään nimessä aio maksaa siitä kuusinkertaista hintaa.

# 8.2. · lokeroissa ,

GPT-5.3-codex (openai.com) #

Kielimallikilvan nykytilasta kertonee jotain se, että OpenAI päätti julkaista GPT-5.3-codex mallin noin 15 minuuttia sen jälkeen kun Anthropic julkaisi Opus 4.6:n.

Propagandan perusteella uusi 5.3 päivitys on merkittävästi isompi harppaus kyvyissä kuin mitä 5.2 oli; TerminalBench-tulos on harpannut 64 prosentista 77.3 prosenttiin. Toivon mukaan tämä parantaa codex-mallin käytännön kykyjä, koska olen henkilökohtaisesti ollut ajoittain varsin pettynyt sen suorituksiin.

Uusi malli on saatavilla rajapinnan kautta ja käytettävissä myös Codexissa kaikilla kuukausimaksullisilla palvelutasoilla.

Claude Opus 4.6

Maailman kyvykkäimpiin kuuluva tekoälymalli Claude Opus on päivittynyt versioon 4.6. Propaganda lupaa tuttuun tapaan parantuneita koodaus- ja debuggaustaitoja mutta suurin otsikko lienee miljoonaan tokeniin kasvatettu konteksti-ikkuna (tosin vain beta-muodossa, ei saatavilla esim. Claude Coden kautta).

Opus 4.6 Terminal Bench 2.0

Nämä suorituskykygraafit eivät kunnolla näytä sitä kuinka valtavaa vauhtia mallit edelleenkin kehittyvät. Alle puoli vuotta sitten julkaistu Opus 4.1 sai tässä testissä alle 35% tuloksen!

Uuden Opuksen hinta on edelleen suolaiset $5/$25 per miljoona tokenia. Koulutusdatan päiväys elokuu 2025. Kontekstin koko ulospäin on kasvanut 64k tokenista 128k tokeniin. Yli 200 sivuun paisunut mallikortti on saatavilla PDF-muodossa.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Trailerilla oleva vene

Vaikeampi versio 2:

Piirrä svg-kuva trailerilla olevasta veneestä. Traileri tulee olla kuvattuna sivusta, vetoakseli oikealla. Kuvassa pitää näkyä yksinkertainen moottorivene, perämoottori, veneen tuulilasi, sekä trailerin sivutuet.

Trailerilla oleva vene

GPT-5.2 ja gpt-5.2-codex mallit nopeutuneet 40% (x.com) #

OpenAI on tempaissut todellisen jäniksen hatusta nopeuttamalla uusimpia GPT-malleja jopa 40 prosenttia. Nopean Codex-session perusteella väite vaikuttaa ihan todelta; uusimman codex-mallin käyttö tuntuu nyt merkittävästi aiempaa nopeammalta.

Mainitsin joulukuussa, että juurikin OpenAI:n mallien hitaus on pitänyt minua käyttämästä niitä päivittäin. Tämä päivitys saattaa hyvinkin muuttaa tämän!

# 4.2. · lokeroissa ,

← loput arkistossa