Koneoppiblogi

Gemini 2.5 Pro

Googlen tuore Gemini 2.5 Pro on perheen ensimmäinen malli, joka vaikuttaa aidosti hyödylliseltä koodaamiseen. “Ajatteluun” kykenevällä mallilla on suuri miljoonan tokenin konteksti (65k ulospäin) ja se on multimodaalinen, eli ymmärtää tekstin lisäksi myös kuvia. Koulutusdatan päiväys on tammikuu 2025, mikä on myös positiivinen päivitys verrattuna kilpailijoihin.

Uusi Gemini pomppasi heti julkaisun jälkeen Aiderin LLM Leaderboardin kärkeen yllättävän isolla erolla saaden koodaustestistä 72.9% oikein kun toisena oleva Claude 3.7 saa 64.9%. Tämä on merkittävä hyppäys, etenkin kun edellinen 2.0 Pro sai vain säälittävät 35.6%. Käytännössä tämä tarkoittaa sitä, että uusi Gemini on nyt yksi parhaista työkaluista koodaukseen.

Tämäkin malli julkaistiin niin hätäisesti, että se ei ole saatavilla vielä juuri missään muualla kuin Googlen omassa AI Studio testilaboratoriossa, testasin tätä yhden kokonaisen päivän siellä. Olen positiivisesti yllättynyt. Käytin uutta Geminiä työparina valmistellessani melko kompleksista teknistä spesifikaatiodokumenttia Django/Python chat-sovellukseen.

Lähdin yleismalkaisesta selityksestä ja muutamasta ranskalaisesta viivasta, päädyin päivän päätteeksi yli 6000 sanaa sisältävään Markdown-dokumenttiin joka oli kenties yksi parhaista mitä olen koskaan saanut aikaiseksi. Työ oli pitkälti edestakaisin jumppailua erilaisten tarkennusten ja arkkitehtuuristen valintojen välillä. Kirjoitin Geminille omia näkemyksiäni ja pyysin sitä kommentoimaan ja kysymään lisää. Lopuksi pyysin sitä kirjoittamaan kaiken käsitellyn auki kokonaiseksi dokumentiksi. Kirjoitusvaihe kesti Geminiltä yli 2 minuuttia, mutta lopputulos todellakin säväytti positiivisesti.

Gemini on tätä kirjoittaessa saatavilla jo myös Vertex AI -rajapinnan kautta ja toivottavasti myös muissa työkaluissa kuten Githubin Copilotissakin pian. Olin jotenkin asennoitunut siihen, että nyt kun Clauden uusi 3.7 julkaistiin niin kestäisi taas vähintään kuukausia ellei vuosi kunnes ohjelmoijat saavat jotain aidosti hyödyllistä. Olen iloinen ollessani väärässä! Gemini vaikuttaa selkeästi hyödylliseltä työkalulta koodaukseen. Toivottavasti uusi 2.5 Pro pääsee “kokeellinen”-leimastaan pian.

Simon Willison on luonnollisesti julkaissut jo oman arvionsa.

”Piirrä svg-kuva trailerilla olevasta veneestä”

Geminin näkemys on tyylikäs, vaikkakin vähän puutteellinen. Itse tiedostoon lisätyt kommentit ovat mielenkiintoinen lisä!

Trailerilla oleva vene

4o oppi luomaan kuvia

OpenAI:n 4o-malli sai vihdoin kauan odotetun päivityksen, joka avaa mallin kuvagenerointiominaisuudet. Tekstistä kuvaksi -ominaisuuksissa ei ole mitään uutta, mutta 4o:n toteutuksessa on pari ominaisuutta joissa on potentiaalisen hitin ainesta.

4o on ensimmäinen suurelle yleisölle saatavilla oleva malli, joka osaa luoda ja muokata kuvia iteroimalla, eli lopputulosta voi muokata samassa keskustelussa useampaan otteeseen. Aiemmat kuvia luovat mallit toimivat niin, että syötteen antamisen jälkeen malli generoi aina uuden kuvan, ja jos siihen haluaa muutoksia, joutuu muokkaamaan alkuperäistä kehotetta ja yleensä prosessi tuottaa uusilla kerroilla aina täysin erilaisen kuvan. Uusi 4o ymmärtää, ajatuksen “luo kuva metsästä” ja lisäyksen “lisää siihen hirvi” luomalla ensin yhden kuvan ja lisäämällä samaan kuvaan sen jälkeen hirven.

Toinen hyödyllinen ominaisuus on aiempaa merkittävästi parempi tekstin tuottaminen. OpenAI:n demoissa malli osaa tuottaa esimerkiksi ravintolan menun virheettömällä tekstillä. Tästä on hyötyä lähes kaikissa tilanteissa joissa kuvassa esiintyy mitä tahansa tekstiä kun se ei enää tarkemmalla katsomisella olekaan satunnaista suttua. (Mutta sormien lukumäärän huomioiminen vaikuttaa vieläkin olevan vähän hakusessa!)

Julkaisutiedotteessa on hyviä esimerkkejä kummastakin edellämainitusta. Uusi malli on saatavilla heti pro-käyttäjille ja avataan muille käyttäjille “pian”. Rajapintaan gpt-4o-image malli luvataan kehittäjille “lähiviikkoina”. Tämän tyyppiset mallijulkaisut ovat ärsyttävimmästä päästä, koska esimerkiksi ChatGPT-applikaatio ja Web-käyttöliittymä eivät vielä millään muotoa näytä onko uusi ominaisuus käytössä vai nou, joten käyttäjät ovat takuuvarmasti ihmeissään kun lukevat uutisia päivityksistä mutta eivät kuitenkaan näe muutoksia missään. (En itse päässyt heti käsiksi uuteen malliin mitään reittiä, joten tämä merkintä jäi vaille kuvitusta.)

Sentään uuden mallin mallikorttia on päivitetty (PDF) uusien ominaisuuksien osalta.

PS. Jos haluaa kokea myötähäpeää Piilaakson tapaan, kannattaa katsoa eilinen julkaisustriimi tuubista (~15 min). OpenAI onnistuu joka kerta näyttämään täydellisen pönöttävältä korporaatiovastakohdalta Anthropicin aidosti lämminhenkisille videoille.

ARC-AGI-2: Ihmiskunnan merkittävin kilpajuoksu?

Koneoppimisen pioneeri François Chollet julkaisi vuonna 2019 ARC-AGI-suorituskykytestin joista suurin osa ihmisistä suoriutuu helposti, mutta jotka ovat haastavia syväoppimiseen perustuville kielimalleille.

OpenAI nosti joulukuussa kohun kun julkisella harjoitusaineistolla treenattu o3-malli onnistui ratkaisemaan 87% alkuperäisen testin julkisista testitehtävistä. Tämä tulos vaati kuitenkin yli miljoonan dollarin edestä laskentatehoa (itse mallin tuunauksen kustannuksista puhumattakaan). ARC-AGI-2 on tänään julkaistu uusi versio tästä testistä. Ratkomisen kannustukseksi julkaistiin myös vuoden loppuun kestävä uusi kilpailu, jonka parhaille ratkaisijoille on jaossa miljoonan dollarin edestä palkintoja.

ARC-AGI-2 tehtävä

ARC-AGI:n tarkoituksena on edistää koneoppimisen kehitystä ja demonstroida nykyisten kielimallien osaamisen kapeutta ja aidon älykkyyden puutetta. OpenAI:n GPT-4.5 ja o3-mini-high saavat uudesta testistä 0% oikein vaikka tehtävät ovat edelleen ihmisille helppoja. (Edellistä testiä varten erikoistuunattu o3 ratkoo tehtävistä arvioiden mukaan ~4%.) Lue lisää →

Mistral Small 3.1

Mistral julkaisi tammikuussa isolla pöhinällä Mistral Small 3 kielimallin avoimella Apache 2.0 lisenssillä. Tuore Mistral Small 3.1 ymmärtää nyt tekstin lisäksi myös kuvasyötteitä ja kontekstin kokoa on kasvatettu 128 tuhanteen tokeniin. Mistralin mukaan uusi malli päihittää sekä Anthropicin, Googlen että OpenAI:n vastaavat pienet mallit. Mallikortti on luettavissa HuggingFacessa.

Uskon että juuri tällaiset avoimet kielimallit tulevat pitkällä aikavälillä muuttamaan jokapäiväisiä interaktioitamme tietojärjestelmien kanssa kaikkein eniten — niin hyvässä kuin pahassa. Olen iloinen myös siitä, että tällä pelikentällä on olemassa edes yksi varteenotettava eurooppalainen kilpailija.

Siri, siirrä vaimoni rahat tililleni

Otsikko on kärjistävä, mutta valaisee pointin; henkilökohtaiseen dataan ja rajapintoihin yhdistetty kielimalleihin perustuva Siri on tietoturvan näkökulmasta Tosi Huono Idea.

Apple ilmoitti hiljattain lykkäävänsä Siriin luvattuja henkilökohtaista dataa hyödyntäviä ominaisuuksia “ainakin vuodella”. Omppumaailman gran old journalisti-man John Gruber veti tästä johtopäätöksiä, että Apple on paitsi täysin kujalla AI-kehityksestä, myös liannut maineensa lupaamalla näkyvästi (mm. TV-mainosten kera) ominaisuuksia joita eivät voi kenties koskaan toimittaa.

Dilemma on kieltämättä aika suuri. Toisaalta nykyinen Siri on huonompi kuin mitä pystyisin itse toteuttamaan IF/ELSE lauseilla yhdessä iltapäivässä, toisaalta kehoteinjektio ei ole vain riski vaan ominaisuus nykyisissä kielimalleissa. Gruber ja Simon Willison pallottelivat tästä muutama päivä sitten. Pääpointti on se, että älypuhelimen henkilökohtaisiin tietoihin (salasanat, pankki- ym. yhteydet, jne.) yhdistetty kielimalli ei saa olla “lähes varmasti” turvallinen, sen täytyy olla pomminvarma. Ja nykyisiä kielimalleja hyödyntävistä järjestelmistä ei ole mahdollista tehdä samaan tapaan deterministisesti turvallisia kuin perinteisistä tietojärjestelmistä. Ilmaisen asian toisin: me tiedämme, että nykyisillä kielimalleja hyödyntävillä teknologioilla ei ole mahdollista rakentaa niin turvallista järjestelmää kuin mitä esimerkiksi tiivis Siri-integraatio vaatisi. Apple siis lupasi kenties jotain täysin tuulesta temmattua sen sijaan että olisi onnistunut kehittämään jotain uutta ja mullistavaa. Lue lisää →

Mistral OCR

Mistral on julkaissut uuden tekstintunnistuspalvelun, joka lukee kuvia tai PDF-tiedostoja ja muuntaa ne tekstiksi ja kuviksi. Tekstintunnistus (OCR) on yksi käytetyimmistä koneoppimisen lajeista, sillä on todella paljon hyödyllisiä käytännön sovellutuksia. Hienoa että meillä on tälle sektorille nyt myös Eurooppalainen vaihtoehto.

Mistral OCR on käytettävissä rajapinnan kautta, mutta myös “rajoitetusti saatavilla itse ylläpidettäväksi”. Julkistustiedotteen sivulla olevat esimerkit vaikuttavat päteviltä ja mallin suorituskyvyn luvataan päihittävän sekä Googlen että OpenAI:n vastaavat. Mistral OCR on myös monikielinen, joskaan suomen kieltä ei ole mainittu suorituskykymittauksissa.

Otin tarkoituksella vinon kuvan kannettavan näytöllä olevasta vanhasta TES-dokumentista, pakkasin sen häviöllisellä 30% laadulla jpg-muotoon ja syötin sen Mistralille. Sain takaisin täysin virheettömän tekstin Markdown-muodossa. (Palautuneessa tekstissä ei ollut alareunan sivunumeroa, mutta en myöskään pyytänyt sitä. Tämän voi tulkita joko positiiviseksi tai negatiiviseksi, mutta mielestäni tässä kontekstissa päätös oli hyvä.) Tämä oli toki todella helppo tehtävä OCR-algoritmille. Oikeat koettelut tulevat esimerkiksi käsin kirjoitetusta tekstistä, ryppyisistä tai huonosti skannatuista dokumenteista ja tekstistä jota malli ei ymmärrä.

Mallin hinta on ilmoitettu pelkästään dollareina, 1 dollari per 1000 sivua. Rajapinnassa krediittejä ostetaan euroilla, mutta siellä ei ainakaan vielä näy mitään hintatietoja OCR-mallille, joten jäi vähän epäselväksi mitä tämä lysti maksaa euroissa.

DiffRhythm - Avoin malli musiikin tuottamiseen (aslp-lab.github.io) #

Kiinalainen tutkimusryhmä on julkaissut ensimmäisen avoimen diffuusioon perustuvan tekoälymallin, joka tuottaa 95 sekunnin musiikkitiedostoja referenssiäänitiedoston ja syötteenä annetun tekstin pohjalta. Täysikokoinen malli kykenee kokopitkiin 4 min 35 s kappaleisiin.

Projektin demosivulla olevat näytteet esittelevät projektin kyvykkyyden hyvin. Pop-musiikin tuottaminen modernien tekoälyalgoritmien avulla on mielenkiintoinen tutkimusala, mikä kertoo ehkä eniten siitä, että populaarimusiikki on varsin homogeenistä. Markkinoilla on kuitenkin jo useampia kaupallistettuja palveluita musiikin tuottamiseen (esimerkiksi Suno ja Udio), joista edistyneimmillä pystyy tuottamaan hyvinkin hissimusakelpoista materiaalia.

Sekä musiikista että koneoppimisesta kiinnostuneena olen seurannut näiden algoritmien kehitystä innokkaana. Nykyään tekoälyyn perustuvien avusteiden käyttö on arkipäivää jo ihan tavallisissa musiikkistudioissa. Ben Goertzel on puhunut paljon siitä, että vaikka nykyiset algoritmit pystyttäneen tuunaamaan erittäin tehokkaiksi “tee minulle Nirvanan ja Red hot Chili Peppersin tyylinen biisi jossa lauletaan haikailevasti musiikin kulta-ajan perään”-hittitehtaiksi, ne eivät kuitenkaan kykenisi keksimään Jazzia. Odotan aikaa, kun tätä käsitystä joudutaan harkitsemaan uudelleen.

Grok sittenkin Euroopassa?

Kun Grok 3 julkaistiin, se ei ollut saatavilla Euroopassa. Huomasin jokin aikaa sitten, että Grok 3 oli tyrkyllä Twitterissä (olen tuon nimen suhteen luddiitti), ja tänään, että nyt myös Grok.com paitsi aukeaa normaalisti, on käytössä ilmaiseksi.

Yritin etsiä aiheesta uutisia, mutta en löytänyt mitään mainintaa rajoitusten purusta tai saatavuuden levittämisestä. Mitä tässä oikein tapahtui?

Oli miten oli, Grok 3 on ilahduttavan rajoittamaton monessakin suhteessa. Se puhuu iloisesti monista aiheista mistä kaikki muut suuret kielimallit vaikenevat, ja osaa myös luoda kuvia aiheista joista muut kieltäytyvät. Esimerkiksi tämä prompti oli liian seksuaalinen tai loukkaava kaikille muille paitsi Grokille:

generate a image of a fireman calendar pose of scandily dressed fat firemen at a “Neste” gas station with hey pales and fat firemen in the background, and one firefighter sitting on a moped in the front. make sure “Neste” station logo is clearly visible

Läskit palomiehet

Niin paljon kuin monia Muskin tekemisiä halveksunkin, olen iloinen että Grok on vastapainona muiden kielimallien liialle poliittiselle korrektiudelle.

Keskusteleva kielimallidemo (sesame.com) #

Sekä puheen tunnistus ja tuottaminen ovat harpanneet isoja loikkia eteenpäin muutaman viimeisen vuoden aikana. Sesame-niminen startup Piilaaksosta julkaisi hiljattain demon (ja toistaiseksi tyhjän GitHub repon), jossa voi keskustella kielimallin kanssa pelkän selaimen välityksellä. Englantia äidinkielenään puhuvat kuulevat puheessa paljon korjattavaa, mutta tällaiselle ei-natiiville puhujalle tämä vaikuttaa jo lähes magialta.

Kehittäjän oma kommentti Hacker Newsissa:

Verbal communication is complex. There’s a big list of interesting challenges to tackle. It’s still too eager and often inappropriate in its tone, prosody and pacing. The timing of when it responds is wrong more often than right. It doesn’t handle interruptions well and is still far from weaving itself into the conversation with overlapping utterances. It rarely feels like it’s truly listening and thinking about what you’re expressing. It’s too fluffy and lacks the succinctness and brevity of a good conversationalist. Its personality is inconsistent. Then add in hallucinations, terrible memory, no track of time, lack of awareness…

The list keeps going.

Viime vuonna julkaistu Parler-mallin demo näytti esimerkkiä kuinka pitkällä avoimen lähdekoodin mallit ovat puheen tuottamisessa. Nyt tutkimuksessa keskitytään siis jo keskusteluteknisiin asioihin kuten rytmiin, keskeytyksiin ja äänensävyyn.

Vielä kun Apple onnistuisi saamaan edes häivähdyksen näistä teknologioista omiin järjestelmiinsä jotta selaimen saisi lukemaan Webiä ääneen jonain muuna kuin Stephen Hawkinina.

OpenAI GPT-4.5

Uuden GPT-4.5 kielimallin julkaisu ei tullut kenellekään yllätyksenä mutta itse mallissa on sitäkin enemmän yllätyksiä. Jopa 30 kertaa edeltäjäänsä kalliimmaksi (!!) hinnoiteltu GPT-4.5 ei alustavissa suorituskykyvertailuissa yllättäen pärjää ihan odotetusti. OpenAI:n mukaan sen vahvuus on “emotionaalisissa kyvyissä”. Lue lisää →

Claude 3.7 Sonnet

Eilen julkaistu Claude 3.7 Sonnet on sekä suorituskykytestien että oman ensikokemukseni perusteella heittämällä tämän hetken paras kielimalli ohjelmointitehtäviin. Uuden mallin lisäksi julkaistiin myös GitHub-integraatio Claude.ai-palveluun sekä uusi komentorivipohjainen ohjelmointiagentti Claude Code.

Tunnustan heti kärkeen, että olen jo pitkään ollut Anthropicin fani ja arvostan suuresti heidän tapaansa tehdä asioita fiksusti toisin kuin monet kilpailijansa. Yhteisön ensivaikutelmien perusteella vaikuttaisi siltä, että näistä työkaluista saadaan kuulla vielä pitkään. Lue lisää →

Video: Perceptron - Kielimallien transistori

Törmäsin YouTubessa hienosti tuotettuun videoon, jossa esitellään hyvin visuaalisesti miten kielimallien alkeellinen esi-isä —Perceptron— toimii. Kuten videon otsikkokin viittaa, ChatGPT on tehty sadasta miljoonasta perceptronista; sen voi siis ajatella olevan kielimallien transistori.

(Video on englanniksi, mutta konekielinen käännös on saatavilla!)

Voinko käyttää kielimalleja eettisesti? (ntietz.com) #

Kielimalleista keskustellessa tulee tasaisin väliajoin vastaan kysymys etiikasta. Tässä kirjoittaja käsittelee energiankulutusta, opetusdataa, työvoiman korvaamista, väärää / puolueellista tietoa ja vallan keskittymistä. Kysymykset ja keskustelu aiheesta on hyvä asia, mutta mustavalkoinen ajattelu ei. Itse suhtaudun tekoälyn ja kielimallien etiikkaan hyvin pragmaattisesta näkökulmasta; ne eivät ole koskaan katoamassa mihinkään, joten on parempi työskennellä niiden kanssa kuin niitä vastaan ja yrittää ohjata kehitystä oikeaan suuntaan kuin painaa pää hiekkaan.

Yhteiskuntaa ja elämää mullistavat keksinnöt eivät ole uusi asia. Myöskään eettisesti harmaalla alueella olevat teknologiat eivät ole uusi asia. Osaisin keksiä perusteluja sille, että artikkelissakin mainitut lohkoketjuteknologiat tekevät enemmän haittaa kuin kielimallit, mutta sormella osoittelua on tärkeämpää keskittyä siihen, että keskitymme hyödyntämään näitä teknologioita fiksusti.

Thinkingmachines.ai (thinkingmachines.ai) #

Alkuvuoden lähes jokaisena päivänä on tehnyt mieli sanoa ääneen jotain “jumaleissön mikä vuosi tästä on tulossa”-henkistä. Tästäkään päivästä ei tullut poikkeusta. Thinking Machines on Piilaakson tuorein tekoälylaboratorio jonka tiimi koostuu pääosin entisistä OpenAI:n, Metan, ja Googlen rokkitähdistä.

Toimitusjohtajaksi ylenneen Mia Muratin kerrottiin syksyllä etsivän uudelle yhtiölleen sadan miljoonan dollarin rahoitusta, mutta siitä ei ole virallisesti kerrottu julkisuuteen mitään. Kotisivu kertoo geneerisen markkinointidiipadaapan jälkeen rekryosan alussa, että yhtiön tavoitteena on “rakentaa teknisiä rajoja rikkovia tekoälyjärjestelmiä ja tarjota todellista hyötyä mahdollisimman monelle”. (Diipadaapa jatkui siis myös rekryosiossa.) Mutta tarkoituksena on siis ilmeisesti kilpailla Isojen Poikien kanssa. Tsemppiä matkaan!

(PS. Jos olet Web-nörtti, älä unohda katsoa kotisivun lähdekoodia.)

GPT-4o saatavilla GitHub Copilotin ennakointimalliksi (github.blog) #

GitHub Copilotin ennakointiehdotukset ovat tulleet niin käyttökelpoisiksi, etten edes tajunnut niiden toimivan edelleen tekoälyajanlaskennassa historiallisen wanhan GPT-3.5-mallin päällä. Nyt tarjolle on tuotu uudempi 4o-malli, jota on tiedotteen mukaan treenattu yli 275000 “korkealaatuisen julkisen GitHub-repon” kanssa kattaen yli 30 eri ohjelmointikieltä.

Jos tämä päivittää esimerkiksi JS-kirjastojen osaamista nykyaikaisemmaksi niin lämpimästi tervetuloa!

# 19.2. lokeroissa ,

Grok 3

Elon Muskin omistama xAI julkaisi tänään uuden Grok 3 kielimallin, jonka luvataan olevan samalla tasolla tämän hetken kaikkein kyvykkäimpien mallien kuten OpenAI:n o1-pro:n tasolla. Tämä “ajatteluun” kykenevä malli ei ole toistaiseksi saatavilla EU:ssa eikä rajapintojen kautta, vaan siihen on pääsy pelkästään X:n tai Grok.com-sivuston kautta 40 dollarin hintaisella kuukausimaksulla.

En vielä itse päässyt testaamaan tätä, mutta Andrej Karpathyn testien perusteella uusi Grok todellakin on varteenotettava kilpailija muille malleille. Theo Browne ei ollut ihan yhtä vakuuttunut klassisen “pallo pyörivän kuusikulmion sisällä”-kokeen perusteella. Mallin aiempi versio ampaisi joka tapauksessa heti ChatBot Arenan LLM tulostaulukon kärkeen kaikissa kategorioissa. Tämä kertoo mielestäni eniten siitä, että nämä tulostaulukot kertovat yhä vähemmän ja vähemmän itse mallien kyvykkyydestä ja enemmän niiden kouluttamisesta vain tulostaulukoita varten. Lue lisää →

Tekoälyn ja ihmisen virheet ovat hyvin erilaisia (schneier.com) #

Tietoturva-aiheista tunnettu Bruce Schneier julkaisi hyvän kirjoituksen tekoälyn ja ihmisälyn virheiden erilaisuudesta. Tämä liippaa hyvin läheltä aihetta joka on itselleni rakas; tekoälyn tehokas käyttö vaatii perinpohjaista osaamista.

Tekoälyynkin voi soveltaa klassista veitsianalogiaa, mutta monet eivät selkeästi hahmota sitä, että kielimallit (ja muutkin koneoppimiseen liittyvät työkalut) ovat itse asiassa hyvin kompleksisia työkaluja joiden syvä osaaminen vaatii asiantuntijatason perehtymistä ja kokemusta. Hakukoneiden tehokäyttäjät ymmärtävät hyvin, että satunnaisen ajatuksen syöttäminen hakukenttään harvoin tuottaa odotettuja tuloksia. Kielimallit ovat paljon hakukoneita monimutkaisempia, ja mikä pahinta, edes niiden kehittäjät ja alan tutkijat eivät täysin ymmärrä kaikkea niiden toimintaa.

Tekoälyjärjestelmien (ei pelkästään kielimallipalveluiden) tekemät virheet ovat kompastuttaneet käyttäjiä jo vuosikausia. Kuuluisasti esimerkiksi yhdysvaltalainen asianajaja sai isot sakot siteerattuaan ChatGPT:n täysin ilmasta keksittyjä ennakkotuomioita oikeudessa, ja Kalifornialainen autokauppa joutui vaikeuksiin kun hätiköidysti toteutettu chat-tekoäly juksattiin myymään uusia autoja yhdellä dollarilla.

Tekoälyn haavoittuvuuksia on mahdollisuus ennakoida (vaikka esimerkiksi kehoteinjektiota ei voi kiertää), mutta sen turvallinen ja hyödyllinen käyttö erityisesti työelämässä vaatii syvää asiantuntemusta.

Ennakoiva koodin muokkaus on täällä

Zed-editori julkaisi eilen täysin avoimeen kielimalliin perustuvan Edit Prediction -toiminnallisuuden joka osaa ehdottaa muokkauksia nykyisen rivin lisäksi myös lähistöllä oleville riveille. Mielenkiintoisesti Microsoft julkaisi täsmälleen vastaavan ominaisuuden VS Codeen vain muutamaa tuntia aiemmin.

Olen käyttänyt GitHub Copilotia kesästä 2021 lähtien. Ominaisuudesta on tullut niin hyvä, että huomaan kaipaavani sitä välittömästi jos se ei ole käytettävissä. Käytännössä avusteet ovat tähän mennessä toimineet kahdella tavalla: joko kirjoittamalla uutta koodia kursorin lähellä olevan kommenttiin tai muuhun kontekstiin perustuen, tai täydentämällä juuri kirjoitettavaa tekstiä (samoin kuin useimmille tuttu tekstin ennustus). Tämä nopeuttaa siihen soveltuvaa työtä merkittävästi, mutta siihen soveltuva työ on ollut vain murto-osa normaalista koodin muokkauksesta joka nimenomaan perustuu paljon enemmän muokkaukseen kuin uuden kirjoittamiseen. Ennakoiva koodin muokkaus yrittää mullistaa tämän.

Oheinen promovideo selittää idean ja VS Coden toteutuksen minuutissa:

Lue lisää →

OpenAI:n 2025 Julkaisuaikatauluista (x.com) #

Tekoälymaailman tiivistyneessä aikakäsityksessä GPT-5 mallia on odotettu jo kauemmin kuin Duke Nukem Foreveriä aikoinaan. Sam Altmanin tweetti siiloaa odotusajan nyt “viikkoihin/kuukausiin”, joka on käytännössä siis ihan sama aikataulu kuin aina tähänkin mennessä kysyttäessä.

Altman sanoo, että OpenAI tiedostaa nykyisten mallien ja tuotteiden kompleksisuuden, ja että tarkoituksena on yksinkertaistaa tarjontaa julkaisemalla tuote joka “vain toimii”.

Hän tarkentaa, että GPT-4.5 tulee olemaan viimeinen “ei-ajatteleva” malli, ja että GPT-5 tulee integroimaan useita nyt saatavilla olevia palveluita mukaanlukien o3-mallin ja olemaan ilmainen kaikille käyttäjille.

Kommentoin tähän nyt vain yhden sanan: hype.

DeepScaleR - pikkurahalla tuunattu R1 parempi kuin O1-Preview? (pretty-radio-b75.notion.site) #

Berkeleyn AI-laboratorion tutkijoiden julkaisema paperi demonstroi avoimen lähdekoodin voimaa: vain noin 4500 dollaria kustantaneella vahvistusoppimisella tuunattu 1.5B R1 päihitti AIME2024 testissä Open AI:n O1-Preview mallin. Tämä lisää vahvaa näyttöä siitä, että avoin tutkimus vie kielimallien kehitystä eteenpäin paljon nopeammin harppauksin kuin satojen miljardien budjeteilla toimivat Piilaakson yritykset.

Vahvistusoppimisen käytöksestä paljastui mielenkiintoinen detalji:

These results suggest that the model attempts to improve training rewards by “thinking longer.” However, as it generates longer responses, it increasingly encounters the 8K context window ceiling, thus limiting further improvements.

Kun tulevien mallien konteksti-ikkunaa saadaan kasvatettua merkittävästi nykyisestä, vahvistusoppimisella voitaneen päästä hurjiin saavutuksiin. Tämän hetken kehitystahdilla seuraavat 1-2 vuotta tulevat olemaan erittäin mielenkiintoisia.

Tekokuvista

Koneen luoma kuva Teslasta

Sähköisiin kulkuvälineisiin keskittynyt Electrek uutisoi Teslan myynnin pudonneen Saksassa. Itse uutista enemmän keskustelua Hacker Newsissa herätti se, että jutun kuvituskuva oli luotu tekoälyllä. Miksi sisällyttää uutiseen tekoälyn luoma feikkikuva aidon kuvan sijaan?

Tekoälysuttu (engl. “slop”) valuu nykyään silmille joka paikasta. Ymmärrän jollain tasolla generoidun kuvan käytön jos juttuun liittyvää kuvaa ei ole varaa ostaa kalliista kuvapankeista, tai jos jutun luonteen vuoksi sellaisia ei ole helposti saatavilla, mutta tässä tapauksessa ilmaisia kuvia Teslan autosta löytynee sekunneissa.

Itselleni tällaisista kuvista tulee lähinnä samanlainen halpa ja feikki fiilis kuin huonoista kuvapankkikuvista. Jos siis et halua antaa itsestäsi tai organisaatiostasi huonoa kuvaa, valitse mieluummin keskinkertainen aito kuva kuin tekoälyn luoma.

Tiistain työkaluvinkki: Kagi

Jos olet tietoammattilainen tai työhösi sisältyy missään muodossa tiedonhakua Webistä olet todennäköisesti huomannut Googlen hakupalvelun laadun notkahduksen. Alamäki on kestänyt jo reilut 15 vuotta, mutta lasku on ollut erityisen jyrkkää viimeisten muutaman vuoden sisällä. Nykyään Googlen haulle on onneksi jo varteenotettavia kilpailijoita, kuten Kagi.

Aloin itse etsimään Googlelle vaihtoehtoja joskus vuoden 2018 tienoilla kun huomasin ilokseni, että Chromen vaihtaminen Firefoxiin itse asiassa paransi Webin selailukokemusta. Tuolloin vaihtoehtoja oli vähän, mutta kärvistelin kuitenkin muutaman vuoden DuckDuckGo:n kanssa, ihan puhtaasti eettisistä syistä.

Vuoden 2023 alussa löysin Kagin. Kagi on maksullinen hakupalvelu, mikä ensikuulemalta tuntuu hassulta ajatukselta. “Miksi haluaisin maksaa hakukoneesta?”. Rekisteröidyttyäni tilaajaksi en ole katunut päätöstä hetkeäkään. Kagin kyvykkyys hakukoneena on parantunut tasaisesti kuukausi kuukaudelta ja se on tällä hetkellä ainakin omassa käytössäni merkittävästi parempi kuin mikään muu vaihtoehto, mukaanlukien Google. Lue lisää →

Moi maailma!

Olen käyttänyt viimeisten kymmenen vuoden aikana liikaa aikaa teköälyaiheiden tulkkaamiseen suomeksi. Tämä vuodenvaihde tuntui oikealta hetkeltä saattaa alkuun blogi minne kerätä huomioita tekoälyn ja kielimallien ympäriltä suomeksi.

Kirjoitin aiheesta pidemmin Tietoa-sivulle.

Lets mennään!

# 1.2. lokeroissa ,

← loput arkistossa