ARC-AGI-2: Ihmiskunnan merkittävin kilpajuoksu?

Koneoppimisen pioneeri François Chollet julkaisi vuonna 2019 ARC-AGI-suorituskykytestin joista suurin osa ihmisistä suoriutuu helposti, mutta jotka ovat haastavia syväoppimiseen perustuville kielimalleille.

OpenAI nosti joulukuussa kohun kun julkisella harjoitusaineistolla treenattu o3-malli onnistui ratkaisemaan 87% alkuperäisen testin julkisista testitehtävistä. Tämä tulos vaati kuitenkin yli miljoonan dollarin edestä laskentatehoa (itse mallin tuunauksen kustannuksista puhumattakaan). ARC-AGI-2 on tänään julkaistu uusi versio tästä testistä. Ratkomisen kannustukseksi julkaistiin myös vuoden loppuun kestävä uusi kilpailu, jonka parhaille ratkaisijoille on jaossa miljoonan dollarin edestä palkintoja.

ARC-AGI-2 tehtävä

ARC-AGI:n tarkoituksena on edistää koneoppimisen kehitystä ja demonstroida nykyisten kielimallien osaamisen kapeutta ja aidon älykkyyden puutetta. OpenAI:n GPT-4.5 ja o3-mini-high saavat uudesta testistä 0% oikein vaikka tehtävät ovat edelleen ihmisille helppoja. (Edellistä testiä varten erikoistuunattu o3 ratkoo tehtävistä arvioiden mukaan ~4%.)

Kielimallien perinteiset suorituskykytestit ovat käyneet yhä vähemmän ja vähemmän merkityksellisiksi kun malleja kehittävät yhtiöt käyttävät enemmän ja enemmän resursseja pelkästään testeissä pärjäämiseen. Mitä hyötyä on kielimallista joka muistaa ulkoa paljon vaikeita matematiikan tehtäviä jos se ei osaa laskea oikein yksinkertaista tehtävää jota se ei ole aikaisemmin nähnyt? Tästä syystä ARC-AGI on tärkeä pohjantähti malleja kehittäville yhtiöille; se pakottaa optimoimaan varsinaista ajattelua kohti ulkoa muistamisen sijaan.

Tämä lyhyt julkaisuvideo kertoo paljon faktoja 2,5 minuutissa:

Vuosi 2024 oli kiistämättä kilpailun tähän mennessä tuottoisin. Jos ARC-AGI-2 pystyy ohjaamaan ajattelevien kielimallien kehitystä aidon ajattelun ja ymmärtämisen suuntaan, se saattaa yhtään hypettämättä olla koko ihmiskunnan merkittävin kilpailu ikinä. “Tyhmällä” tekoälyllä on tähän mennessä jo muun muassa voitettu Nobelin palkinto kemiasta ja tuotettu ChatGPT:n kaltaisia mullistavia työkaluja. Pienikin askel nykytilasta aidon ajattelukyvyn suuntaan avaisi räjähdysmäisesti uusia mahdollisuuksia (ja uhkia).

Machine Learning Street Talk podcastin YouTube-kanavalla on tämänpäiväiseen julkaisuun liittyvä pidempi haastattelu, jonka jälkimmäisellä puoliskolla käydään mielenkiintoista keskustelua nykyisten kielimallien ajattelukyvystä. Cholletin mukaan ARC-AGI-1 osoittaa, että o3 ja o1-pro sisältävät jonkun kaltaisen yleisen tekoälyn (AGI) kipinän, jonka kasvamista ja kehitystä on mahdollista seurata ARC-AGI-2 -testin tuloksia seuraamalla. Mutta ARC-AGI-2:n läpäisy (yli 85% ratkaisu järkevällä laskentabudjetilla) ei yksinään vielä tarkoita terminaattorien tulemista vaan sitä, että mallien ajattelukykyvyssä on edetty valtava harppaus nykyisestä (jossa siis käytännössä kaikki suuren yleisön saatavilla olevat mallit pääsevät 0-4% tulokseen). Chollet arvioi, että nykytiedolla ARC-AGI-2:n läpäisy kestää vähintään 1-2 vuotta, mutta hän myös muistuttaa, että ala harppoo eteenpäin valtavaa vauhtia, ja uudet ideat todennäköisesti nopeuttavat prosessia entisestään.

Tämä on taas yksi niistä päivistä kun en oikein osaa kuvitellakaan mitä kaikkea tuleviin muutamaan vuoteen todennäköisesti mahtuukaan. Voi mikä aika olla elossa!


Kommentit