Video: Syväluotaus kielimalleihin

Andrej Karpathy on tekoälytutkijoiden sankari jota tarvitsemme mutta jota emme ansaitse. Hän on julkaissut YouTube-kanavallaan yli 3,5 tuntia kestävän taviksille suunnatun opetusvideon jossa hän johdattaa katsojan seikkaperäisesti kielimallien toimintaan vinkaten samalla muun muassa miten välttää hallusinointia ja kuinka kirjoittaa parempia kehotteita.

Suosittelen erittäin lämpimästi katsomaan koko videon ajatuksella (varmasti paremmin käytetyt 3,5 tuntia kuin jonkun random saippuasarjan parissa), mutta koska monilla tuskin riittää aikaa tai kiinnostusta niin laitoin Clauden ja O3-minin referoimaan ja kääntämään sisällön Suomeksi. Tuunasin lopputulosta melko vähän ja se myös näyttää siltä. (Ts. pahoittelut sutusta.)

Syväsukellus kielimalleihin kuten ChatGPT

Esikoulutusvaihe (pretraining)

Kielimallien kehitys aloitetaan esikoulutuksella internetin tekstidatan avulla
Dataa kerätään lähteistä kuten Common Crawl ja suodatetaan laadun varmistamiseksi
Teksti muunnetaan tokeneiksi (pienemmiksi osiksi) käyttämällä tekniikoita kuten byte-pair encoding
Neuroverkot (transformerit) oppivat ennustamaan seuraavaa tokenia sekvensseissä
Tämä luo “perusmallin”, joka toimii internetin tekstisimulaattorina
Esikoulutus kestää yleensä kuukausia ja vaatii tuhansia tietokoneita

Valvottu hienosäätö (SFT)

Muuntaa perusmallin assistentiksi kouluttamalla keskustelujen avulla
Ihmis-arvioijat luovat keskusteluja, joissa on ihanteelliset assistentin vastaukset
Nykyaikaiset lähestymistavat käyttävät olemassa olevia LLM:ejä apuna koulutusdatan luomisessa
Mallit oppivat jäljittelemään avuliasta ja totuudesta tinkimätöntä assistenttikäyttäytymistä
Koulutus kestää tunteja eikä kuukausia ja vaatii paljon vähemmän laskentatehoa kuin esikoulutus

Vahvistusoppiminen (RL)

Mallit harjoittelevat ongelmanratkaisua kokeilemalla ja erehdyksellä
Todentuvissa aloissa (matematiikka, koodaus) oikeat vastaukset ohjaavat oppimista
Mallit kehittävät “ajatusten ääneen” -lähestymistapoja
Ihmisen palautteeseen perustuva vahvistusoppiminen (RLHF) käytetään subjektiivisissa tehtävissä
RL-vaihe on uudempi ja vähemmän standardisoitu kuin esikoulutus/SFT

Mallien kyvyt ja rajoitteet

Mallit voivat hallusinoida (keksia virheellisiä tietoja)
Ne tarvitsevat tokeneita “ajatellakseen” – monimutkaiset päätelmät on purettava vaiheisiin
Hyviä joissakin tehtävissä mutta yllättävien heikkouksien (“Sveitsiläinen juusto” -kykyjen) omaavia
Parempia työkaluilla kuten nettihaku ja koodin suoritus
Toimivat parhaiten assistentteina eikä itsenäisinä agentteina

Nykytila ja tulevaisuus

Mallit kehittyvät multimodaalisiksi (käsittelevät tekstiä, kuvia, ääntä)
Siirtymä kohti pidempiaikaisia agenttikykyjä
Integraatio yhä useampiin työkaluihin ja sovelluksiin
Edistystä tarvitaan vielä mm. kokeiluaikana tapahtuvassa oppimisessa
Avoimen lähdekoodin mallit (kuten DeepSeek) kilpailevat omistettujen mallien kanssa

Vinkkejä kielimallien käyttöön

Käytä malleja työkaluina, älä orakkeleina
Tarkasta tuotokset ja pidä ihmisen valvonta mukana
Ota huomioon tehtävän vaatimukset valittaessa “ajattelevien” ja tavallisten mallien välillä
Paikallinen käyttöönotto on mahdollista pienemmille malleille
Saatavilla on monia alustoja: ChatGPT, Claude, Gemini, Together.ai, jne.

Videossa korostetaan, että vaikka kielimallit ovat tehokkaita työkaluja jotka voivat dramaattisesti nopeuttaa työtä, niitä tulee käyttää harkiten, ottaen huomioon niiden rajoitukset ja varmistamalla tuotosten oikeellisuus.

Koneoppiblogi