Andrej Karpathy on tekoälytutkijoiden sankari jota tarvitsemme mutta jota emme ansaitse. Hän on julkaissut YouTube-kanavallaan yli 3,5 tuntia kestävän taviksille suunnatun opetusvideon jossa hän johdattaa katsojan seikkaperäisesti kielimallien toimintaan vinkaten samalla muun muassa miten välttää hallusinointia ja kuinka kirjoittaa parempia kehotteita.
Suosittelen erittäin lämpimästi katsomaan koko videon ajatuksella (varmasti paremmin käytetyt 3,5 tuntia kuin jonkun random saippuasarjan parissa), mutta koska monilla tuskin riittää aikaa tai kiinnostusta niin laitoin Clauden ja O3-minin referoimaan ja kääntämään sisällön Suomeksi. Tuunasin lopputulosta melko vähän ja se myös näyttää siltä. (Ts. pahoittelut sutusta.)
Syväsukellus kielimalleihin kuten ChatGPT
Esikoulutusvaihe (pretraining)
- Kielimallien kehitys aloitetaan esikoulutuksella internetin tekstidatan avulla
- Dataa kerätään lähteistä kuten Common Crawl ja suodatetaan laadun varmistamiseksi
- Teksti muunnetaan tokeneiksi (pienemmiksi osiksi) käyttämällä tekniikoita kuten byte-pair encoding
- Neuroverkot (transformerit) oppivat ennustamaan seuraavaa tokenia sekvensseissä
- Tämä luo “perusmallin”, joka toimii internetin tekstisimulaattorina
- Esikoulutus kestää yleensä kuukausia ja vaatii tuhansia tietokoneita
Valvottu hienosäätö (SFT)
- Muuntaa perusmallin assistentiksi kouluttamalla keskustelujen avulla
- Ihmis-arvioijat luovat keskusteluja, joissa on ihanteelliset assistentin vastaukset
- Nykyaikaiset lähestymistavat käyttävät olemassa olevia LLM:ejä apuna koulutusdatan luomisessa
- Mallit oppivat jäljittelemään avuliasta ja totuudesta tinkimätöntä assistenttikäyttäytymistä
- Koulutus kestää tunteja eikä kuukausia ja vaatii paljon vähemmän laskentatehoa kuin esikoulutus
Vahvistusoppiminen (RL)
- Mallit harjoittelevat ongelmanratkaisua kokeilemalla ja erehdyksellä
- Todentuvissa aloissa (matematiikka, koodaus) oikeat vastaukset ohjaavat oppimista
- Mallit kehittävät “ajatusten ääneen” -lähestymistapoja
- Ihmisen palautteeseen perustuva vahvistusoppiminen (RLHF) käytetään subjektiivisissa tehtävissä
- RL-vaihe on uudempi ja vähemmän standardisoitu kuin esikoulutus/SFT
Mallien kyvyt ja rajoitteet
- Mallit voivat hallusinoida (keksia virheellisiä tietoja)
- Ne tarvitsevat tokeneita “ajatellakseen” – monimutkaiset päätelmät on purettava vaiheisiin
- Hyviä joissakin tehtävissä mutta yllättävien heikkouksien (“Sveitsiläinen juusto” -kykyjen) omaavia
- Parempia työkaluilla kuten nettihaku ja koodin suoritus
- Toimivat parhaiten assistentteina eikä itsenäisinä agentteina
Nykytila ja tulevaisuus
- Mallit kehittyvät multimodaalisiksi (käsittelevät tekstiä, kuvia, ääntä)
- Siirtymä kohti pidempiaikaisia agenttikykyjä
- Integraatio yhä useampiin työkaluihin ja sovelluksiin
- Edistystä tarvitaan vielä mm. kokeiluaikana tapahtuvassa oppimisessa
- Avoimen lähdekoodin mallit (kuten DeepSeek) kilpailevat omistettujen mallien kanssa
Vinkkejä kielimallien käyttöön
- Käytä malleja työkaluina, älä orakkeleina
- Tarkasta tuotokset ja pidä ihmisen valvonta mukana
- Ota huomioon tehtävän vaatimukset valittaessa “ajattelevien” ja tavallisten mallien välillä
- Paikallinen käyttöönotto on mahdollista pienemmille malleille
- Saatavilla on monia alustoja: ChatGPT, Claude, Gemini, Together.ai, jne.
Videossa korostetaan, että vaikka kielimallit ovat tehokkaita työkaluja jotka voivat dramaattisesti nopeuttaa työtä, niitä tulee käyttää harkiten, ottaen huomioon niiden rajoitukset ja varmistamalla tuotosten oikeellisuus.