Claude 3.7 Sonnet

Eilen julkaistu Claude 3.7 Sonnet on sekä suorituskykytestien että oman ensikokemukseni perusteella heittämällä tämän hetken paras kielimalli ohjelmointitehtäviin. Uuden mallin lisäksi julkaistiin myös GitHub-integraatio Claude.ai-palveluun sekä uusi komentorivipohjainen ohjelmointiagentti Claude Code.

Tunnustan heti kärkeen, että olen jo pitkään ollut Anthropicin fani ja arvostan suuresti heidän tapaansa tehdä asioita fiksusti toisin kuin monet kilpailijansa. Yhteisön ensivaikutelmien perusteella vaikuttaisi siltä, että näistä työkaluista saadaan kuulla vielä pitkään.

3.7 Sonnet on Anthropicin ensimmäinen “ajatteleva” malli, mikä tarkoittaa sitä että Metaa ja Mistralia lukuunottamatta kaikki isot pelurit ovat nyt samalla pelikentällä. Muista poiketen Claude on hybridimalli, eli rajapinta tarjoaa vain yhden mallin, mutta sen vastaukset riippuvat siitä miten haluat sen vastaavan. Ajattelun syvyyttä voi säätää yksinkertaisesti määrittämällä halutun tokenibudjetin. Uuden mallin tuotoskonteksti on kasvatettu yli 15-kertaiseksi 128 tuhanteen tokeniin mikä auttaa ajattelutehtävissä, sillä ajattelu käyttää tokeneita ja vanhojen mallien maksimi oli vain 8k.

Anthropic sanoo keskittyneensä mallin koulutuksessa enemmän oikean elämän haasteisiin kuin matemaattisten ja koodikilpailutehtävien ratkomiseen. Tämä selkeästi näkyy ainakin tähän mennessä julkaistuista testimittauksista. Claude kipusi välittömästi Aiderin LLM Leaderboards-tulosten kärkeen. Anthropicin itse ilmoittamissa SWE Bench verified tuloksissa uusi Claude on kivunnut jo 49 prosentista 62 prosenttiin, mikä on valtava harppaus. Ainakin “pallo pyörivän kuusikulmion sisällä” näyttää hyvältä.

SWE Benchmark

Jaoin Hacker News -keskustelussa oman ensikokemukseni, joka oli melko positiivinen. Claude ratkaisi 39 sekunnissa ongelman, jonka kanssa olin siihen mennessä tapellut jo kokonaisen päivän. (Ks. kehote ja vastaus)

Kuten aiemminkin, Anthropic julkaisi uuden Clauden yhteydessä kattavan systeemikortin (PDF), jossa kerrotaan mallin käytöksestä ja koulutuksesta tarkemmin. (Siitä selviää muun muassa, että uudella mallilla on joskus taipumusta jäädä autonomisesti testejä kirjoittaessa ikuiseen luuppiin, jonka se katkaisee keksimällä hatusta keksittyjä reunaehtoja joilla se saa testit menemään läpi. Tätä voi välttää opastamalla mallia oikein.)

Uusi Claude on tätä kirjoittaessa saatavilla Claude.ai:n lisäksi jo useimmissa rajapintapalveluissa, ja editoreista ainakin Cursorissa, VS Codessa (Github Copilot) ja Zedissä. Joskin jälkimmäisessä Github Copilot ei ainakaan itselleni päivittynyt vielä. Myös esim. ChatWise on päivitetty jo.

Claude Code

Mallipäivitystä kenties enemmän hypeä on nostattanut uusi Claude Code komentorivityökalu, joka julkaisiin “Research Preview” statuksella. Yksinkertainen pnpm add -g @anthropic-ai/claude-code komento asentaa paketin globaalisti, minkä jälkeen ohjelma aukeaa komentamalla claude. (Oauth—kirjautumiseen vaaditaan Anthropicin API-tunnus.)

Dokumentaatio kertoo mistä on kyse. Claude Codea voi käyttää vähän Aiderin tavoin komentoriviltä siten, että se tekee itsenäisesti asioita ja kirjoittaa tekemänsä koodin suoraan levylle. Säästyt siis kopipastelta. Mutta toisaalta köyhdyt melko nopeasti oikeassa rahassa, nimittäin API-tokenit maksavat edelleen samat $3/1M sisään ja $15/1M ulos, ja Claude Code käyttää niitä järkyttävästi. “Vain $0.08 listata tiedostot hakemistosta. Shakkimatti, kehittäjät!” naljailtiin Twitterissä.

Jos Claude Code kehitystä jatketaan (mikä on epävarmaa, koska se on suljettu projekti lokerossa jossa on hirmuisen hurja kilpailu myös avoimien projektien kesken), siitä voi tulla jotain aidosti hyödyllistä. Mutta nykyisellään en suoltaisi rahaani sille, koska Aider on jo olemassa ja toimii murto-osalla tokeneita, ja myös Github Copilotin saa halutessaan näkemään koko projektin kerralla jolloin käyttö sisältyy kuukausimaksuun.

Muuta mielenkiintoista

  • Claude.ai-palvelussa voi nyt yhdistää GitHub-projektin joko yksittäiseen keskusteluun tai projektiin. Ominaisuus on selkeästi vielä vähän lapsenkengissään ja konteksti täyttyy jo keskikokoisestakin reposta (tai jopa isosta tiedostosta), mutta tämä on silti älyttömän kätevä toiminnallisuus.
  • Amanda Askell twiittasi, että AGI määritellään tämän jälkeen “miksi tahansa malliksi joka saavuttaa Mewtwon”
  • Tarkkakorvaisimmat huomasivat tarmasti, että edellisen mallin versio oli 3.5. Mutta koska siitä tehtiin lokakuussa päivitys (“claude-3-5-sonnet-20240620” vs “claude-3-5-sonnet-20241022”), tätä uutta mallia alettiin yhteisössä kutsumaan versioksi 3.6. Siispä nyt 3.7. Tämä nimeämisfarssi on niin surullisenhauska, että siitä pitäisi ehkä kirjoittaa kokonainen blogipostaus.
  • Simon Willison piirrättää uusilla kielimalleilla tunnetusti pelikaaneja polkupyörällä. Kehitin viime vuonna itse oman vastaavan:

“Piirrä svg-kuva trailerilla olevasta veneestä”

Claude 3.7 Sonnet

Trailerilla oleva vene

Claude 3.7 Sonnet Thinking

Trailerilla oleva vene

Ei jarruja

Tämänkin julkaisun yhteydessä on hyvä muistaa, että miten kielimallien nykyisen suoritustason henkilökohtaisesti kokeekin, kehitys menee tästä vain eteenpäin.

GPT-4:n julkaisusta on aikaa melko tarkkaan kaksi vuotta, ensimmäisen ajattelevan mallin julkaisusta on vain viisi kuukautta. Skeptikoiden povaamasta kehityksen hidastumisesta ei ole pienintäkään merkkiä. Suosittelen tarkistamaan turvavyöt.


Kommentit