DeepScaleR - pikkurahalla tuunattu R1 parempi kuin O1-Preview?

Berkeleyn AI-laboratorion tutkijoiden julkaisema paperi demonstroi avoimen lähdekoodin voimaa: vain noin 4500 dollaria kustantaneella vahvistusoppimisella tuunattu 1.5B R1 päihitti AIME2024 testissä Open AI:n O1-Preview mallin. Tämä lisää vahvaa näyttöä siitä, että avoin tutkimus vie kielimallien kehitystä eteenpäin paljon nopeammin harppauksin kuin satojen miljardien budjeteilla toimivat Piilaakson yritykset.

Vahvistusoppimisen käytöksestä paljastui mielenkiintoinen detalji:

These results suggest that the model attempts to improve training rewards by “thinking longer.” However, as it generates longer responses, it increasingly encounters the 8K context window ceiling, thus limiting further improvements.

Kun tulevien mallien konteksti-ikkunaa saadaan kasvatettua merkittävästi nykyisestä, vahvistusoppimisella voitaneen päästä hurjiin saavutuksiin. Tämän hetken kehitystahdilla seuraavat 1-2 vuotta tulevat olemaan erittäin mielenkiintoisia.

Koneoppiblogi

DeepScaleR - pikkurahalla tuunattu R1 parempi kuin O1-Preview? (pretty-radio-b75.notion.site)

Kommentit