4o oppi luomaan kuvia

OpenAI:n 4o-malli sai vihdoin kauan odotetun päivityksen, joka avaa mallin kuvagenerointiominaisuudet. Tekstistä kuvaksi -ominaisuuksissa ei ole mitään uutta, mutta 4o:n toteutuksessa on pari ominaisuutta joissa on potentiaalisen hitin ainesta.

4o on ensimmäinen suurelle yleisölle saatavilla oleva malli, joka osaa luoda ja muokata kuvia iteroimalla, eli lopputulosta voi muokata samassa keskustelussa useampaan otteeseen. Aiemmat kuvia luovat mallit toimivat niin, että syötteen antamisen jälkeen malli generoi aina uuden kuvan, ja jos siihen haluaa muutoksia, joutuu muokkaamaan alkuperäistä kehotetta ja yleensä prosessi tuottaa uusilla kerroilla aina täysin erilaisen kuvan. Uusi 4o ymmärtää, ajatuksen “luo kuva metsästä” ja lisäyksen “lisää siihen hirvi” luomalla ensin yhden kuvan ja lisäämällä samaan kuvaan sen jälkeen hirven.

Toinen hyödyllinen ominaisuus on aiempaa merkittävästi parempi tekstin tuottaminen. OpenAI:n demoissa malli osaa tuottaa esimerkiksi ravintolan menun virheettömällä tekstillä. Tästä on hyötyä lähes kaikissa tilanteissa joissa kuvassa esiintyy mitä tahansa tekstiä kun se ei enää tarkemmalla katsomisella olekaan satunnaista suttua. (Mutta sormien lukumäärän huomioiminen vaikuttaa vieläkin olevan vähän hakusessa!)

Julkaisutiedotteessa on hyviä esimerkkejä kummastakin edellämainitusta. Uusi malli on saatavilla heti pro-käyttäjille ja avataan muille käyttäjille “pian”. Rajapintaan gpt-4o-image malli luvataan kehittäjille “lähiviikkoina”. Tämän tyyppiset mallijulkaisut ovat ärsyttävimmästä päästä, koska esimerkiksi ChatGPT-applikaatio ja Web-käyttöliittymä eivät vielä millään muotoa näytä onko uusi ominaisuus käytössä vai nou, joten käyttäjät ovat takuuvarmasti ihmeissään kun lukevat uutisia päivityksistä mutta eivät kuitenkaan näe muutoksia missään. (En itse päässyt heti käsiksi uuteen malliin mitään reittiä, joten tämä merkintä jäi vaille kuvitusta.)

Sentään uuden mallin mallikorttia on päivitetty (PDF) uusien ominaisuuksien osalta.

PS. Jos haluaa kokea myötähäpeää Piilaakson tapaan, kannattaa katsoa eilinen julkaisustriimi tuubista (~15 min). OpenAI onnistuu joka kerta näyttämään täydellisen pönöttävältä korporaatiovastakohdalta Anthropicin aidosti lämminhenkisille videoille.

Kommentit