DiffRhythm - Avoin malli musiikin tuottamiseen

Kiinalainen tutkimusryhmä on julkaissut ensimmäisen avoimen diffuusioon perustuvan tekoälymallin, joka tuottaa 95 sekunnin musiikkitiedostoja referenssiäänitiedoston ja syötteenä annetun tekstin pohjalta. Täysikokoinen malli kykenee kokopitkiin 4 min 35 s kappaleisiin.

Projektin demosivulla olevat näytteet esittelevät projektin kyvykkyyden hyvin. Pop-musiikin tuottaminen modernien tekoälyalgoritmien avulla on mielenkiintoinen tutkimusala, mikä kertoo ehkä eniten siitä, että populaarimusiikki on varsin homogeenistä. Markkinoilla on kuitenkin jo useampia kaupallistettuja palveluita musiikin tuottamiseen (esimerkiksi Suno ja Udio), joista edistyneimmillä pystyy tuottamaan hyvinkin hissimusakelpoista materiaalia.

Sekä musiikista että koneoppimisesta kiinnostuneena olen seurannut näiden algoritmien kehitystä innokkaana. Nykyään tekoälyyn perustuvien avusteiden käyttö on arkipäivää jo ihan tavallisissa musiikkistudioissa. Ben Goertzel on puhunut paljon siitä, että vaikka nykyiset algoritmit pystyttäneen tuunaamaan erittäin tehokkaiksi “tee minulle Nirvanan ja Red hot Chili Peppersin tyylinen biisi jossa lauletaan haikailevasti musiikin kulta-ajan perään”-hittitehtaiksi, ne eivät kuitenkaan kykenisi keksimään Jazzia. Odotan aikaa, kun tätä käsitystä joudutaan harkitsemaan uudelleen.

Koneoppiblogi

DiffRhythm - Avoin malli musiikin tuottamiseen (aslp-lab.github.io)

Kommentit