Egy mesterséges intelligencia képgenerátort tanítottak meg zenét készíteni

A mesterséges intelligencia (AI) által generált zene már valósággá vált. Az AI-eszközök mostantól csak szöveges üzenettel tudnak zenét létrehozni, és az eredmények minden várakozást felülmúlnak.

Ez azonban nem jelenti azt, hogy az AI-eszközök közvetlenül tudnak zenét létrehozni. Ehelyett a zene AI képgenerátorokon megy keresztül, amelyek spektrogrammokat hoznak létre a zenéről. Ezután ezeket a spektrogramokat audio klipekké konvertálhatja. Ez azt jelenti, hogy a mesterséges intelligencia által generált zene a jövőben felváltja az ember által készített zenét?

A képalapú mesterséges intelligencia számítógépes algoritmusokat tanít meg a helyek és tárgyak képeinek felismerésére. Ezt követően algoritmusokat használnak a hasonló, de egyedi képek reprodukálására. A DALL-E és a Stable Diffusion jó példa erre. Egyelőre ezeket a programokat bármit előállíthatja, amit csak akar. Mind a szövegen keresztül!

Tehát az AI eszközt, amely spektrogramokat hozhat létre, Riffúziónak hívják. Ez a legújabb mesterséges intelligencia projekt, és lényegét tekintve stabil diffúzión (Stable Diffusion) alapuló képek generátora szövegből. De hogyan vált képessé a zene generálására?

A Riffusion mögött Heik Martiros robotikus és Seth Forsgren szoftverfejlesztő áll. Azt akarták tesztelni, hogy a modern AI programok működhetnek-e az audio területen. Így kezdődött a Riffusion zeneszerzési útja. Forsgren így beszél a technológiáról: „Hake és én egy kis zenekarban játszunk együtt, és csak azért kezdtük a projektet, mert szeretjük a zenét. Miután láttuk a Stable Diffusion imázsgenerálásban elért lenyűgöző eredményeit, feltettük magunknak a kérdést, hogy milyen lenne diffúziós megközelítést használni a zene létrehozásához?

Ennek kiderítésére egy kétfős csapat betanította a nyílt forráskódú Stable Diffusion-t spektrogramképekre. Ezeket kombinálták a szöveggel. Ezt követően a program bizonyos nyomok alapján zenei spektrogramokat tudott készíteni.

Először nem tudták, hogy a Stable Diffusion modellarchitektúra képes-e megfelelő pontosságú spektrogramképet létrehozni ahhoz, hogy hanggá konvertálja, de kiderült, hogy képes erre és még sok másra is. Martiros és Forsgren a Riffusion hivatalos honlapján tette közzé eredményeit. Eleinte hobbi projekt volt. Most azonban a látogatók hozzáadhatják saját szöveges tippeiket. Ez arra kényszeríti a Riffúziót, hogy spektrogramot generáljon. Később a látogatók hangklipként használhatják, és lejátszhatják az oldalon.

Az eredmények ebben a szakaszban nem biztos, hogy túl jó minőségűek. De biztosan nem olyan rossz, mint gondolnád.

A Riffusion olyan dalokat is megkísérelhet lejátszani, amelyek tartalmazzák rap Eminem stílusában és K-Pop. De a dalszöveggenerálás funkciója nem olyan jó. Szöveg helyett dallamos emberi halandzsát fog hallani. De a legérdekesebb az, hogy ez a halandzsa még mindig passzol a dal hangvételéhez.

Ez a technológia még nem áll készen arra, hogy helyettesítse az ember által készített zenét. De a projekt megmutatta nekünk, hogy az AI képfeldolgozó algoritmusok még mindig nagy lehetőségeket rejtenek magukban. Hamarosan zeneszerzők asszisztensévé válhat. Talán azért, hogy ihletet merítsek egy dal írásához.

Segíthet Ukrajnának az orosz megszállók elleni küzdelemben. Ennek legjobb módja, ha adományokat adományoz az ukrán fegyveres erőknek ezen keresztül Savelife vagy a hivatalos oldalon keresztül NBU.

Szintén érdekes:

forrásgizchina

Regisztrálj

0 Hozzászólások

Beágyazott vélemények

Az összes megjegyzés megtekintése

Egyéb cikkek

Egy mesterséges intelligencia képgenerátort tanítottak meg zenét készíteni

Legutóbbi hozzászólások