Microsoft A Kosmos-1 megnyitja az utat az emberi szintű AI felé

E hét elején a kutatók a Microsoft bemutatta a Kosmos-1-et, egy multimodális mesterséges intelligencia-modellt, amely képes tartalom céljából képeket elemezni, vizuális rejtvényeket megoldani, vizuális szövegfelismerést végezni, vizuális IQ-teszteket végezni, és megérteni a természetes nyelvi utasításokat. A kutatók szerint az ilyen mesterséges intelligencia modellek az első lépést jelentik egy olyan mesterséges általános intelligencia (AI) létrehozása felé, amely képes közös emberi szintű feladatokat ellátni. Vagyis ez a technológia képes lesz helyettesíteni az embert bármilyen szellemi feladatban. És ez az OpenAI, kulcsfontosságú üzleti partner kinyilvánított célja Microsoft a mesterséges intelligencia területén.

Ebben az esetben a Kosmos-1 a vállalat tisztán személyes fejlesztése Microsoft. A kutatók alkotásukat "multimodális széles nyelvi modellnek" (MLLM) nevezik, mivel annak gyökerei a csak szöveges természetes nyelvi feldolgozásban rejlenek, mint például az LLM, például a ChatGPT. Ahhoz, hogy a modell elfogadhassa a bemeneti képeket, a kutatóknak először a képeket egy speciális tokenek (főleg szöveggé) kell alakítaniuk, amelyet az LLM megért.

A Kosmos-1-et egy internetes adatbázisra képezték ki, beleértve a The Pile (800 GB-os angol szöveges forrás) és a Common Crawl kivonatait. Ezt követően a modellt számos teszttel tesztelték a beszédértés, beszédgenerálás, szövegosztályozás optikai karakterfelismerés nélkül, képaláírás, vizuális kérdésmegválaszolás, weboldal kérdések megválaszolása és képosztályozás lokalizációval. Alapján Microsoft, a Kosmos-1 felülmúlta a jelenlegi modelleket sok ilyen tesztben.

Különösen érdekes volt a Raven's Progressive Reasoning teszt, amely a vizuális IQ-t úgy méri, hogy bemutat egy alakzatsorozatot, és megkéri az alanyt, hogy fejezze be a sorozatot. A Kosmos-1 az esetek 22%-ában tudott helyes választ adni.

Ezek a korai lépések, amelyek a jövőbeni optimalizálással még jelentősebb eredményeket hozhatnak, lehetővé téve az AI-modellek számára, hogy bármilyen médiát érzékeljenek és befolyásoljanak, jelentősen kibővítve a mesterséges asszisztensek képességeit.

Olvassa el még:

forrásarttechnica

Regisztrálj

0 Hozzászólások

Beágyazott vélemények

Az összes megjegyzés megtekintése

Egyéb cikkek

Microsoft multimodális megközelítést mutatott be, amely utat nyitott az emberi szintű AI felé

Legutóbbi hozzászólások