A Meta bemutatta az új, erőteljes mesterséges intelligencia modellt, a Llama 2 Longot

Meta Platformok az éves Meta Connect eseményen Kaliforniában bemutatott számos új AI-szolgáltatás népszerű alkalmazásaihoz Facebook, Instagram és a WhatsApp, de a technológiai óriás leglenyűgözőbb újítása sokak számára észrevétlen maradhatott. A Llama 2 Long AI modellről beszélünk.

A Meta cég kutatóinak egy csoportja valahogy halkan közzétett egy cikket, amelyben bemutatták a mesterséges intelligencia új modelljét, a Llama 2 Long-ot, amely képes koherens és releváns válaszokat generálni a hosszú felhasználói kérdésekre. Legfeljebb azt mondják, hogy felülmúlja az iparág néhány legjobb versenytársát.

A Llama 2 Long egy kiterjesztés Láma 2, a Meta nyáron megjelent nyílt forráskódú mesterséges intelligencia-modellje, amely különféle adatforrásokból tanulhat, és különféle feladatokat hajthat végre, mint például a kódolás, a matematika, a nyelvértés stb. A Llama 2 Long azonban több, hosszabb szöveget tartalmazó adatra lett kiképezve, és ezt az algoritmust úgy módosították, hogy hosszabb információsorozatokat tudjon kezelni. Ez lehetővé teszi, hogy felülmúlja az OpenAI GPT-3.5 Turbóját és a Claude 2-ét, amelyek korlátozzák a válaszok generálására használható kontextus mennyiségét.

Kutatók meta a Llama 2 különböző verzióit használta - 7 milliárdtól 70 milliárd paraméterig, azaz olyan értékig, amelyet az AI-modell az adatokból tanulva megváltoztathat. További 400 milliárd tokent (szövegegységet) adtak hozzá, amelyek hosszabb szövegeket tartalmaztak, mint az eredeti modelladatkészlet. Kissé módosították az AI-modell architektúráját is a Rotary Positional Embedding (RoPE) technikával, hogy a modell pontos és hasznos válaszokat tudjon generálni kevesebb információ és memória felhasználásával, mint más módszerek.

Láma 2

A csapat az emberi visszacsatolásból származó megerősítő tanulást (RLHF) alkalmazta, egy olyan módszert, ahol az AI-modellt a helyes válaszokért jutalmazzák, és az emberi értékelők javítják, a szintetikus adatokat pedig maga a Llama 2 chat generálja, hogy javítsa teljesítményét a különböző feladatokban. .

A cikk azt állítja, hogy a modell akár 200 40 karakter hosszúságú, körülbelül 2 oldalas szövegnek megfelelő, kiváló minőségű válaszokat tud generálni a felhasználói felszólításokra. A kutatók szerint a Llama XNUMX Long egy lépés az általánosabb és sokoldalúbb mesterséges intelligencia modellek létrehozása felé, amelyek képesek megfelelni a felhasználók összetett és változatos igényeinek. Felismerik az ilyen modellek lehetséges etikai és társadalmi vonatkozásait is, és további kutatásra és párbeszédre szólítanak fel a felelősségteljes és jótékony felhasználásukról.

Olvassa el még:

forrásérdekes mérnöki

Regisztrálj

0 Hozzászólások

Beágyazott vélemények

Az összes megjegyzés megtekintése

Egyéb cikkek

A Meta bemutatta a Llama 2 Long AI modellt, amely jobban működik hosszú lekérdezések esetén

Legutóbbi hozzászólások