Mi az a Gemini: Mindent a Google új AI-modelljéről

08/02/2024 22:28

A Google a napokban adta ki a valaha nevezett legerősebb mesterséges intelligencia modelljét Gemini. Mi ő és mit tehet? Mindenről cikkünkben.

A Google évek óta fejleszti saját AI-eszközeit. A ChatGPT-3 OpenAI nyilvános kiadásával a világ legnépszerűbb keresőjét üzemeltető cég is készített egy hasonló eszközt, a Bardot. De ez az eszköz továbbra is elveszett a versenytársakkal szemben, amit a Google nem engedhetett meg. Ezért nem meglepő, hogy a közelmúltban a világ látta a Geminit, a Google új nyelvi modelljét, amelyről a bemutató során ismerkedtünk meg.

Nemcsak az óriáscég korábbi LLM-jét (Large Language Model) hivatott továbbfejleszteni, hanem teljesen új lehetőségeket kínál a szövegfeldolgozás, a grafika és a hangzás területén.

Tehát nézzük meg közelebbről az új Google Gemini nyelvi modellt.

Szintén érdekes: OpenAI Project Q*: mi ez, és miért aggaszt a projekt

TARTALOM

1. Mi az a Google Gemini?

2. Ki készítette a modellt?

3. Lehetőségek

4. Vannak különböző verziók?

5. Hogyan lehet elérni a Geminit?

6. Gemini a Google Bardnál: Mi fog változni?

7. Gemini a Google Pixel okostelefonokban

8. Miben különbözik a Gemini a többi mesterséges intelligencia modelltől, például a GPT-4-től?

9. Aggályok a pontosság és a pártatlanság miatt

10. A jövő az Ikreknél van

Mi az a Google Gemini?

Ez a mesterséges intelligencia új és hatékony modellje a Google-tól, amely nemcsak szöveget, hanem képeket, videókat és hangot is képes megérteni. Ezt a multimodális modellt úgy írják le, mint amely képes összetett feladatokat végrehajtani a matematikában, a fizikában és más területeken, valamint képes megérteni és kiváló minőségű kódot generálni különféle programozási nyelveken.

A Gemini jelenleg a Google Bard és a Google Pixel 8 integrálásával érhető el, és fokozatosan bekerül a többi Google szolgáltatásba.

"A Gemini a Google csapatai, köztük a Google Research munkatársai közötti hatalmas együttműködés eredménye." – mondta Dennis Hassabis, a Google DeepMind vezérigazgatója és társalapítója. "Az alapoktól kezdve multimodálisnak készült, ami azt jelenti, hogy képes általánosítani és zökkenőmentesen megérteni, kezelni és kombinálni a különböző típusú információkat, beleértve a szöveget, kódot, hangot, képeket és videót."

Szintén érdekes: Nem minden, amit AI-nak nevezünk, valójában mesterséges intelligencia. Íme, amit tudnod kell

Ki készítette a modellt?

Amint azt valószínűleg már sejtette, a Geminit a Google és az Alphabet, a Google anyavállalata hozta létre, és ez a cég eddigi legfejlettebb mesterségesintelligencia-modellje. A Google DeepMind részlege is jelentősen hozzájárult a fejlesztéséhez. Egyelőre nem tudni, hány alkalmazott vett részt a fejlesztésben, és milyen forrást különítettek el erre, de a Google adottságait ismerve biztosak lehetünk benne, hogy igen nagy összegről van szó.

Szintén érdekes: Windows 12: Mi lesz az új operációs rendszer?

Lehetőségek

Mint fentebb megjegyeztem, ez egy multimodális modell, ami azt jelenti, hogy képes megérteni, kezelni és kombinálni a különböző típusú adatokat, beleértve a szöveget, kódot, hangot, képeket és videót. Jobb megértést, gondolkodást és kódolási készségeket biztosít a korábbi AI-rendszerekhez képest.

A modell főbb képességei a következők:

Természetes nyelvi feldolgozás olyan feladatokhoz, mint a fordítás, az összegzés és a párbeszéd
Matematikai gondolkodás és problémamegoldás
Képes kódot és dokumentációt generálni
Kép, hang és videó megértése
Multitasking különböző területeken

Mint látható, a képességek felülmúlják a többi modellt.

A nyelvi megértés, a matematikai gondolkodás és a kódolás tesztjein a Gemini Ultra felülmúlta az olyan modelleket, mint a GPT-4. Ez az első olyan modell, amely felülmúlja az emberi szintű teljesítményt a Massive Multitask Language Understanding (MMLU) tesztben, és több mint 90%-os pontosságot ér el.

Egy nagy nyelvi modellvizsgálat 32 akadémiai tesztjében a Gemini felülmúlta a GPT-4-et. 30 esetben a Google új nyelvi modellje jobb volt a versenytársnál. Ez azt mutatja, hogy a modell képes teljes mértékben megérteni a nyelvet.

Olvassa el még: Human Brain Project: Kísérlet az emberi agy utánzására

Vannak különböző verziók?

A Google ezt az AI-t rugalmas modellként írja le, amely bármilyen eszközön működik: a Google adatközpontjaitól a mobileszközökig. A méretezhetőség elérése érdekében a Gemini három változatban érhető el: Nano, Pro és Ultra.

Beszéljünk részletesebben a Gemini különböző változatairól.

Gemini Nano: Úgy tervezték, hogy okostelefonokon, különösen a Google Pixel 8-on működjön. Úgy tervezték, hogy olyan feladatokat hajtson végre, amelyek mesterséges intelligencia általi hatékony feldolgozást igényelnek anélkül, hogy külső szerverekhez kapcsolódnának, mint például válaszok javaslata chatprogramokban vagy szövegösszegzés. Ez a kompakt készülékmodell körülbelül 6 milliárd paraméterrel rendelkezik.
GeminiPro: a Google adatközpontjaiban fut. A Pro a Bard AI chatbot legújabb verziójával való együttműködésre készült. Képes gyors válaszidőt biztosítani és megérteni az összetett lekérdezéseket. Egy közepes méretű modell körülbelül 100 milliárd paraméterrel rendelkezik, és Bard társalgási mesterséges intelligenciájának magja. A Pro a Google Cloudon keresztül lesz elérhető.
Gemini Ultra: bár az Ultra verzió még nem érhető el széles körben, a Google a legjobban teljesítő modellnek írja le, amely meghaladja a "nagy nyelvi modellek (LLM) kutatásában használt 30 széles körben használt akadémiai teszt közül 32-ban a jelenlegi legmodernebbet. " A legnagyobb és legerősebb verzióként az Ultra több mint 1 billió paramétert kap. Adatközpontokban lesz elhelyezve. Az Ultra vállalati használatra készült. A verziót nagyon összetett feladatok elvégzésére tervezték. A Google azt tervezi, hogy a jelenlegi tesztelési szakasz vége után kiadja. Vagyis a legerősebb verzió még nem elérhető a felhasználók számára.

Szintén érdekes: Google Bard AI: Minden, amit tudnod kell

Hogyan lehet elérni a Geminit?

Az AI in Nano és Pro verziója már elérhető a Google termékeiben, például a Google Pixel 8 okostelefonokban és a Bard chatbotban. A Google azt tervezi, hogy végül integrálja keresőjébe, hirdetéseibe, Gmail e-mail szolgáltatásába, Chrome böngészőjébe és más szolgáltatásaiba.

A fejlesztők és a vállalati ügyfelek 13. december 2023-tól érhetik el a Pro-t a Google AI Studio és a Google Cloud Vertex AI Gemini API-ján keresztül. Fejlesztők Android hozzáférhet a Nano verziójú modellhez az AICore-on keresztül, amely egy korai előzetesben lesz elérhető.

Olvassa el még: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: A két jokozun csatája

Gemini a Google Bardnál: Mi fog változni?

Az előadás során elhangzott információk szerint a modell lehetővé teszi a Google Bard számára, hogy jobban kezelje az összetettebb problémákat, ahogy elhangzott:

„A Geminit úgy terveztük meg, hogy a modell természetesen multimodális legyen, és a kezdetektől fogva több módozatra is előképzett legyen. Ezt követően a teljesítmény javítása érdekében több multimodális adat hozzáadásával finomítottuk. Ennek eredményeként a Gemini sokkal jobban ért és következtet, mint a korábbi multimodális modellek, és szinte minden területen a legmodernebb képességekkel büszkélkedhet.

A Gemini rendkívüli multimodális képességei segítenek megérteni az összetett szöveges és vizuális információkat. Különösen akkor hasznosak, ha hatalmas adatkészletekből konkrét információkat nyerünk ki. Ennek a modellnek a rendkívüli képessége, hogy több százezer dokumentumból kinyerje az információ lényegét azok olvasásával, szűrésével és elemzésével, kétségtelenül hozzájárul az új, villámgyors felfedezésekhez a tudománytól a pénzügyekig különböző területeken."

Az előadás során egy komplex tanulmány példáját mutatták be, amely több mint 200 ezer rekordot tartalmaz, amelyek egy részét új adatok szerint frissíteni kellett. Amint azt sejteni lehetett, ennek manuális végrehajtása nagyon időigényes lenne, ezért a tanulmány szerzői a Gemini segítségével készítették elő a kódot, amely átvette a bevitelt és elvégezte a szükséges frissítéseket. Egy másik, valósabb példa a Google nyelvi modelljének használata matematikai vagy fizikai problémák magyarázatára.

A bemeneti adat itt egy iskolai lecke feladatának fényképe/szkennelése volt. A rendszer képes volt feldolgozni az ott tárolt grafikákat és szövegeket, majd jelezni, hogy a házi feladat mely részei készültek el helyesen és melyek igényelnek nagyobb figyelmet. Az előadás megmutatta, hogy a felhasználó többször is megkérheti Geminit, hogy magyarázzon el egy feladatot, és minden további próbálkozást egyszerűbb nyelven kell elmagyarázni. Hogy az Ikrek mennyire pontosak és korrektek, azt természetesen ellenőrizni fogják az érdeklődők, de az a képesség, hogy közvetlenül a fényképekről lehet szöveget olvasni és feldolgozni, lenyűgöző. Ahogy az előadás során hozzátették:

"Az Ikreket megtanították egyszerre felismerni és megérteni szöveget, képeket, hangokat és még sok mást. Ennek köszönhetően jobban megérti az információk árnyalatait, és tud válaszolni összetett kérdésekre. Különösen hatékony a matematikával és fizikával kapcsolatos témák magyarázatában, így személyes házi segítőként is szolgálhat".

Gemini a Google Pixel okostelefonokban

A Google azzal is dicsekedett, hogy a Gemini "tanul" az új TPUv5 lapkakészletekről, és 2024 elején tervezi bemutatni a Gemini Ultra-t, amely a Bard Advanced-et, az óriás beszédmodelljének fogyasztói változatának új verzióját fogja használni. A Gemini Ultra jelenleg tesztelés alatt áll, és bizonyos biztonsági szakértők számára már elérhető.

Az utolsó fontos információ a Gemini bemutatása a Google Pixel 8 okostelefonokban, amely lehetővé teszi többek között a gyors válaszok létrehozását a Gboard alkalmazáson keresztül a messengerekben. Az első a WhatsApp, de jövőre más, kommunikációval kapcsolatos alkalmazásokban is megjelennek az ilyen megoldások. Ez azonban még csak a kezdet, a Google ugyanis számos új AI-eszközt jelentett be a Pixel 8 okostelefonokhoz, amelyek a jövőben néhány más eszközön is elérhetőek lesznek. Android. Ezek azonban további tervek, és egyelőre nem közöltek részleteket.

Miben különbözik a Gemini a többi mesterséges intelligencia modelltől, például a GPT-4-től?

A Google új Gemini modellje a mai napig az egyik legnagyobb és legfejlettebb mesterséges intelligencia modellnek tűnik, bár az Ultra modell megjelenése ezt biztosan meghatározza. A jelenleg mesterséges intelligencia chatbotokat használó többi népszerű modellhez képest a Gemini saját multimodális funkciójával tűnik ki, míg más modellek, mint például a GPT-4, pluginokra és integrációra támaszkodnak, hogy valóban multimodálisak legyenek.

Aggályok a pontosság és a pártatlanság miatt

Bár a Gemini jelentős előrelépést jelent a mesterséges intelligencia képességeinek fejlesztésében, ugyanazok a hiányosságai vannak, mint a többi fő nyelvi modellnek. Először is ez a hamis információ létrehozásának lehetősége. A torzítások az új nyelvi modellhez rendelkezésre álló képzési adatokon is alapulnak. Érdemes megemlíteni a való világ korlátozott megértését is. A Google elismeri, hogy az új Gemini modell hibázhat, olyan tényeket közöl, amelyek nem alapulnak bizonyítékokon és ellentmondanak a józan észnek.

További tesztekre van szükség, különösen a Gemini Ultra esetében, amely új, még nem teljesen feltárt képességekkel rendelkezik. A Google elkötelezett amellett, hogy gondosan értékelje a Geminit, hogy minimalizálja a lehetséges károkat.

Szintén érdekes: Minden amiről szól Microsoft Másodpilóta: a jövő vagy a rossz út?

A jövő az Ikreknél van

A Gemini elindítása a Google által az AI fejlesztésének új korszakát nyitotta meg. A korábbi modellekhez és emberi alapállásokhoz képest a legjobb teljesítményével a Gemini a mesterséges intelligencia jövőbeli lehetőségeire mutat rá, de bizonyos hiányosságok kiküszöbölése érdekében még további kutatásokra van szükség.

A jövőben várhatóan a Gemini hasznosabb és intelligensebb funkciókat kínál majd a Google-termékekben. A jövőben a vállalat azt tervezi, hogy tovább bővíti a Geminit az angol nyelven túl, és az alapmodell módszertanára épít.

Csak nézhetjük és remélhetjük, hogy a Google tudja, mit csinál.

Olvassa el még:

Megosztás

Yuri Svitlyk

A Kárpátok fia, a matematika el nem ismert zsenije, "jogász"Microsoft, gyakorlati altruista, bal-jobb

Következő cikk Acer bejelentette a Predator Extreme elektromos robogót, új játékmonitorokat és laptopokat »

Előző cikk « A Homeworld 3 megjelenését 2024 májusára halasztották

Hagy egy Válaszol

Címkék: GooglekiválasztottMesterséges intelligencia