A Google a napokban adta ki a valaha nevezett legerősebb mesterséges intelligencia modelljét Gemini. Mi ő és mit tehet? Mindenről cikkünkben.
A Google évek óta fejleszti saját AI-eszközeit. A ChatGPT-3 OpenAI nyilvános kiadásával a világ legnépszerűbb keresőjét üzemeltető cég is készített egy hasonló eszközt, a Bardot. De ez az eszköz továbbra is elveszett a versenytársakkal szemben, amit a Google nem engedhetett meg. Ezért nem meglepő, hogy a közelmúltban a világ látta a Geminit, a Google új nyelvi modelljét, amelyről a bemutató során ismerkedtünk meg.
Nemcsak az óriáscég korábbi LLM-jét (Large Language Model) hivatott továbbfejleszteni, hanem teljesen új lehetőségeket kínál a szövegfeldolgozás, a grafika és a hangzás területén.
Tehát nézzük meg közelebbről az új Google Gemini nyelvi modellt.
Szintén érdekes: OpenAI Project Q*: mi ez, és miért aggaszt a projekt
Ez a mesterséges intelligencia új és hatékony modellje a Google-tól, amely nemcsak szöveget, hanem képeket, videókat és hangot is képes megérteni. Ezt a multimodális modellt úgy írják le, mint amely képes összetett feladatokat végrehajtani a matematikában, a fizikában és más területeken, valamint képes megérteni és kiváló minőségű kódot generálni különféle programozási nyelveken.
A Gemini jelenleg a Google Bard és a Google Pixel 8 integrálásával érhető el, és fokozatosan bekerül a többi Google szolgáltatásba.
"A Gemini a Google csapatai, köztük a Google Research munkatársai közötti hatalmas együttműködés eredménye." – mondta Dennis Hassabis, a Google DeepMind vezérigazgatója és társalapítója. "Az alapoktól kezdve multimodálisnak készült, ami azt jelenti, hogy képes általánosítani és zökkenőmentesen megérteni, kezelni és kombinálni a különböző típusú információkat, beleértve a szöveget, kódot, hangot, képeket és videót."
Szintén érdekes: Nem minden, amit AI-nak nevezünk, valójában mesterséges intelligencia. Íme, amit tudnod kell
Amint azt valószínűleg már sejtette, a Geminit a Google és az Alphabet, a Google anyavállalata hozta létre, és ez a cég eddigi legfejlettebb mesterségesintelligencia-modellje. A Google DeepMind részlege is jelentősen hozzájárult a fejlesztéséhez. Egyelőre nem tudni, hány alkalmazott vett részt a fejlesztésben, és milyen forrást különítettek el erre, de a Google adottságait ismerve biztosak lehetünk benne, hogy igen nagy összegről van szó.
Szintén érdekes: Windows 12: Mi lesz az új operációs rendszer?
Mint fentebb megjegyeztem, ez egy multimodális modell, ami azt jelenti, hogy képes megérteni, kezelni és kombinálni a különböző típusú adatokat, beleértve a szöveget, kódot, hangot, képeket és videót. Jobb megértést, gondolkodást és kódolási készségeket biztosít a korábbi AI-rendszerekhez képest.
A modell főbb képességei a következők:
Mint látható, a képességek felülmúlják a többi modellt.
A nyelvi megértés, a matematikai gondolkodás és a kódolás tesztjein a Gemini Ultra felülmúlta az olyan modelleket, mint a GPT-4. Ez az első olyan modell, amely felülmúlja az emberi szintű teljesítményt a Massive Multitask Language Understanding (MMLU) tesztben, és több mint 90%-os pontosságot ér el.
Egy nagy nyelvi modellvizsgálat 32 akadémiai tesztjében a Gemini felülmúlta a GPT-4-et. 30 esetben a Google új nyelvi modellje jobb volt a versenytársnál. Ez azt mutatja, hogy a modell képes teljes mértékben megérteni a nyelvet.
Olvassa el még: Human Brain Project: Kísérlet az emberi agy utánzására
A Google ezt az AI-t rugalmas modellként írja le, amely bármilyen eszközön működik: a Google adatközpontjaitól a mobileszközökig. A méretezhetőség elérése érdekében a Gemini három változatban érhető el: Nano, Pro és Ultra.
Beszéljünk részletesebben a Gemini különböző változatairól.
Szintén érdekes: Google Bard AI: Minden, amit tudnod kell
Az AI in Nano és Pro verziója már elérhető a Google termékeiben, például a Google Pixel 8 okostelefonokban és a Bard chatbotban. A Google azt tervezi, hogy végül integrálja keresőjébe, hirdetéseibe, Gmail e-mail szolgáltatásába, Chrome böngészőjébe és más szolgáltatásaiba.
A fejlesztők és a vállalati ügyfelek 13. december 2023-tól érhetik el a Pro-t a Google AI Studio és a Google Cloud Vertex AI Gemini API-ján keresztül. Fejlesztők Android hozzáférhet a Nano verziójú modellhez az AICore-on keresztül, amely egy korai előzetesben lesz elérhető.
Olvassa el még: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: A két jokozun csatája
Az előadás során elhangzott információk szerint a modell lehetővé teszi a Google Bard számára, hogy jobban kezelje az összetettebb problémákat, ahogy elhangzott:
„A Geminit úgy terveztük meg, hogy a modell természetesen multimodális legyen, és a kezdetektől fogva több módozatra is előképzett legyen. Ezt követően a teljesítmény javítása érdekében több multimodális adat hozzáadásával finomítottuk. Ennek eredményeként a Gemini sokkal jobban ért és következtet, mint a korábbi multimodális modellek, és szinte minden területen a legmodernebb képességekkel büszkélkedhet.
A Gemini rendkívüli multimodális képességei segítenek megérteni az összetett szöveges és vizuális információkat. Különösen akkor hasznosak, ha hatalmas adatkészletekből konkrét információkat nyerünk ki. Ennek a modellnek a rendkívüli képessége, hogy több százezer dokumentumból kinyerje az információ lényegét azok olvasásával, szűrésével és elemzésével, kétségtelenül hozzájárul az új, villámgyors felfedezésekhez a tudománytól a pénzügyekig különböző területeken."
Az előadás során egy komplex tanulmány példáját mutatták be, amely több mint 200 ezer rekordot tartalmaz, amelyek egy részét új adatok szerint frissíteni kellett. Amint azt sejteni lehetett, ennek manuális végrehajtása nagyon időigényes lenne, ezért a tanulmány szerzői a Gemini segítségével készítették elő a kódot, amely átvette a bevitelt és elvégezte a szükséges frissítéseket. Egy másik, valósabb példa a Google nyelvi modelljének használata matematikai vagy fizikai problémák magyarázatára.
A bemeneti adat itt egy iskolai lecke feladatának fényképe/szkennelése volt. A rendszer képes volt feldolgozni az ott tárolt grafikákat és szövegeket, majd jelezni, hogy a házi feladat mely részei készültek el helyesen és melyek igényelnek nagyobb figyelmet. Az előadás megmutatta, hogy a felhasználó többször is megkérheti Geminit, hogy magyarázzon el egy feladatot, és minden további próbálkozást egyszerűbb nyelven kell elmagyarázni. Hogy az Ikrek mennyire pontosak és korrektek, azt természetesen ellenőrizni fogják az érdeklődők, de az a képesség, hogy közvetlenül a fényképekről lehet szöveget olvasni és feldolgozni, lenyűgöző. Ahogy az előadás során hozzátették:
"Az Ikreket megtanították egyszerre felismerni és megérteni szöveget, képeket, hangokat és még sok mást. Ennek köszönhetően jobban megérti az információk árnyalatait, és tud válaszolni összetett kérdésekre. Különösen hatékony a matematikával és fizikával kapcsolatos témák magyarázatában, így személyes házi segítőként is szolgálhat".
A Google azzal is dicsekedett, hogy a Gemini "tanul" az új TPUv5 lapkakészletekről, és 2024 elején tervezi bemutatni a Gemini Ultra-t, amely a Bard Advanced-et, az óriás beszédmodelljének fogyasztói változatának új verzióját fogja használni. A Gemini Ultra jelenleg tesztelés alatt áll, és bizonyos biztonsági szakértők számára már elérhető.
Az utolsó fontos információ a Gemini bemutatása a Google Pixel 8 okostelefonokban, amely lehetővé teszi többek között a gyors válaszok létrehozását a Gboard alkalmazáson keresztül a messengerekben. Az első a WhatsApp, de jövőre más, kommunikációval kapcsolatos alkalmazásokban is megjelennek az ilyen megoldások. Ez azonban még csak a kezdet, a Google ugyanis számos új AI-eszközt jelentett be a Pixel 8 okostelefonokhoz, amelyek a jövőben néhány más eszközön is elérhetőek lesznek. Android. Ezek azonban további tervek, és egyelőre nem közöltek részleteket.
A Google új Gemini modellje a mai napig az egyik legnagyobb és legfejlettebb mesterséges intelligencia modellnek tűnik, bár az Ultra modell megjelenése ezt biztosan meghatározza. A jelenleg mesterséges intelligencia chatbotokat használó többi népszerű modellhez képest a Gemini saját multimodális funkciójával tűnik ki, míg más modellek, mint például a GPT-4, pluginokra és integrációra támaszkodnak, hogy valóban multimodálisak legyenek.
Bár a Gemini jelentős előrelépést jelent a mesterséges intelligencia képességeinek fejlesztésében, ugyanazok a hiányosságai vannak, mint a többi fő nyelvi modellnek. Először is ez a hamis információ létrehozásának lehetősége. A torzítások az új nyelvi modellhez rendelkezésre álló képzési adatokon is alapulnak. Érdemes megemlíteni a való világ korlátozott megértését is. A Google elismeri, hogy az új Gemini modell hibázhat, olyan tényeket közöl, amelyek nem alapulnak bizonyítékokon és ellentmondanak a józan észnek.
További tesztekre van szükség, különösen a Gemini Ultra esetében, amely új, még nem teljesen feltárt képességekkel rendelkezik. A Google elkötelezett amellett, hogy gondosan értékelje a Geminit, hogy minimalizálja a lehetséges károkat.
Szintén érdekes: Minden amiről szól Microsoft Másodpilóta: a jövő vagy a rossz út?
A Gemini elindítása a Google által az AI fejlesztésének új korszakát nyitotta meg. A korábbi modellekhez és emberi alapállásokhoz képest a legjobb teljesítményével a Gemini a mesterséges intelligencia jövőbeli lehetőségeire mutat rá, de bizonyos hiányosságok kiküszöbölése érdekében még további kutatásokra van szükség.
A jövőben várhatóan a Gemini hasznosabb és intelligensebb funkciókat kínál majd a Google-termékekben. A jövőben a vállalat azt tervezi, hogy tovább bővíti a Geminit az angol nyelven túl, és az alapmodell módszertanára épít.
Csak nézhetjük és remélhetjük, hogy a Google tudja, mit csinál.
Olvassa el még:
Hagy egy Válaszol