Root NationHírekinformatikai újságAz AI ábra humanoid AI robotjának új képességeit mutatta be

Az AI ábra humanoid AI robotjának új képességeit mutatta be

-

A humanoid robotok fejlesztése lassan két évtizede haladt, de az utóbbi időben egyre több áttörést láthatunk ezen a területen. Ahogy nemrég írtuk, az MWC 2024-en bemutattak egy AI robotot Amecaés egy másik fejlesztés, Unitree H1, megdöntötte a sebességrekordot a humanoid robotok között. Most pedig a Figure AI és az OpenAI cégek együttműködésének látványos eredménye jelent meg az interneten – egy lenyűgöző videó egy humanoid robotról, amely immár képes beszélgetéseket folytatni az emberekkel.

ábra Az AI és az OpenAI bemutatott egy új humanoid robotot AI-val

A Startup Figure AI kiadott egy videót, amely a 01. ábra szerinti robotot az új Visual Language Modell (VLM) segítségével mutatja be. Ebben a 01. ábra egy asztalnál áll, amelyen egy tányér, egy alma és egy csésze van. Bal oldalon van egy szárító. Az ember kérdésére pedig, hogy mit lát maga előtt a robot, úgy válaszol, hogy részletesen leír mindent, ami az asztalon hever.

És akkor a férfi megkérdezi, ehet-e valamit, mire a robot azt válaszolja: „Persze”, majd egy ügyes, sima mozdulattal veszi az almát, és átnyújtja a férfinak. Ezt követően egy újabb lenyűgöző bemutató következik – egy férfi összegyűrt szemetet önti ki egy kosárból a 01. ábra elé, és megkéri a robotot, hogy magyarázza el, miért tette ezt, és egyúttal gyűjtse össze a szemetet a kosárba. És kifejti "gondolatát", miközben visszateszi a papírt a szemétbe. – Szóval adtam neked egy almát, mert ez az egyetlen ehető tárgy, amit le tudtam adni az asztalról – mondta a robot.

A vállalat képviselői elmagyarázták, hogy a 01. ábra egy előre betanított multimodális modellt használ OpenAI, VLM, a képek és szövegek megértéséhez, és hangutasításokra támaszkodik a válaszok generálásához. Ez különbözik mondjuk az OpenAI GPT-4-étől, amely az írásbeli promptokra összpontosít.

A cég által "tanult alacsony szintű bimanuális manipulációkat" is használ. A rendszer koordinálja a pontos képkalibrációt (a pixelszintig) neurális hálózatával a mozgásvezérlés érdekében. "Ezek a hálózatok 10 Hz-en fogadják a képeket, és 24 Hz-en 200-DOF műveleteket (csuklópózokat és ujjízületi szögeket) generálnak" - áll a Figure AI közleményében.

A cég azt állítja, hogy a videóban szereplő minden viselkedés a rendszertanuláson alapul, így a színfalak mögött senki sem rángatja a 01. ábra húrját. Természetesen van egy árnyalat - nem ismert, hogy a robot hányszor ment keresztül ezen az eljáráson. Talán ez volt a századik alkalom, ami megmagyarázza pontos mozdulatait. De mindenesetre ez a teljesítmény látványosnak és egy kicsit fantasztikusnak tűnik.

Olvassa el még:

forrástechradar
Regisztrálj
Értesítés arról
vendég

0 Hozzászólások
Beágyazott vélemények
Az összes megjegyzés megtekintése