A humanoid robotok fejlesztése lassan két évtizede haladt, de az utóbbi időben egyre több áttörést láthatunk ezen a területen. Ahogy nemrég írtuk, az MWC 2024-en bemutattak egy AI robotot Amecaés egy másik fejlesztés, Unitree H1, megdöntötte a sebességrekordot a humanoid robotok között. Most pedig a Figure AI és az OpenAI cégek együttműködésének látványos eredménye jelent meg az interneten – egy lenyűgöző videó egy humanoid robotról, amely immár képes beszélgetéseket folytatni az emberekkel.
A Startup Figure AI kiadott egy videót, amely a 01. ábra szerinti robotot az új Visual Language Modell (VLM) segítségével mutatja be. Ebben a 01. ábra egy asztalnál áll, amelyen egy tányér, egy alma és egy csésze van. Bal oldalon van egy szárító. Az ember kérdésére pedig, hogy mit lát maga előtt a robot, úgy válaszol, hogy részletesen leír mindent, ami az asztalon hever.
És akkor a férfi megkérdezi, ehet-e valamit, mire a robot azt válaszolja: „Persze”, majd egy ügyes, sima mozdulattal veszi az almát, és átnyújtja a férfinak. Ezt követően egy újabb lenyűgöző bemutató következik – egy férfi összegyűrt szemetet önti ki egy kosárból a 01. ábra elé, és megkéri a robotot, hogy magyarázza el, miért tette ezt, és egyúttal gyűjtse össze a szemetet a kosárba. És kifejti "gondolatát", miközben visszateszi a papírt a szemétbe. – Szóval adtam neked egy almát, mert ez az egyetlen ehető tárgy, amit le tudtam adni az asztalról – mondta a robot.
A vállalat képviselői elmagyarázták, hogy a 01. ábra egy előre betanított multimodális modellt használ OpenAI, VLM, a képek és szövegek megértéséhez, és hangutasításokra támaszkodik a válaszok generálásához. Ez különbözik mondjuk az OpenAI GPT-4-étől, amely az írásbeli promptokra összpontosít.
A cég által "tanult alacsony szintű bimanuális manipulációkat" is használ. A rendszer koordinálja a pontos képkalibrációt (a pixelszintig) neurális hálózatával a mozgásvezérlés érdekében. "Ezek a hálózatok 10 Hz-en fogadják a képeket, és 24 Hz-en 200-DOF műveleteket (csuklópózokat és ujjízületi szögeket) generálnak" - áll a Figure AI közleményében.
A cég azt állítja, hogy a videóban szereplő minden viselkedés a rendszertanuláson alapul, így a színfalak mögött senki sem rángatja a 01. ábra húrját. Természetesen van egy árnyalat - nem ismert, hogy a robot hányszor ment keresztül ezen az eljáráson. Talán ez volt a századik alkalom, ami megmagyarázza pontos mozdulatait. De mindenesetre ez a teljesítmény látványosnak és egy kicsit fantasztikusnak tűnik.
A 01. ábra most valós feladatokat hajt végre
Minden autonóm:
-Autonóm navigáció és erő alapú manipuláció
- Tanult látásmodell a szemetesek észleléséhez és rangsorolásához
- Reaktív szemetes-manipuláció (robusztus a póz variációjához)
-Általánosítható más pick/place feladatokra képtwitter.com/0wFmYnq0GC— ábra (@Figure_robot) Február 26, 2024
Olvassa el még: