Root NationHírekinformatikai újságMint a filmekben: a Google új fotófeldolgozó mesterséges intelligenciája valósággá teszi a méretezést és a képminőség javítását

Mint a filmekben: a Google új fotófeldolgozó mesterséges intelligenciája valósággá teszi a méretezést és a képminőség javítását

-

Valószínűleg látott már olyan fantasy filmet vagy tévéműsort, ahol a főszereplő a kép nagyítását és az eredmény javítását kéri – hogy mutasson egy arcot, rendszámot vagy bármilyen más kulcsfontosságú részletet. A Google legújabb mesterséges intelligencia (AI) rendszerei, amelyek az ún diffúziós modellek, képesek végrehajtani ezt a trükköt.

Nehéz elsajátítani ezt a folyamatot, mert lényegében olyan részleteket ad hozzá a képhez, amelyeket a fényképezőgép eredetileg nem rögzített, szuperokos találgatásokkal más, hasonló képek alapján.

Google

A Google-nál ezt a technikát természetes képszintézisnek nevezik, ebben a konkrét esetben pedig ultranagy képfelbontásnak. Egy kicsi, pixeles fotóval kezdesz, és valami éles, tiszta és természetes dologgal zárod. Lehet, hogy nem pontosan az eredeti, de elég közel áll ahhoz, hogy emberi szemmel valódinak tűnjön.

A Google két új AI-eszközt vezetett be ehhez a feladathoz. Az elsőt SR3-nak, vagyis ismételt finomításon keresztüli szuperfelbontásnak hívják, és úgy működik, hogy zajt ad a képhez, majd eltávolítja azt. Egy nagy képadatbázison és némi gépi tanulási varázslaton alapuló valószínűségi számítások sorozatán keresztül az SR3 el tudja képzelni, hogyan néz ki egy kis felbontású pixelkép szupernagy felbontású változata.

A második eszköz a CDM vagy a Cascaded Diffusion Models. A Google ezeket „csővezetékeknek” nevezi, amelyek mentén a diffúziós modellek – köztük az SR3 – irányíthatók a kiváló minőségű képfelskálázás érdekében. Javító modelleket vesz, és nagyobb képeket készít belőlük.

Google

A Google szerint a CDM-megközelítés a különböző felbontású különböző javítási modellek használatával felülmúlja az alternatív képfelskálázási módszereket. Az új mesterséges intelligencia-motort az ImageNet-en tesztelték, amely a vizuális objektumfelismeréssel kapcsolatos kutatásokhoz általánosan használt oktatási képek óriási adatbázisa.

Az SR3 és a CDM végeredménye lenyűgöző. Egy 50 önkéntes önkéntessel végzett standard tesztben az SR3 által generált emberi arcképeket az esetek körülbelül 50%-ában összetévesztették valódi fotókkal – és tekintve, hogy egy ideális algoritmusnak 50%-ot kell elérnie, ez lenyűgöző. Érdemes megismételni, hogy ezek a javított képek nem egyeznek pontosan az eredetivel, hanem gondosan kiszámított szimulációk a valószínűség matematikáján.

Google

A Google sokkal többet ígér az új mesterséges intelligencia motorjaiból és a kapcsolódó technológiáiból – nem csak az arcok és más természeti tárgyak képeinek bővítése terén, hanem a valószínűségi modellezés egyéb területein is.

Olvassa el még:

Regisztrálj
Értesítés arról
vendég

0 Hozzászólások
Beágyazott vélemények
Az összes megjegyzés megtekintése