A DeepMind és a Blizzard új eszközöket adott ki a mesterséges intelligencia (MI) fejlesztéséhez Starcraft játék segítségével

Mit tanulhatnak a számítógépek a videójátékokból? Valójában meglehetősen sokat!

A számítógépek játékra tanítása mindig hasznos mérőszámot adott az adott (ha kicsit durvát is) a gép intelligenciájára vonatkozóan. Ahogy a gépek egyre intelligensebbé válnak, új kihívásokat kell számukra találnunk. Az első kihívás volt a sakk, aztán jött az Atari, majd a Go táblajáték. És most jön az eddigi legnagyobb kihívás, a Starcraft.

Egész pontosan a Starcraft II, amely a Google MI kutatással foglalkozó leányvállalata, a DeepMind szerint tökéletes környezet arra, hogy a számítógépek számára fejlett képességeket tanítsanak, mint például a memória és a tervezés. Tavaly a DeepMind bejelentette, hogy együttműködik a Starcraft készítőjével, a Blizzarddal, hogy a stratégiai játékokat megfelelő kutatási környezetté tegye az MI-vel foglalkozó mérnökök számára, és most ezt a szoftvert nyilvánosságra hozzák.

A DeepMind és Blizzard közös fejlesztésű megoldása számos támogatást kínál a tanuláshoz – a professzionális játszmákból összegyűjtött Starcraft II visszajátszássokat is beleértve (amelyeket az MI meg tud nézni, és meg tudja belőlük tanulni az emberi taktikákat), valamint mini játékokat, amelyek leválasztanak adott játékelemeket (mint például térképfelderítés és erőforrásgyűjtés) – , amelyek segítségével fejleszthetők adott képességek. A készlet legfontosabb része azonban egy olyan API, amely lehetővé teszi, hogy az MI úgy játssza a játékot, mint ahogy azt egy ember tenné, és visszaküldi az adatokat a kutatóknak. Ez azt jelenti, hogy az agentek működését ugyanúgy korlátozzák az emberek korlátozott képességei (például nem láthatják az egész térképet egyszerre, illetve nem kattinthatnak az egérrel végtelen gyorsan), miközben a próbajátékokból és a hibákból tanulnak — ezt a folyamatot a mesterséges intelligenciában “megerősítéses tanulásnak (reinforcement learning)” nevezik.

Miért alkalmas erre a Starcraft? Nem azért, mert azt szeretnénk, hogy a számítógépek katonai taktikákat tanuljanak, hanem azért, mert meg kell tanítanunk őket néhány absztrakt képességre, és a videójátékok kiválóan alkalmasak erre. A videójátékok virtuális környezetet biztosítanak, amelyben a játékok újra és újra megismételhetők. Nagymennyiségű tudásanyag áll rendelkezésre, amelyet ember általi játékokból állítottak össze, illetve magában a Starcraftban is számos játéktechnika áll rendelkezésre, amelyek kihívást jelentenek a számítógépek számára.

Oriol Vinyals, a DeepMind adott témával foglalkozó kutatója szerint (aki történetesen maga is legmagasabb szintű Starcraft játékos volt) a játék egyik érdekes korlátozása a “fog of war” technika, amely eltakarja a térképet, és arra kényszeríti a játékost, hogy felderítse környezetét, hogy kitalálja, az ellenség éppen miben sántikál. “Így az MI agent számára kritikus fontosságú, hogy emlékezzen, például: ‘Itt láttam már egy egységet korábban, de most nem látom. Vissza kell mennem és fel kell derítenem, hogy van-e a közelben bázisa,’” – mondta Vinyals.

Az emberek számára ez teljesen nyilvánvaló ötlet, nem is éri meg gondolkodni rajta, de ez olyan ösztönös „józan paraszti” gondolkodásmód, amelyet az MI-nek meg kell tanulnia ahhoz, hogy sikeres legyen. A Starcraftban olyan dolgokon gondolkodni, amely a játékos számára nem látható, elengedhetetlen a győzelemhez — és ez egy olyan kihívás, amely a sakkhoz és Go-hoz hasonló játékokban nincs meg, mert itt mindkét játékos átfogó ismerettel rendelkezik a teljes környezetről az egész játék során.

Vinyals szerint ez a fajta memória képesség később az összes ilyen típusú környezetre alkalmazható lesz, és olyan számítógépkezelési képességet kínál például adatközpontok esetében, amely csökkenti az áramköltséget. “Például látja, hogy egyik vasárnap az energiafogyasztásban kiugrás látható valamilyen okból, és erre emlékeznie kell a következő vasárnap, hogy magyarázatot keressen a jelenségre. A memória fontos szerepet játszik itt. A számítógépeket megtanítani arra, hogy kikövetkeztesse a körülvevő környezet állapotát. kiemelkedő fontosságú lehet számunkra.”

Azon felül, hogy az MI számára megtanít bizonyos képeségeket, a kiadott API lehetőséget teremt az ember vs. számítógép Starcraft párhacra. Sem a Blizzard, sem a DeepMind nem tervezte, hogy az AlphaGo-hoz hasonlóan húsvér bajnokokkal küzdene meg az MI, de a Starcraft II legjobb játékosai rendkívül lelkesek. Byun Hyun Woo profi Starcraft játékos nagyon magabiztosan nyilatkozott az esélyeiről  “Nem hiszem, hogy MI le tudna győzni [egy profi játékost], legalábbis nem az én életem során” – mondta.

A probléma az, hogy a mesterséges intelligencia meg tudja lepni az embereket, például amikor a DeepMind AlphaGo MI olyat lépett, amelyet a kommentátorok abszurdnak tituláltak a Lee Sedol Go mester elleni mérkőzésen (de később kiderült, hogy ez elengedhetetlen volt a nyeréshez).

Vajon a DeepMind MI meglepetés fog okozni a Starcraft játékosoknak? Vinyals szerint ez már megtörtént, amikor egy agent feladata az volt, hogy a térkép egy részét a lehető leggyorsabban felderítse, két egység felhasználásával. A játékos kiválasztaná az egységeket, és kiadná a “move” parancsot a terület lehető leggyorsabb lefedéséhez. “Kiderült azonban, hogy a ‘move’ helyett használható a ‘patrol’ parancs is. A ‘move’-val ellentétben ez adott távolságban tartja egymástól az egységeket, és így a térkép nagyobb része fedhető le és gyorsabban összegyűjthetők az erőforrások.”

Ez ugyan nem jelent áttörést, de jól mutatja, hogy a számítógépek hogyan kerekedhetnek felül azáltal, hogy más megközelítéssel állnak hozzá ugyanazokhoz a problémákhoz. Valószínűleg további meglepetések várnak még ránk.
Forrás: https://www.theverge.com/2017/8/9/16117850/deepmind-blizzard-starcraft-ai-toolset-api
Fordította: Borbényi Judit