AlphaZero vermorzelt Stockfish in match

Nieuws 6 december 2017 12:53 Dimitri Reinderman 16

Groot nieuws in de wereld der engines. Het programma AlphaZero van Deepmind (Google) heeft met grote cijfers gewonnen van Stockfish: 64-36 (28 overwinningen, 72 remises). Het bijzondere is dat AlphaZero gebaseerd is op AI. Gewone engines doen wat de programmeur ze opdraagt (maar dan heel erg goed). AZ krijgt alleen de schaakregels ingevoerd en leert dan door heel veel tegen zichzelf te spelen wat de beste zetten zijn. Een ander verschil is dat zijn speelkracht niet gebaseerd is op heel diep rekenen (zoals bij de meeste engines) maar op superieure evaluatie.

Tien partijen van de match zijn bekend geworden en het is bijna een nieuw soort schaak wat AlphaZero doet. Neem bijvoorbeeld deze partij. In de stelling na 19…Kxh6 vindt de online engine zwart duidelijk beter staan. Ook mijn eigen engine denkt er in eerste instantie zo over, al trekt die na een tijdje rekenen bij. Ook later (32.c4) is er zo’n moment.

Ik ben niet bekend met de verdere plannen van Deepmind wat betreft AlphaZero en schaken, maar het programma zou een boel evaluaties van stellingen wel eens kunnen opschudden….

16 Reacties

Pieter Priems 06 december 2017

Dat ze met AI werken is een stap vooruit. Als programma’s zelf kunnen leren geeft dat heel veel opties, ook buiten het schaken (en de financiële wereld). Ik ben benieuwd naar de uitkomsten en ook af de AI programma’s kunnen uitleggen wat en waarom ze iets doen.
Login om te reageren
Ludo Tolhuizen 06 december 2017

Is bekend of AlphaZero een openingsboek gebruikt? In de partij waar Dimitri naar verwijst wordt tegen het dame-indisch de pion offer variant met d5,exd5 Ph4 gespeeld. Ik zou het wel heel erg spectaculair vinden als de AlphaZero dit “zelf” zou hebben “gevonden”.
Login om te reageren
- Ludo Tolhuizen 06 december 2017
  
  Dank voor de link Han; interessant om te lezen dat ze bij Go de symmetrieen hadden gebruikt. Het is inderdaad spectaculair dat het met alleen reinforcement learning gaat, zonder openingsboek!
  Login om te reageren
Koorevaar 06 december 2017

Verrassend is het niet helemaal dat Deepmind nu met Alpha Zero komt. Wel is verrassend dat Stockfish zo overtuigend is verslagen. Voorzichtig trekken we de conclusie dat alle engines Fritz, Houdini en Komodo ook verslagen zullen worden door Alpha Zero. AZ wordt alleen maar sterker. Ook de wereldkampioen zal geen schijn van kans hebben.

Aan het artikel en het programma deden twee bekenden mee die al eerder op onze site langs kwamen. Demis Hassabis, de directeur van Deepmind en Matthew Lai, de student die Giraffe ontwikkelde.

Zie:

Tata Steel speelt Go

Kan ‘Giraffe’ schaken leren?

Mysterieuze spelers ‘magister’ en ‘master’ ontmaskerd .

Login om te reageren
Herman Grooten 06 december 2017

Vanaf nu zullen ook mijn analyses, gemaakt met behulp van Stockfish, met een korreltje zout genomen moeten worden; als ze dat al niet waren 🙂 Ik begin gelijk te krijgen dat ik hem af en toe overrule, maar ik vrees dat het einde van het schaakspel wellicht sneller nabij dreigt te komen dan we zouden willen…
Login om te reageren
Tony Werten 06 december 2017

Indrukwekkend, maar de publicatie is erg summier. De vraag is of AlphaZero van de engine Stockfish heeft gewonnen of dat het gaten in het openingsbook heeft gevonden.

De tijdscontrole ( 1min /zet) is ook erg ongewoon voor engine testen, mijn eerste vraag is dan altijd “waarom”.

Verder lijken de specificaties een hardwarevoordeel van een factor 16 voor AlphaZero aan te geven, wat voor 300 elo verschil zou moeten staan terwijl dit resultaat “slechts” 100 elo suggereert.

Maar toch, erg indrukwekkend voor een zoekalgoritme waarvan gedacht werd dat het niet zou werken voor schaken.
Login om te reageren
- Tony Werten 07 december 2017
  
  Het is een beetje appels met peren vergelijken, maar als je het aantal TFlops van de apparaten vergelijkt komt je ergens tussen de 16 en 30 uit.
  
  Het aantal stellingen vergelijken loopt ook scheef. Monte Carlo Tree Search heeft een redelijk simpel basisprincipe. Als ik na zet A, 1000 random potjes speel en ik win 80% en na zet B win ik 60% van de random potjes, dan is A beter dan B. Deze 2 zetten (posities) worden toegevoegd en op die manier bouwt AlphaZero een zoekboom. Dat bouwen doet het met 80K posities per seconde, maar het aantal bezochte stellingen is minimaal 1000 partijen x gem 80 ply=80.000x hoger. Het aantal bezochte stelling ligt dus op minimaal 6.000.000.000 ( wederom met een behoorlijke natte vinger) Dit kan omdat er eigenlijk weinig evalutatie nodig is (alleen winst verlies remise) heel goed op videokaart achtige processoren plaatsvinden (itt standaard zoekalgoritmes)
  
  Het speciale van AlphaZero zit hem in de manier van het uitspelen van die random potjes. Die geven blijkbaar een goede voorspelling van de kwaliteit van een zet, waarbij voorheen aangenomen werd dat dit alleen voor strategische spelen zou werken.
  Login om te reageren
  - Pieter Priems 07 december 2017
    
    Dat klinkt allemaal redelijk recht toe recht aan. Wat is nu het AI deel van AlphaZero? Hoe maken zie voorspelling van zetten? En hoe is dat anders dan bij bijvoorbeeld Stockfish?
    Login om te reageren
sake jan de boer 07 december 2017

Pieter, dat vraag ik me dus ook steeds af. AI wordt naar mijn gevoel gepresenteerd als totaal iets nieuws. Terwijl ik soms denk: is het niet gewoon een combinatie van iets slimmer geprogrammeerde software met steeds exponentieel grotere wordende rekenkracht? Je hoort AI profeten soms ook de grootste onzin uitkramen: zoals dat de tijd niet meer ver weg is dat een robot een ziel heeft! Alsof het niet meer gewoon een apparaat blijft dat als je de stekker er uit doet en de batterijen leeg zijn gewoon een stuk oud ijzer is, dat je weer tot “leven” kunt wekken door de stekker er weer in te steken. Maar misschien zit ik helemaal mis wat dat AlphaZero betreft. Beweerd wordt dat puur alleen de regels van het spel zijn ingevoerd (geprogrammeerd neem ik aan) en dat het programma voor de rest volkomen zelflerend is. Zou dat echt waar zijn? Zo ja, dan is het echt revolutionair! In dat geval mag je mag je het trouwens geen schaakprogramma meer noemen maar is het een speloplosser. Een speloplosser dat met iets andere parameters elk willekeurig ander spel kan oplossen c.q. winnen b.v. bridge, poker, go, dammen, mens-erger-je-niet, nou ja: gewoon elke spel dus.
Login om te reageren
- Pieter Priems 07 december 2017
  
  :-).
  Login om te reageren
Johan Hut 07 december 2017

Over al dan niet onzinnige AI-profeten: met Kerst verschijnt in de regionale dagbladen van de Holland Media Combinatie een groot interview met Jaap van den Herik. Met maar een klein beetje schaken erin, maar ongetwijfeld weer spectaculaire voorspellingen. Ik ben er niet bij betrokken, maar weet er wel iets van. Hier kom ik op terug als het zover is.

Login om te reageren
- Tony Werten 07 december 2017
  
  Ik doe een kleine gok: Rechters moeten vervangen worden door een ai, automobilisten moeten vervangen worden door een ai en, ach, laten we de doktoren ook maar vervangen door een ai 🙂
  Login om te reageren
sake jan de boer 07 december 2017

@Pieter: ik zie een smiley, maar dit keer was ik gewoon serieus … of lachte je me uit 🙂 🙂 @Johan: ik zie het tegemoet, erg interessante materie!

Login om te reageren
- Pieter Priems 08 december 2017
  
  Ik ben het gewoon 100% met je eens!
  Login om te reageren
Aard 08 december 2017

Ik ga hem dit weekend beslist kopen, die Alpha Zero!

Login om te reageren
Pieter Priems 14 december 2017

Duidelijker artikel in Chess Base https://en.chessbase.com/post/alpha-zero-comparing-orang-utans-and-apples
Login om te reageren

Schaaksite

AlphaZero vermorzelt Stockfish in match

16 Reacties