
Zitat von
DarkStar
Einen neuen Schub wird es da wohl erst geben, wenn DeepMind, wie angekündigt, ein weiteres Paper veröffentlicht, welches noch mehr Details offen legen soll.
Auch beim oben genannten Schachprojekt wird der Wunsch nach einem verteilten Rechnerverbund aufkommen. Also langsam schonmal die Rechner ölen ...
Hallo Carsten,
vielen Dank für die Links! Ich baue AlphaZero gerade am Beispiel von 4-Gewinnt auf einem 7x6-Feld nach und alleine mit einer "neuronalen" Stellungsbewertung und 1-ply-Suche lernt es schon ganz gut aus den Spielen gegen sich selbst. Die Länge der Partien hat sich über die Lernzeit von ca. 15 auf über 35 Halbzüge gesteigert.
Als nächstes ist eine Monte-Carlo-Tree-Search geplant, wobei mir noch die Formel unklar ist, wie genau die Stellungsbewertung und die Zugbewertung in den MCTS-Prozess eingebunden werden.
Gruß und Frohe Weihnachten
Theo
PS: bei dem Github-Projekt wäre es evtl gut methodisch Zugeständnisse zu machen und wie Giraffe erstmal mit Großmeister-Partien vortrainieren, um schnell auf wenigstens 2000 ELO zu kommen. Solange Googles TPUs nicht im freien Handel sind ...