
Zitat von
spacious_mind
Es gibt noch eine weitere Anpassung, die ich berücksichtigen muss. Bei meinen Recherchen zu SSDF stellte ich fest, dass die Schach-Engine in deren Tests ebenfalls die Denkfunktion (Ponder) nutzt. Dies unterscheidet sich von CCRL oder CEGT, wo die Bewertungen ohne Denkfunktion ermittelt werden.
Jain. Der Unterschied liegt bereits daran, dass diese Bewertungen höchst ungenau sind. Zum Vergleich. Bei fast allen Turnieren kommt z.B. LC0 oder LCZero in der Regel auf den 2. Platz nach Stockfish. Kaum ein Turnier, in dem das nicht passiert (Und das auch nur, weil das LCZero-Team Zugriff auf die eigenen Netze erlaubt, wovon Stockfish natürlich profitiert). Ansonsten wäre es kaum möglich dass in diesen Listen die jeweils beste LC0-Version weit abgeschlagen ist. Der beste Platz bei CCRL war Platz 29, bei CEGT Platz 27. Das ist eigentlich völlig unrealistisch und basiert lediglich auf der Tatsache, dass hier Partien in irrsinnig hoher Geschwindigkeit gespielt werden. In einem reinen Turniervergleich oder selbst bei 60/30 schneidet LC0 weit besser ab. Da spielt das Pondern erst mal eine untergeordnete Rolle

Zitat von
spacious_mind
SchachComputer.Info hat in der Vergangenheit versucht, vergleichbare Bewertungen zu SSDF zu erstellen – keine exakte Wissenschaft, aber deutlich besser als alle anderen Alternativen. Daher ist es für diese ersten explorativen Bewertungsvergleiche sinnvoll, dasselbe zu versuchen, da dies auch einen genaueren Vergleich mit den SchachComputer-Bewertungen ermöglichen sollte.
Daher muss ich auch die Denkfunktion berücksichtigen. (Ich habe nicht vor, Schachpartien mit aktivierter Denkfunktion zu spielen; stattdessen werde ich die Denkfunktion als Wert berücksichtigen.)
Und ab da beginnt die Berechnung ungenau zu werden, denn gerade diese Werte sind Schwankungen unterworfen, die man rechnerisch kaum berücksichtigen kann.

Zitat von
spacious_mind
Eine weitere Suche im Internet liefert folgende Erklärungen:
"Wenn man zwei Schachprogramme auf demselben 8-Kern-Computer gegeneinander antreten lässt und bei beiden die „Ponder“-Funktion (oder permanentes Nachdenken) aktiviert, erreichen beide Programme in etwa die gleiche Spielstärke. Die Gesamtqualität der Partie ist jedoch schlechter, als wenn beide Programme die Ponder-Funktion deaktiviert hätten und alle 8 Kerne nutzen würden. Wenn nur ein Programm die Ponder-Funktion nutzt, erlangt dieses einen deutlichen Spielstärkenvorteil, der auf etwa 30–50 ELO-Punkte gegenüber dem anderen Programm geschätzt wird.
Das Hauptproblem besteht darin, dass die Vorhersage des gegnerischen Zuges durch die Denkmaschine oft (zu etwa 50-60 %) korrekt ist, aber eben nicht immer.
Jedes Mal, wenn die Vorhersage falsch ist (ein sogenannter „Vorhersagefehler“), wird die für die Analyse dieser Variante aufgewendete Zeit ineffizient genutzt, und die Maschine muss die Suche vom tatsächlich gespielten Zug aus neu starten."
All das ist richtig, allerdings liefert dieser "Vorhersagefehler" nur einen Wert, der auf tausenden Partien basiert, und zwar genau auf Partien die auf CCRL oder CEGT-Partien basieren. Vergleichbar ist er nicht. Schon gar nicht wenn man längere Partien spielt (z.B. 40/120 oder 60/30). Außerdem mag es zwar sein, dass die Engines stärker spielen, wenn man das Pondern außen vor läßt (was bei dir aber keine Rolle spielt, wenn Du DeepShredder nur auf einem Kern laufen läßt, denn die Aussage bezieht sich ja darauf, dass hier davon ausgegangen wird, dass ansonsten mehr Kerne verwendet werden würden). Zudem gehört die richtige Vorhersage eines gegnerischen Zuges gehört eben genauso zum Spiel. Und gerade wenn Du den Gegner mit einem Kern laufen lässt (wie in diesem Vergleich eben DeepShredder), dann ist genau dies eigentlich sinnvoller als irgendwelche fadenscheinigen Berechnungen, die nie wirklich korrekt sein können. Es gibt Partien mit einer Trefferquote von 20 % ebenso wie es Partien mit einer Trefferquote von 80 % gibt. Der Mittelwert mag zwar dann auch bei 50 % liegen, ist aber angesichts der geringen Partienanzahl hier nicht wirklich relevant und verfälscht eher das Ergebnis

Zitat von
spacious_mind
All das oben Genannte stimmt ziemlich genau mit meinen früheren Erfahrungen mit Ponder überein.
Effektiv betrachtet handelt es sich bei Ponder um eine Verdoppelung der Geschwindigkeit durch Zeitnutzung, die aber nur 50-60 % so effizient ist.
Anhand dieser Informationen bezüglich SSDF besteht die letzte Anpassung, die ich vornehmen werde, darin, 60 % meines ursprünglichen Wertes von 80 ELO für die Geschwindigkeitsverdoppelung zu nehmen, was 48 ELO ergibt. Diese 48 ELO werde ich von der Bewertung von Deep Shredder 13 mit einem Kern abziehen, um den Effekt des deaktivierten Pondering (vorausschauendes Denken) zu berücksichtigen.
Wie gesagt, bei großen Listen mag das zutreffen, Bei kleinen Listen wie unserer ist das eher unsinnig. Da hilft eigentlich nur entweder bei beiden Geräten das Pondern auszuschalten oder es eben bei beiden Gegnern (wenn es bei einem nicht möglich sein sollte) aktiviert zu lassen. Man darf in diesem Zusammenhang auch nicht vergessen, dass ein Gerät, bei dem sich das Pondern nicht deaktivieren lässt, niemals in eine CCRL oder CEGT-Liste kommen würde.