Abschätzen ist dafür ja das richtige Wort. Selbst die Elo-Werte in diversen Elo-Listen muss man immer in einer Schwankungsbreite sehen, dazu kommen noch die Testbedingungen, Bedenkzeit, usw.
Ein eindrückliches Beispiel finde ich immer, was passiert bei illegalen Zügen oder Abstürzen? Wiederhole ich die Partien für Ranglisten? Dann haben die Programme einen Vorteil, die nur in schlechten Stellungen abstürzen. Aber ist es gerecht Abstürze als Verlust zu werten? Ich will ja die Spielstärke messen, und nicht die Stabilität. Nächste Frage: Spiele ich bis zum Matt? Es gibt selbst Spitzenprogramme, die in gewonnener Stellung ein Patt fabrizieren. Breche ich solche Partien ab? Oder spiele ich zu Ende und benachteilige die Programme, die aktiv aufgeben?
Selbst die Spezialisten die 10.000 Bulletpartien zwischen Engines spielen vergessen, dass diese Werte eben nur für Bullet gelten und schon in Blitzpartien ganz anders aussehen können.
Kurz: Eine Wahrheit gibt es bei den Elo-Zahlen nie.
