AW: ELO ist relativ
Irgendwie scheine ich das Problem nicht erkennen...
Einige sind sauer/enttäuscht, dass "ihr" Lieblingscomputer in einer vorher anerkannten Liste zu hoch steht und deshalb bei einer Beschränkung raus fällt?
Dann sollte vorher der Finger gehoben werden, nachkarten hinterlässt immer einen faden Beigeschmack.
Eine andere Sache ist das teilweise vorhandene Unverständnis in Bezug auf die Ermittlung der ELO-Zahlen. Da wird mit "Gefühl" argumentiert, es werden Vergleiche mit der Ermittlung menschlicher ELO-Zahlen herangezogen usw.
Zum ersten: Gefühl hat dabei nichts verloren und ist zwar menschlich verständlich, aber für ein Ergebnis nicht hilfeich. Solange die einzelne Partie nicht technische Fehler hat gehört sie gewertet. Ansonsten wird ein systematischer Fehle eingebaut. Für verschiedene Fälle gehört vorher eine Lösung überlegt und diese dann konsequent angewandt. Dazu gehören z.B. Zeitüberschreitung, Umgang mit Dubletten (wenn sie aus Gründen der Zeitersparnis und Abwechselung nicht ausgespielt werden sollen), Aufgabe einer Seite und Abschätzung einer Partie (auch hier wäre das Ausspielen besser, aber eben auch mit Zeit und wenig Abwechselung verbunden).
Die Veränderung der ELO-Zahlen in verschiedenen Listen mit der Zeit hat hauptsächlich zwei Ursachen: Es werden neue Partien gespielt (eventuell sogar mit neuen Programmen) und bei der Neuberechnung ergibt sich eine bessere Schätzung. Und zweitens, die gesamte Liste wird neu geeicht. Letzteres verändert die Liste nur als ganzes, aber für einzelne Programme kann dabei eine kritische fixe Marke (z.B. ELO 2000) über- bzw. unterschritten werden. Daher sollte eine Neueichung nicht kurz vor einem Turnier mit einem fixen Limit durchgeführt werden. Denn ein Programm mit z.B: 2006 statt vorher 1997 ist natürlich kein Deut anders und die Relation zu den anderen Turnierteilnehmern hat sich nicht geändert.
Der Vergleich mit der Ermittlung menschlicher ELO-Werte ist nicht hilfreich. Menschen unterliegen einer zeitlichen Veränderung, Schachprogramme nicht. Eine Partie vor 20 Jahren von mir gegen meinen Nachbarn ist für den heutigen Erwartungswert meiner Spielstärke irrelevant. Eine Partie zwischen MM IV gegen Roma II hingegen gehört auch nach 20 Jahren noch in die Berechnung.
Die Berechnung von ELO-Zahlen aus Partien zwischen Computern hat zwei grundsätzliche Probleme: Zum einen sollen die Zahlen mit menschlichen Zahlen vergleichbar sein, d.h. wenn Programm A 200 ELO höher als Progamm B eingestuft wird, dann soll sich das auch im Vergleich zu Menschen wider spiegeln. Es gibt aber deutlich mehr Partien zwischen Computern als gegen Menschen, deshalb wird es immer Abweichungen geben müssen. Und das zweite Problem liegt in der Annahme einer Verteilungsfunktion. Bayes-ELO statt ELO-Stat ist eine Verbesserung, aber es bleibt immer noch ein Fehler.
|