Schachcomputer.info - Die Schachcomputer Community

Elo Turnier Liste
Turnierpartien
Stand: Liste 2024

Elo Turnier Liste (2024)

Warum eine weitere Liste?

Sinn und Zweck der ELO-Liste von schachcomputer.info ist es nicht, das Rad neu zu erfinden, bzw. eine neue Methode zur Spielstärkebewertung von (Brett-)Schachcomputern zu etablieren. Vielmehr soll es darum gehen, den interessierten Schachcomputerfreunden eine Möglichkeit zu bieten, ihre Geräte in Wettkämpfen gegeneinander antreten zu lassen und die Vergleiche schließlich auch bewerten zu können.

Grundsätzlich ist das natürlich nicht neu und wurde erstmals von der SSDF etabliert, die über Jahre (Jahrzehnte?) hinweg hervorragende Arbeit für das Computerschach geleistet hat und nicht zu Unrecht als Referenz herangezogen wird, wenn es um die Spielstärkebewertung von Schachprogrammen bzw. Brettgeräten geht.

Dennoch gibt es auch einige kritische Ansatzpunkte, wenn man sich die Bewertung der Brettgeräte anschaut. Bei der SSDF konzentriert man sich heutzutage (sicher zu Recht) vornehmlich auf die PC-Programme, Brettcomputer werden dort zwar noch geführt, aber es werden kaum noch Partien mit deren Beteiligung gespielt. Die ständige Spielstärkesteigerung der PC-Programme und die dadurch entstandene hohe Diskrepanz zwischen diesen und den Brettgeräten führte u. a. dazu, daß die Liste im August 2000 um 100 Punkte abgesenkt wurde^[1]. Aus unserer Sicht gibt aber diese Absenkung nicht die wahre Spielstärke der Brettgeräte, z. B. gegen Menschen wieder, weshalb wir zur weiter unten beschriebenen erstmaligen Kalibrierung auch die „alten“ Werte herangezogen haben.

Hinzu kommt noch, daß durch die ständige Fortschreibung der SSDF in die dortige Bewertung der Brettgeräte auch eine große Anzahl von Partien gegen PC-Programme eingeflossen sind, es handelt sich mithin also nicht mehr um einen reine Bewertung von Brettgeräten untereinander. Weiterhin wurde auch verschiedentlich die Meinung geäußert, daß bestimmte Geräte in der Liste gepusht wurden und andere Geräte z. T. zu niedrig eingestuft wurden, da möglicherweise nicht immer eine Kontrolle auf Doubletten erfolgt ist^[2]. Dies soll keine böswillige Kritik an der SSDF sein, sondern nur darlegen, daß bei aller Sorgfalt und aufwendigen Testarbeit in Schweden auch durchaus hinterfragende Stimmen zu hören sind und waren.

Wie schon Eingangs erwähnt geht es primär darum, eine Plattform für Brettgeräte zu bieten, wobei es auch durchaus angedacht ist, daß ein und dasselbe Gerät mit unterschiedlichen Spieleinstellungen aufgenommen wird.

^[1] Die Sache ist in der Realität noch deutlich komplizierter. Interessierte Schachfreunde können sich u. a. in CSS 3-2004 den entsprechenden Artikel des Schachstatistiker Jeff Jonas zu Gemte führen.
^[2] Einige Geräte haben z. T. recht kleine Eröffnungsbibliotheken, was die Chance auf Doubletten erhöht, besonders dann, wenn Partien von verschiedenen Testern gespielt wurden. Man muß der SSDF aber zu Gute halten, daß es in der Anfangszeit keine Datenbanken gab, die eine schnelle Überprüfung erlaubt hätten. Wir sind heutzutage sehr verwöhnt...

Es ist geplant, 2 Listen zu führen, eine Liste enthält ausschließlich Turnierpartien mit einer Bedenkzeit von 40 Zügen/2 Stunden^[3]. Eine weitere Liste basiert auf sogenannten Schnellschachpartien für die eine Bedenkzeit von 30 min/Gerät für die gesamte Partie gewählt wurde.

Regeln zur Aufnahme in die Liste

Wir haben uns erlaubt, einige einfache Regeln aufzustellen, die Voraussetzung für die Aufnahme in die ELO-Liste sind:

Bewertungseinschätzung (Rating Evaluation (RE) - s.h. Elo Liste)

P = Preliminary rated computer (>= 15 games vs. 1 opponent)
F = Fully rated computer (>= 50 games AND 2 opponents)
R = Reference rated computer (> 150 games AND 5 opponents)
M = Master rated computer (> 300 games AND 10 opponents)

Die Partien müssen aufgezeichnet sein (bevorzugt elektronisch als pgn, ChessBase oder Chess Assistant kompatible Formate) und dem Auswerter vorliegen, um eine Kontrolle auf Doubletten durchführen zu können. Doppelt vorhandene Partien zwischen zwei Geräten werden nur einmal gewertet.[4]

Der Bewertungsansatz

Zu Beginn steht man immer vor der Frage, welchen Bewertungsansatz man verwenden soll. Nach lang andauernden Diskussionen und Überlegungen haben wir schließlich davon Abstand genommen, die Bewertung einzelner Wettkämpfe gemäß des FIDE-Bewertungssystems vorzunehmen. Statt dessen wurde eine Auswertung basierend auf dem Programm ELO Stat 1.3 von Frank Schubert verwendet. Wichtige Voraussetzung ist, dass alle in der Liste erfassten Computer in einem sogenannten Cluster zusammen hängen, d. h. jedes Gerät der Liste ist direkt oder indirekt über einen anderen Gegner mit jeden anderen Computer in Liste „verbunden“.

Abschließend muß noch die Frage des sogenannten ELO-Startwertes geklärt werden, den man für die Einordnung der Spielstärke der Geräte benötigt. Bekanntlich liefet das Programm ELO-Stat 1.3 zwar eine Liste, die die relative Spielstärke der Geräte untereinander wiedergibt, eine absolute Spielstärke läßt sich aber nur unter Zuhilfenahme einer Kalibrierung mit eben diesem ELO-Startwert angeben.

^[3] Für die weiter unten dargelegte Berechnung wurden auch Partien herangezogen, bei denen z. B. nach dem 60. Zug die Zeitkontrolle angepaßt wurde (, z. B. auf 60 sec/Zug). Grundsätzlich sollen aber in die Liste nur Partien gemäß den Standardturnierbedingungen aufgenommen werden.
^[4] Hintergedanke ist natürlich die größtmögliche Transparenz zu bieten. Dies wird auch dadurch gewährleistet sein, dass sämtliche zur Auswertung herangezogenen Partien jederzeit auf https://www.schachcomputer.info einsehbar bzw., herunterladbar sein werden.

Der erste Startwert

Für die Erstberechnung wird ein einfacher, aber wie wir denken, sehr plausibler Ansatz, der mehreren Aspekten Rechnung trägt:

1. Es wird die Gesamtzahl N der Geräte im auszuwertenden Cluster ermittelt
2. Es wird die Gesamtzahl aller Partien der im Cluster enthaltenen Geräte G ermittelt
3. Es wird die Gesamtzahl aller Partien, die von einem einzelnen im Cluster vorhandenen Gerät gespielt wurden, G_N ermittelt
4. Der zu ermittelnde Startwert S wird unter Berücksichtigung des SSDF-ELO Wertes E_SSDF für ein Gerät N berechnet.^[5]

Die Berechnung des ELO-Startwertes S erfolgt durch Aufsummieren der einzelnen gewichtetet ELO-Werte S_N gemäß:

Ein Beispiel für die fiktive Ermittlung eines ELO-Startwertes ist in Tabelle 1 dargestellt.

Tabelle 1:
Fiktives Beispiel einer ELO-Startwertberechnung für das Programm ELO-Stat anhand eines Clusters bestehend aus 9 Geräten.

Eine derartige Berechnung erlaubt es einzelne Ergebnisse noch nicht vollständig beendeter Turniere/Matches sofort einfließen zu lassen. Des weiteren ist man quasi unabhängig vom zeitlichen Ablauf der Turniere, eine Fortschreibung der Liste ergibt sich einfach durch Hinzufügen neuer Partien bzw. die Aufnahme eines neuen Gerätes. Schließlich dient als Referenz/Kalibrierung die international anerkannte Liste der SSDF, allerdings wird nicht ein bestimmtes Gerät herangezogen, sondern sozusagen ein der mitspielenden Geräte angepaßter gewichteter Wert verwendet, der den größtmöglichen statistischen Rückhalt gewährleistet.

In die reale 1. Liste sind schließlich 1144 Partien, gespielt von 31 Geräten, eingeflossen. Damit wird eine breite Grundlage für das Austragen weitere Matches und Turniere bereitgestellt.

^[5] Es handelt sich um den unkorrigierten SSDF-Wert der Liste vom 22.04.2004, also die dort aufgeführten Werte +100 Punkte.

Die fortlaufende Listenberechnung

Für die weitere Berechnung wird die erste erstellte Liste herangezogen. Dabei wird genauso vorgegangen, wie in vorigen Abschnitt beschrieben, nur mit dem Unterschied, daß jetzt für die Startwertermittlung nicht mehr die SSDF Werte verwendet werden. Statt dessen kommt der ELO-Wert der Geräte aus der jeweils aktuellen Liste zur Anwendung. Die Formel zur Berechnung bleibt daher grundsätzlich erhalten, es ändert sich nur der Referenzwert für das jeweilige Gerät:

Die Neuberechnung der Liste erfolgt also jeweils für alle Geräte. Dadurch kommt es zwangsläufig auch zu geringen Veränderungen des ELO-Wertes auch bei Geräten , die eventuell keine neuen Partien gespielt haben. Test haben aber ergeben, daß diese Änderungen vernachlässigbar gering sind. Viel wichtiger erscheint es uns in diesem Zusammenhang noch einmal darauf hinzuweisen, daß das Programm ELO-Stat 1.3 eben eine sehr genaue Differenzliste zwischen Geräten erstellt. Uns erscheint primär dieser Punkt wichtig und nicht so sehr die Frage, ob ein Gerät X nun 2200 oder 2205 Punkte hat.

Stefan Ottow & Michael Völschow
Im August 2004.