Schachcomputer.info
 
Statistikteil
Elo Turnier Liste
Stand: Liste 2015
 

Übersicht

Nach der langen Wartens ist es endlich wieder soweit, wir haben eine neue Turnierliste berechnet. Wir haben im Internet gestöbert, selbst gespielt, unzählige Partien aus der Schachcomputer.info Community (und aus aller Welt!) bekommen, Partien von Formularen abgetippt und eingescannt, dafür allen einen herzlichen Dank!

Die Liste enthält jetzt insgesamt 6900 (+618) dublettenfreie Partien, gespielt von 119 (+17) Geräten. Der ELO-Kalibrationswert liegt bei 2097 gegenüber 2096 in der vorigen Liste. Im Zuge der Neuberechnung haben wir auch einige Modifikationen durchgeführt, die im folgenden kurz erläutert werden sollen. Zunächst einmal wurde die Anzahl der mindestens zu spielenden Partien geringfügig erhöht und zwar auf 20 Partien, die weiterhin gegen mindestens zwei Gegner gespielt sein müssen. Dies einfach deshalb, um die Statistik bei der Neuaufnahme eines Gerätes etwas mehr zu festigen und vor allem einen „Wildwuchs“ von Geräten mit weniger als 20 Partien zu vermeiden. Des weiteren haben wir dem Wunsch einiger Mitglieder Rechnung getragen und die Einteilung der Geräteklassen angepasst. Da wir jetzt über 100 Geräte in der Liste haben, erschien uns der Ansatz der Mindestanzahl der Gegner für ein Referenzgerät (60% der Gegner) bzw. für die Meisterklasse (30 % der Gegner) nicht mehr praktikabel. Es gelten daher folgende Aufnahme- bzw. Bewertungskriterien:

1. Ein Gerät muß mindestens 20 Partien gegen 2 Gegner gespielt haben, um eine Wertungszahl zu erhalten. Es wird dann mit P für „vorläufig“ bewertet (engl. prelimnary) bezeichnet.

2.
Ein Gerät muß mindestens 50 Partien gegen 3 Gegner gespielt haben, damit es als vollwertig bewertet in die Liste aufgenommen wird (Bezeichnung F, engl. full).

3.
Ein Gerät, das 150 Partien gegen 15 % der in der Liste geführten Geräte gespielt hat wird als Referenzgerät bezeichnet (Bezeichnung R, engl. reference).

4. Ein Gerät, das 300 Partien gegen 25 % der in der Liste geführten Geräte gespielt hat wird als Meistergerät bezeichnet (Bezeichnung M, engl. master).


Auf die aktuell in den einzelnen Klassen vorhandene Anzahl der Geräte wird weiter unten gesondert eingegangen. An dieser Stelle wollen wir nach so langer Pause auch noch einmal die Gelegenheit ergreifen und die Entstehung bzw. Berechnung unserer Liste genauer erläutern. Die erste Liste aus dem Jahre 2004 startete mit 30 Geräten und etwas mehr als 1200 Partien. Wir entschieden uns damals für die Berechnung mit dem Programm ELO-Stat von Frank Schubert (aktuell in der Version 1.3) und gegen eine Berechnung nach FIDE. Dies deshalb, weil die ELO-Stat-Methodik schneller und für Computer besser anzuwenden ist, da man für letztere annehmen kann, dass – anders als beim gelegentlich schwächelnden Menschen - sich deren Spielstärke mit der Zeit nicht verändert.

Elo-Stat benötigt im Idealfall einen sogenannten „Cluster“ aus Geräten, die vereinfacht ausgedrückt, alle „untereinander verbunden“ sind. Mit anderen Worten, zwischen allen Geräten gibt es entweder einen direkten (ein Spiel gegeneinander) oder einen indirekten Zusammenhang (Computer A hat gegen Computer B gespielt aber nicht gegen Computer C; Computer B wiederum hat aber gegen Computer C gespielt). Das Programm führt mit einem fiktiven, durch den Anwender festzulegenden Startwert eine Berechnung durch und wiederholt diese so lange bis alle ELO-Werte konstant sind (in der Mathematik nennt man das Iterationsverfahren). Heraus kommt eine Liste, die in erster Linie den  Spielstärkezusammenhang der Geräte untereinander ausgibt, d. h. ein Gerät A ist um x ELO-Punkte stärker als ein Gerät B.

Hier steckt dann auch die Problematik dieser Herangehensweise, nämlich die Wahl des Startwertes, denn durch willkürliches Setzen dieser Zahl durch den Anwender kann man im Prinzip jeden ELO-Wert generieren. Anders ausgedrückt, es fehlt der Bezugspunkt oder eine Art Kalibrierung. Eine geeignete Methode hierfür ist es zum Beispiel, ELO-Zahlen von Geräten heranzuziehen, die sich menschlichen Turnieren eine Bewertung erspielt haben. Dies wurde (auf nationalem schwedischen Niveau) z. B. von der SSDF so gemacht.

Mangels dieser Kalibrier-Möglichkeit haben wir für unsere erste Liste folgenden Ansatz gewählt: Wir haben die unkorrigierten Werte der SSDF-Liste (d. h. vor der Absenkung um 100 Punkte im Jahr 2000!) aus dem Jahr 2004 für unsere ersten 30 Geräte genommen, aus denen einen so genannten gewichteten Mittelwert errechnet und diesen als Startwert für unsere Liste verwendet. Die Gewichtung hat gegenüber der Verwendung des einfachen Mittelwerts, der nur alle ELO-Zahlen aufaddiert und durch die Gesamtzahl der Geräte dividiert, den Vorteil, dass die Anzahl der Partien von einem in der Liste vorhandenen Gerät berücksichtigt wird.

Ein Beispiel dazu: Die erste Liste enthielt, wie schon erwähnt, 30 Geräte und es wurden insgesamt 1206 Partien gewertet. 132 Partien davon hat der TASC R30 V2.5 gespielt, der in der SSDF seinerzeit mit 2375 Punkten bewertet wurde. Für die Gewichtung des R30 wird daher dessen ELO-Zahl mit der Anzahl der gespielten Partien multipliziert und dieser Wert dann durch die Gesamtzahl der gewerteten Partien geteilt, d. h. (2375 x 132)/1206 = 260.

Diese Berechnung führt man für alle Geräte durch und addiert die einzelnen Werte zum endgültigen Startwert, der dann noch durch2 geteilt werden muß, da man die partien ja sonst doppelt zählen würde. Im obigen Beispiel hat der R30 also 260/2=130 Punkte zum gewichteten Startwert der ersten Liste (2118) beigetragen. Auf diese Weise erhält man nicht einen auf ein bestimmtes Gerät fixierten Bezugspunkt, sondern es werden quasi alle 30 Geräte gemäß ihres Beitrags berücksichtigt. Die SSDF-Liste wurde nur für die allererste Berechnung herangezogen, alle nachfolgenden Auswertungen bezogen sich immer auf unsere eigene Liste. Der Effekt dieser Herangehensweise sei anhand der Abbildung 1 veranschaulicht.



Unsere Liste war von Beginn an etwas „kopflastig“, d. h. wir haben grundsätzlich mehr Partien von nominell stärkeren Geräten erhalten und berücksichtigt. Die Anzahl der Partien der Geräte aus dem ersten Tabellendrittel blieb mehr oder weniger die ganze Zeit über signifikant höher. Im Laufe der Zeit kamen aber immer mehr Geräte aus dem so genannten „unteren ELO-Bereich“ hinzu. Man wird erwarten, dass tendenziell schwächer bewertete Geräte eine Liste „nach unten“ ziehen. Wie man am Verlauf des Mittelwerts oder des Medians1 erkennt, würde die schlichte Verwendung dieser Werte tatsächlich zu einer permanenten Abnahme des Startwerts führen. Nicht so mit der gewichteten Methode, die es schafft, den Startwert relativ konstant über die Zeit zu halten, da sie die Partien von nominell stärkeren Geräten aufgrund der höheren Anzahl stärker berücksichtigt.

1 Der Median ist die Zahl, die in der Mitte einer nach Größe sortierten Zahlenreihe liegt. Das heißt, die eine Hälfte der Zahlen hat Werte, die kleiner sind als der Median, und die andere Hälfte hat Werte, die größer sind als der Median.

Die Gewichtung und die jeweilige Anpassung des Startwerts an die in der Liste vorhandenen Geräte ist eine Art Glättung und, wie wir meinen, optimierte Kalibrierung gegenüber der Methode des einfachen Mittelwerts oder Medians. Bis jetzt hat sie hervorragend funktioniert, so dass wir keinen Anlaß sehen, an der Berechnung etwas zu ändern. Ein Nachteil liegt darin, daß durch den sich ständig ändernden Startwert auch Geräte, die keine neuen Partien spielen, einer Änderung ihrer absoluten ELO-Zahl unterliegen können. Dieser Effekt würde aber - bedingt durch das Berechnungsverfahren - auch bei einem konstanten Startwert auftreten.

Es sollte noch angemerkt werden, dass im statistischen „Idealfall“, bei dem alle Geräte die gleiche Anzahl von Partien gegen jedes andere Gerät gespielt haben, der gewichtete Mittelwert natürlich mit dem Mittelwert identisch ist. Ob dies sinnvoll und erstrebenswert ist mag dahingestellt sein. Wir halten es für fragwürdig, z. B. einen TASC R30 gegen den armen Super Constellation antreten zu lassen. Bei der SSDF hat man sich übrigens auch einen Höchstabstand von 400 ELO-Punkten zwischen 2 Geräten als Regel vorgegeben, wir wollen hier nicht ganz so streng sein.


(zum Vergrößern bitte Bild anklicken)

Wie üblich ist die ELO-Tabelle auch noch einmal graphisch dargestellt, um die Fehlerspannweite bei den einzelnen Geräten optisch aufzuzeigen (Abbildung 2). Zusätzlich sind ist die Anzahl der pro Gerät gespielten Partien als Balkengraphik dargestellt. Aufällig sind am oberen und unteren Ende jeweils extreme Abweichungen durch Geräte mit entsprechend starker (Resurrection) bzw. schwacher Performance (Mephisto III, Novag Constellation 2.0 Mhz). Berechnungsbedingt wird dadurch die Liste immer ein wenig auseinander gezogen.

Die Liste enthält durch die Neueinteilung jetzt 6 Geräte der Kategorie M (Meister) und 11 Geräte der Kategorie R (Referenz). Die weitaus größte Zahl der Geräte (32) tummelt sich jetzt in der der Kategorie F (vollwertig bewertet). Die Zahl der Geräte der Kategorie P (vorläufig bewertet) hat geringfügig zugenommen auf 23.

Zusammengelegte Geräte Bei folgenden Geräten bzw. Einstellungen von Geräten haben wir eine Zusammenlegung der Partien durchgeführt, teilweise weil zu wenig Partien vorlagen, teilweise weil die Unterschiede einfach zu gering sind und natürlich dann wenn Geräte eine identische Hardware-Ausstattung aufweisen (z. B. diverse Morsch-Clones). Sollten eines Tages für bestimmte Konfigurationen genügend Partien vorliegen, wird natürlich geprüft, ob eine Unterscheidung sinnvoll ist, und folglich würden diese Varianten gegebenenfalls getrennt gelistet.

· Saitek GK 2100 – President – Centurion
· Saitek GK 2000 – Travel Master
· Mephisto Atlanta – Magellan
· Mephisto Milano Pro – Senator – Master Chess
· Fidelity Elite 68020 V6 - Mach IV 68020 - Designer 2325
· Fidelity Elite 68000 V2 bis V4 (unterscheiden sich nur durch die Größe der Hashtabellen) - Mach III 68000 - Designer 2265
· TASC Chessmachine 16 Bit Gideon 3.0 (14 MHz), Mephisto RISC I 1 MB
· TASC Chessmachine 16 Bit Madrid 3.1 (14 MHz), Mephisto RISC II 1 MB
· Saitek RISC 2500 mit 128K, 512K, 2MB und verschiedene Einstellungen, ebenso beim Mephisto Montreux
· Extensions ON/OFF bei Novag Star Diamond, Diamond II und Diamond
· Selektivitätseinstellungen (4 und 5) beim Novag Super Forte C und B
· Verschiedene Einstellungen beim TASC R30 2.5
· Mephisto Supermodial II - Monte Carlo IV
· Mephisto Dallas 68000 - Mondial 68000 XL
· CXG Spinx Galaxy 2.04 - Dominator
· Bei den Geräten der Mephisto Modulreihe 68000, 68020 und 68030 ab Portorose sowie beim Mephisto Berlin und Berlin Pro wird von der Grundeinstellung ausgegangen (andere Infos liegen nicht vor) Diese Liste wird fortgeführt und für weitere Hinweise in diese Richtung sind wir natürlich jederzeit dankbar!

Statistikteil

Gewertete Partien 7550

 

 

White Wins 3123 (41.4 %)
Black Wins 2472 (32.7 %)
Draws 1955 (25.9 %)

 

 

White Perf. 54.3 %
Black Perf. 45.7 %

 

 

ECO A 2143 Games (28.4 %)
ECO B 1483 Games (19.6 %)
ECO C 1752 Games (23.2 %)
ECO D 1632 Games (21.6 %)
ECO E  540 Games (  7.2 %)




Wer nicht die Zeit bzw. Möglichkeit hat, sich sämtliche Einzelheiten Online zu erschließen, kann sich unsere Elo Liste + Erklärung auch als PDF-File downloaden.

 Elo Liste 2015 (PDF-File 3 MB)



Stefan Ottow, Hans-Jürgen Schäfer,
Achim Pietig
&
Michael Völschow
Im August 2015
.:  © schachcomputer.info  :.