Einzelnen Beitrag anzeigen
  #1  
Alt 21.05.2007, 22:50
Benutzerbild von Stefan
Stefan Stefan ist offline
Mephisto Wundermaschine
 
Registriert seit: 01.07.2004
Ort: Dresden
Alter: 58
Land:
Beiträge: 495
Abgegebene Danke: 2
Erhielt 10 Danke für 9 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss495
Neue Turnier-Elo-Liste

Hallo,

nach fast zwei Jahren langen Wartens ist es endlich wieder soweit, wir haben eine neue Turnierliste berechnet (Tabelle 1 auf der folgenden Seite). Wir haben im Internet gestöbert, selbst gespielt, unzählige Partien aus der schachcomputer.info Community (und aus aller Welt!) bekommen, Partien von Formularen abgetippt und eingescannt, dafür allen einen herzlichen Dank!

Die Liste enthält jetzt insgesamt 4210 (+1521) doublettenfreie Partien, gespielt von 72 (+17) Geräten. Bei dieser Aktualisierung sind wiederum im oberen Drittel eine große Anzahl von Partien hinzugekommen, der ELO-Kalibrationswert liegt daher auch bei 2132 gegenüber 2118 in der vorigen Liste. Der statistischen ELO-Mittelwert hat sich dagegen durch die neu hinzugekommenen Geräte im unteren Bereich verringert von 2060 auf 2047 Punkte. Hierauf wird weiter unten nochmal sehr detailliert eingegangen werden. Im Zuge der Neuberechnung haben wir auch einige Modifikationen durchgeführt, die im folgenden kurz erläutert werden sollen. Zunächst einmal wurde die Anzahl der mindestens zu spielenden Partien geringfügig erhöht und zwar auf 20 Partien, die weiterhin gegen mindestens zwei Gegner gespielt sein müssen. Dies einfach deshalb, um die Statistik bei der Neuaufnahme eines Gerätes etwas mehr zu festigen und vor allem einen „Wildwuchs“ von Geräten mit weniger als 20 Partien zu vermeiden. Des weiteren haben wir dem Wunsch einiger Mitglieder Rechnung getragen und die Einteilung der Geräteklassen angepasst. Da wir jetzt über 70 Geräte in der Liste haben, erschien uns der Ansatz der Mindestanzahl der Gegner für ein Referenzgerät (60% der Gegner) bzw. für die Meisterklasse (30 % der Gegner) nicht mehr praktikabel. Es gelten daher ab sofort folgende Aufnahme- bzw. Bewertungskriterien:

1. Ein Gerät muß mindestens 20 Partien gegen 2 Gegner gespielt haben, um eine Wertungszahl zu erhalten. Es wird dann mit P für „vorläufig“ bewertet (engl. prelimnary) bezeichnet.
2. Ein Gerät muß mindestens 50 Partien gegen 3 Gegner gespielt haben, damit es als vollwertig bewertet in die Liste aufgenommen wird (Bezeichnung F, engl. full).
3. Ein Gerät, das 150 Partien gegen 15 % der in der Liste geführten Geräte gespielt hat wird als Referenzgerät bezeichnet (Bezeichnung R, engl. reference).
4. Ein Gerät, das 300 Partien gegen 25 % der in der Liste geführten Geräte gespielt hat wird als Meistergerät bezeichnet (Bezeichnung M, engl. master).

Auf die aktuell in den einzelnen Klassen vorhandene Anzahl der Geräte wird weiter unten gesondert eingegangen. An dieser Stelle wollen wir nach so langer Pause auch noch einmal die Gelegenheit ergreifen und die Entstehung bzw. Berechnung unserer Liste genauer erläutern. Die erste Liste aus dem Jahre 2004 startete mit 30 Geräten und etwas mehr als 1200 Partien. Wir entschieden uns damals für die Berechnung mit dem Programm ELO-Stat von Frank Schubert (aktuell in der Version 1.3) und gegen eine Berechnung nach FIDE. Dies deshalb, weil die ELO-Stat-Methodik schneller und für Computer besser anzuwenden ist, da man für letztere annehmen kann, dass – anders als beim gelegentlich schwächelnden Menschen - sich deren Spielstärke mit der Zeit nicht verändert.

Elo-Stat benötigt im Idealfall einen sogenannten „Cluster“ aus Geräten, die vereinfacht ausgedrückt, alle „untereinander verbunden“ sind. Mit anderen Worten, zwischen allen Geräten gibt es entweder einen direkten (ein Spiel gegeneinander) oder einen indirekten Zusammenhang (Computer A hat gegen Computer B gespielt aber nicht gegen Computer C; Computer B wiederum hat aber gegen Computer C gespielt). Das Programm führt mit einem fiktiven, durch den Anwender festzulegenden Startwert eine Berechnung durch und wiederholt diese so lange bis alle ELO-Werte konstant sind (in der Mathematik nennt man das Iterationsverfahren). Heraus kommt eine Liste, die in erster Linie den Spielstärkezusammenhang der Geräte untereinander ausgibt, d. h. ein Gerät A ist um x ELO-Punkte stärker als ein Gerät B.

Hier steckt dann auch die Problematik dieser Herangehensweise, nämlich die Wahl des Startwertes, denn durch willkürliches Setzen dieser Zahl durch den Anwender kann man im Prinzip jeden ELO-Wert generieren. Anders ausgedrückt, es fehlt der Bezugspunkt oder eine Art Kalibrierung. Eine geeignete Methode hierfür ist es zum Beispiel, ELO-Zahlen von Geräten heranzuziehen, die sich menschlichen Turnieren eine Bewertung erspielt haben. Dies wurde (auf nationalem schwedischen Niveau) z. B. von der SSDF so gemacht.

Mangels dieser Kalibrier-Möglichkeit haben wir für unsere erste Liste folgenden Ansatz gewählt: Wir haben die unkorrigierten Werte der SSDF-Liste (d. h. vor der Absenkung um 100 Punkte im Jahr 2000!) aus dem Jahr 2004 für unsere ersten 30 Geräte genommen, aus denen einen so genannten gewichteten Mittelwert errechnet und diesen als Startwert für unsere Liste verwendet. Die Gewichtung hat gegenüber der Verwendung des einfachen Mittelwerts, der nur alle ELO-Zahlen aufaddiert und durch die Gesamtzahl der Geräte dividiert, den Vorteil, dass die Anzahl der Partien von einem in der Liste vorhandenen Gerät berücksichtigt wird.

Ein Beispiel dazu: Die erste Liste enthielt, wie schon erwähnt, 30 Geräte und es wurden insgesamt 1206 Partien gewertet. 132 Partien davon hat der TASC R30 V2.5 gespielt, der in der SSDF seinerzeit mit 2375 Punkten bewertet wurde. Für die Gewichtung des R30 wird daher dessen ELO-Zahl mit der Anzahl der gespielten Partien multipliziert und dieser Wert dann durch die Gesamtzahl der gewerteten Partien geteilt, d. h. (2375 x 132)/1206 = 260.

Diese Berechnung führt man für alle Geräte durch und addiert die einzelnen Werte zum endgültigen Startwert, der dann noch durch 2 geteilt werden muß, da man die Partien ja sonst doppelt zählen würde. Im obigen Beispiel hat der R30 also 260/2 = 130 Punkte zum gewichteten Startwert der ersten Liste (2118) beigetragen. Auf diese Weise erhält man nicht einen auf ein bestimmtes Gerät fixierten Bezugspunkt, sondern es werden quasi alle 30 Geräte gemäß ihres Beitrags berücksichtigt. Die SSDF-Liste wurde nur für die allererste Berechnung herangezogen, alle nachfolgenden Auswertungen bezogen sich immer auf unsere eigene Liste. Der Effekt dieser Herangehensweise sei anhand der Abbildung 1 veranschaulicht.



Unsere Liste war von Beginn an etwas „kopflastig“, d. h. wir haben grundsätzlich mehr Partien von nominell stärkeren Geräten erhalten und berücksichtigt. Die Anzahl der Partien der Geräte aus dem ersten Tabellendrittel blieb mehr oder weniger die ganze Zeit über signifikant höher. Im Laufe der Zeit kamen aber immer mehr Geräte aus dem so genannten „unteren ELO-Bereich“ hinzu. Man wird erwarten, dass tendenziell schwächer bewertete Geräte eine Liste „nach unten“ ziehen. Wie man am Verlauf des Mittelwerts oder des Medians1 erkennt, würde die schlichte Verwendung dieser Werte tatsächlich zu einer permanenten Abnahme des Startwerts führen. Nicht so mit der gewichteten Methode, die es schafft, den Startwert relativ konstant über die Zeit zu halten, da sie die Partien von nominell stärkeren Geräten aufgrund der höheren Anzahl stärker berücksichtigt.

1Der Median ist die Zahl, die in der Mitte einer nach Größe sortierten Zahlenreihe liegt. Das heißt, die eine Hälfte der Zahlen hat Werte, die kleiner sind als der Median, und die andere Hälfte hat Werte, die größer sind als der Median.

Die Gewichtung und die jeweilige Anpassung des Startwerts an die in der Liste vorhandenen Geräte ist eine Art Glättung und, wie wir meinen, optimierte Kalibrierung gegenüber der Methode des einfachen Mittelwerts oder Medians. Bis jetzt hat sie hervorragend funktioniert, so dass wir keinen Anlaß sehen, an der Berechnung etwas zu ändern. Ein Nachteil liegt darin, daß durch den sich ständig ändernden Startwert auch Geräte, die keine neuen Partien spielen, einer Änderung ihrer absoluten ELO-Zahl unterliegen können. Dieser Effekt würde aber - bedingt durch das Berechnungsverfahren - auch bei einem konstanten Startwert auftreten.

Es sollte noch angemerkt werden, dass im statistischen „Idealfall“, bei dem alle Geräte die gleiche Anzahl von Partien gegen jedes andere Gerät gespielt haben, der gewichtete Mittelwert natürlich mit dem Mittelwert identisch ist. Ob dies sinnvoll und erstrebenswert ist mag dahingestellt sein. Wir halten es für fragwürdig, z. B. einen TASC R30 gegen den armen Super Constellation antreten zu lassen. Bei der SSDF hat man sich übrigens auch einen Höchstabstand von 400 ELO-Punkten zwischen 2 Geräten als Regel vorgegeben, wir wollen hier nicht ganz so streng sein.


(zur Vergrößerung bitte Abbildung anklicken)

Wie üblich ist die ELO-Tabelle auch noch einmal graphisch dargestellt, um die Fehlerspannweite bei den einzelnen Geräten optisch aufzuzeigen (Abbildung 2). Zusätzlich sind ist die Anzahl der pro Gerät gespielten Partien als Balkengraphik dargestellt. Aufällig sind am oberen und unteren Ende jeweils extreme Abweichungen durch Geräte mit entsprechend starker (Resurrection Fruit '05) bzw. schwacher Performance (Mephisto III, Novag Constellation 2.0 Mhz). Berechnungsbedingt wird dadurch die Berechnungsbedingt wird dadurch die Liste immer ein wenig auseinander gezogen.

Die Liste enthält durch die Neueinteilung jetzt 6 Geräte der Kategorie M (Meister) und 11 Geräte der Kategorie R (Referenz). Die weitaus größte Zahl der Geräte (32) tummelt sich jetzt in der der Kategorie F (vollwertig bewertet). Die Zahl der Geräte der Kategorie P (vorläufig bewertet) hat geringfügig zugenommen auf 23.

Zusammengelegte Geräte Bei folgenden Geräten bzw. Einstellungen von Geräten haben wir eine Zusammenlegung der Partien durchgeführt, teilweise weil zu wenig Partien vorlagen, teilweise weil die Unterschiede einfach zu gering sind und natürlich dann wenn Geräte eine identische Hardware-Ausstattung aufweisen (z. B. diverse Morsch-Clones). Sollten eines Tages für bestimmte Konfigurationen genügend Partien vorliegen, wird natürlich geprüft, ob eine Unterscheidung sinnvoll ist, und folglich würden diese Varianten gegebenenfalls getrennt gelistet.

· Saitek GK 2100 – President – Centurion
· Saitek GK 2000 – Travel Master
· Mephisto Atlanta – Magellan
· Mephisto Milano Pro – Senator – Master Chess
· Fidelity Elite 68020 V6 - Mach IV 68020 - Designer 2325
· Fidelity Elite 68000 V2 bis V4 (unterscheiden sich nur durch die Größe der Hashtabellen) - Mach III 68000 - Designer 2265
· TASC Chessmachine 16 Bit Gideon 3.0 (14 MHz), Mephisto RISC I 1 MB
· TASC Chessmachine 16 Bit Madrid 3.1 (14 MHz), Mephisto RISC II 1 MB
· Saitek RISC 2500 mit 128K, 512K, 2MB und verschiedene Einstellungen, ebenso beim Mephisto Montreux
· Extensions ON/OFF bei Novag Star Diamond, Diamond II und Diamond
· Selektivitätseinstellungen (4 und 5) beim Novag Super Forte C und B
· Verschiedene Einstellungen beim TASC R30 2.5
· Mephisto Supermodial II - Monte Carlo IV
· Mephisto Dallas 68000 - Mondial 68000 XL
· CXG Spinx Galaxy 2.04 - Dominator
· Bei den Geräten der Mephisto Modulreihe 68000, 68020 und 68030 ab Portorose sowie beim Mephisto Berlin und Berlin Pro wird von der Grundeinstellung ausgegangen (andere Infos liegen nicht vor)

Diese Liste wird fortgeführt und für weitere Hinweise in diese Richtung sind wir natürlich jederzeit dankbar!

Stefan

Geändert von Stefan (22.05.2007 um 21:45 Uhr)
Mit Zitat antworten