Einzelnen Beitrag anzeigen
  #68  
Alt 17.09.2023, 15:19
Benutzerbild von Walter
Walter Walter ist offline
Resurrection
 
Registriert seit: 19.02.2011
Ort: Erlenbach a. Main
Land:
Beiträge: 589
Abgegebene Danke: 191
Erhielt 420 Danke für 159 Beiträge
Member Photo Albums
Aktivitäten Langlebigkeit
0/20 14/20
Heute Beiträge
0/3 ssssss589
AW: Kurt Kispert Memorial (D.A.CH.-Turnier) in Kaufbeuren vom 27.10 bis 29.10.2023

 Zitat von ProteusArts Beitrag anzeigen
....Anmerkung zur "Referenzliste"

Es sollte klar sein, das derzeit bei nur 30.000 Permutationen bei über 380 Schachcomputer eine stochastische Unschärfe der ELO-Zahl-Streuung vorliegt, die niemals zum Ausschluss von favorisierten Teilnahmegeräten um wenige ELO-Punkte führen sollte.

Aus Sicht der stochastischen Optimierung einer solchen Liste sind für aussagekräftige verlässliche Aussagen, wie wir sie fordern, über 3 Mio Permutationen notwendig - hsbt recht - da haben wir noch ordentlich Arbeit vor uns!

Wenn also weiterhin diese "Referenzliste" herangezogen wird, sollten wir zukünftig nicht an starren ELO-Zahlen festhalten, sondern uns abstimmen und den Schnitt ansetzen, ab welchem Schachcomputer wir die Teilnahme ermöglichen. Das schafft die Gelegenheit auch relativ unbekannte Schachcomputer in Partien zu untersuchen, und zugleich als Motivation in der Spielstärke "oben" mit dabei zu sein.

MfG!
VOLKER
Ich stimme nur teilweise zu. Warum?

Klar ist, dass der aufgrund von Partien ermittelte Elo-Wert nicht unbedingt der "wahre" Wert ist. Klar ist ebenfalls, dass der "wahre" Wert in einem Intervall um den ermittelten Wert herum liegt. Dieses Intervall ist relativ groß, wenn nur wenige Partien vorliegen. Es wird immer kleiner, je mehr Partien vorliegen.
Je mehr Partien in die Bewertung einfließen, desto zuverlässiger wird das Ergebnis. Leider bringt die doppelte Anzahl an Partien nicht die doppelte Genauigkeit, sondern:

- die Genauigkeit verbessert sich bei mehr Partien immer langsamer, so dass man irgendwann wegen des Aufwandes Schluss machen muss
- andererseits wird die Genauigkeit schon ab einer gewissen Menge an Partien durchaus so gut sein, dass es nur noch eine nutzlose Diskussion geben kann, ob es 5 Elo-Punkte mehr oder weniger sind.
- und der Hinweis sei erlaubt: Eine Steigerung der Genauigkeit durch mehr Partien kann extrem (unbewusst natürlich...) dadurch manipuliert werden, welche Gegner man nimmt. Nur zufällige Gegner machen die Qualität der Daten besser. Nimmt man z.B. die Ergebnisse eines Turniers, wo nur zwei Schachcomputer eine Menge Partien gegeneinander spielen, dann ist das keine Zufallsauswahl der Gegner. Die Ergebnisse sagen was über die Stärkeverhältnisse der beiden Gegner miteinander, aber die "universell wahre" Elo-Zahl wird dadurch verzerrt. Eigentlich müssten die Ergebnisse solcher Zweikämpfe unberücksichtigt bleiben.

Ich will versuchen, das mit Würfeln zu verdeutlichen:
Jeder weiß, dass bei einem korrekten Würfel jede der sechs Zahlen diesselbe Wahrscheinlichkeit haben sollte, bei einem Wurf dran zu kommen. Hier kenne ich also das theoretische Ergebnis.

Jetzt stellen wir uns mal einen Würfel vor, an dem wir Zweifel haben, ob er korrekte Ergebnisse bringt, d.h. die Zahlen rein zufällig erscheinen. Er könnte z.B. eine ungleichmäßige Form haben, oder ein betrügerisches Bleigewicht, oder.... Also will ich prüfen, ob der Würfel korrekt ist.

Wie mache ich das? Indem ich würfele und vergleiche, ob die Ergebnisse von den theoretisch zu erwartenden abweichen.

Würfele ich 96 mal (96 und nicht 100, damit durch 6 teilbar): dann erwarte ich, dass jede Zahl von 1 bis 6 je 16 mal kommt. Nun ist es so, dass selbst ein korrekter Würfel genau dieses Ergebnis bei 96 Würfen nur im seltenen Extremfall einmal bringen wird, weil der Zufall mitspielt, sondern die Zahlen werden meist um die 16 herum liegen, also mal 12, mal 22, etc. --> Das Intervall um die 16 herum ist recht groß. ABER: die Zahlen werden durchschnittlich auf die 16 hinweisen, wenn der Würfel korrekt ist.

Nehmen wir an, wir hätten keine Ahnung von den Eigenschaften eines Würfels. Durch Probierwürfe würden wir lernen, dass der Würfel die Gewohnheit hat, dass jede Zahl etwa gleich häufig kommt. Wir würden sozusagen das "Gesetz des Würfels" durch Probieren entdecken.

So ist es mit der Ermittlung der Elo-Werte: Wir machen Probe-Partien, und schließen daraus auf die Eigenschaft des Schachcomputers.

Nur muss ich eine tückische Falle beachten:
Ziehe ich zu viele Partien desselben Gegners mit ein, dann ist das nicht mehr "zufällig" gewürfelt, sondern die Eigenschaften des Gegners beeinflussen das Ergebnis.

Bezogen aufs Würfeln müsste ich mich vielleicht fragen, ob die Unterlage die Würfe beeinflusst oder die Art und Weise, wie ich den Würfel werfe. Falls ja, könnte mein Würfel noch so korrekt sein, die Probewürfe würden das nicht wiederspiegeln. (Deswegen lässt man auch die wöchentlichen Lottozahlen durch eine Maschine ziehen, die vorher vom Notar überprüft wurde.) Erst müsste ich für eine neutrale Unterlage bzw. neutrale Verhältnisse sorgen.

So kann die Wahl des Gegners auch die Elo-Zahl eines Schachcomputers verfälschen.
Einfach erklärt: spiele ich häufig gegen einen schwächeren Gegner, dann werden die Ergebnisse zu einem überhöhten Elo-Wert führen.

Nun zur Genauigkeit:

Würfele ich sehr viel (sagen wir 1.000 oder 1 Mio mal), dann wird immer noch das Ergebnis kaum ganz exakt dieselbe Häufigkeit für jede Zahl bringen, also immer noch ein wenig von der Theorie abweichen. Aber wenn der Würfel korrekt ist, wird jede Zahl schon relativ genau ein Sechstel ausmachen. --> das Intervall wird im Verhältnis zur Menge der Würfe immer kleiner, der gefundene Wert ist damit sehr vertrauenswürdig. Das nennt man das "Gesetz der großen Zahl". Bei großen Testmengen werden die Ergebnisse signifikant besser (sofern nicht bei der Auswahl der Gegner Fehler gemacht wurden).

Ein anderes Beispiel ist die sogenannte "Sonntagsfrage" ("Welche Partei würden Sie wählen...."). Da werden typischerweise 1.000 oder 2.000 Leute befragt (die Mathematik beweist, dass es diesselbe Anzahl in Deutschland oder Holland ist, um diesselbe Vertrauenswürdigkeit zu bekommen. Die Bevölkerungszahl ist unerheblich. Für Laien ist das schwer zu glauben, aber es stimmt. Auch in Luxemburg sind es 1.000 oder 2.000).

Ich drücke mich jetzt mathematisch etwas unkorrekt aus, aber es soll verständlich sein: Bei 1.000 Befragten beträgt das Vertrauen, dass das Ergebnis der Stichprobe stimmt, immerhin ca. 90%, bei 2.000 Befragten ca. 95%. Das heißt, bei 10% bzw. 5% der Umfragen stimmt es eben nicht. Um auf 99% Sicherheit zu kommen, müsste man ca. 10.000 Leute befragen, was aber zu viel Aufwand ist. Also muss man sich mit 90% oder 95% zufrieden geben, weil man kein besseres Ergebnis hat. Analog müssen wir uns auch bei den Elo-Werten mit der Anzahl Partien zufrieden geben, die bekannt ist.

So ist es mit den Elo-Werten: Man hat kein besseres Ergebnis. Insoweit nerven mich Leute, die immer und immer wieder kritisieren, dass es ja nicht gaaaaaaaanz genau sei. Das macht niemanden schlauer. Der Elo-Wert in der Tabelle ist der bis dahin bestmögliche ermittelbare, BASTA.

Gegen die Mathematik gibt es keine Argumente, jedenfalls keine stichhaltigen, höchstens gefühlsmäßige. Gefühle taugen hier aber nicht.

Gegen das andere Problem hilft dagegen die Mathematik aber nicht wirklich weiter.
Nehmen wir mal an, ein Gerät tritt nur gegen schwächere Gegner an. Seine Elo-Zahl wird ins Unermessliche steigen. Oder nur gegen stärkere Gegner: seine Elo-Zahl sinkt und sinkt.

Das ist ein Konstruktionsfehler des Elo-Verfahrens, aber nicht der Mathematik, die dann die vorhandenen Daten in eine Bewertung umsetzt.

Man müsste daher fordern, dass ein Gerät gegen jedes andere (d.h. gegen jeglichen Schachcomputer, den es gibt) eine gleiche Anzahl von Partien spielt. Nur das würde diese Verzerrung verhindern.

Da das aber praktisch nicht durchführbar ist, müsste wenigstens gewährleistet sein, dass ungefähr die Hälfte der Gegner schwächer, die andere Hälfte stärker ist. Aber schon das ist bei sehr starken Schachcomputern (oder sehr schwachen) eigentlich unmöglich.

Bei menschlichen Schachspielern wurden die Elo-Werte der Spitzenspieler im Laufe der Jahre und Jahrzehnte immer höher, aber nicht weil die Spieler immer besser geworden wären. Die Spitzenspieler "saugen" quasi Elo-Punkte von schlechteren Spielern an, weil sie - wegen ihrer Spitzenklasse - viel zu häufig gegen schwächere spielen. Das ist ein Konstruktionsfehler des Elo-Systems, der daher kommt, dass man keinen standardisierten Vergleichsgegner hat, mit dem man vergleichen könnte. Also greift das Elo-Verfahren zum Notbehelf, andere Spieler als Vergleichsmaßstab zu nehmen, die dazu aber nur bedingt geeignet sind. Vielleicht wird das künftig ein KI-Programm sein, wer weiß, und man wird das Elo-System ändern? Dann müssten Spieler und Schachcomputer gegen dieses KI-Schachprogramm spielen, um ihre Elo-Zahl zu ermitteln....

Bis dahin haben wir aber nur die Möglichkeit, wie es bisher gehandhabt wurde.
Und wir müssen die Elo-Tabellen ohne Nörgeln nehmen, wie sie sind.

Daher spricht logischerweise nichts dagegen, bei den Turnierregeln eine bestimmte Obergrenze zu wählen. Wer dagegen anmeckert, ist beweispflichtig. Ich habe bisher nur Gemecker erlebt, nie einen Beweis, weil es diesen Beweis logischerweise ohne neue Partien nicht geben kann. Bisher ging es dabei immer darum, dass dieser oder jener Schachcomputer, der knapp über der Grenze liegt, doch vielleicht und unter Umständen eventuell doch ins Feld gehöre. Man könnte noch auf den Antrag warten, einen Schachcomputer ausschließen, obwohl er unterhalb des Limits liegt, weil er angeblich zu stark sei. In beiden Fällen sind das haltlose Narrative (Märchen).

Etwas anderes befürworte ich dagegen: Man sollte die Elo-Grenze für die Turnierteilnahme nicht immer an glatten Zahlen ausrichten, sondern auch mal krumme Limits wählen, damit auch mal andere Zusammensetzungen der Teilnehmer entstehen. Ich könnte mir vorstellen, dass man zunächst das ungefähre Limit ausdiskutiert und der Spielleiter dann das Limit durch ein Zufallsverfahren ausknobelt. Zum Beispiel könnte man sich auf ein Limit zwischen 2000 und 2100 einigen und der Spielleiter lässt seinen Computer dann per Zufall bestimmen, welches Limit dazwischen festgelegt wird.
Mit Zitat antworten
Folgende 6 Benutzer sagen Danke zu Walter für den nützlichen Beitrag:
kamoj (17.09.2023), Mapi (17.09.2023), MaximinusThrax (17.09.2023), Robert (18.09.2023), Wandersleben (17.09.2023), Wolfgang2 (17.09.2023)