Thema: Frage: Mm5 nur 1575 ELO ??
Einzelnen Beitrag anzeigen
  #85  
Alt 02.07.2017, 14:02
Benutzerbild von Solwac
Solwac Solwac ist offline
Revelation
 
Registriert seit: 18.07.2010
Land:
Beiträge: 782
Abgegebene Danke: 189
Erhielt 338 Danke für 216 Beiträge
Aktivitäten Langlebigkeit
0/20 15/20
Heute Beiträge
0/3 ssssss782
AW: Mm5 nur 1575 ELO ??

 Zitat von Hartmut Beitrag anzeigen
Man kann sich von dem Berechnungsmodell eigentlich nicht wirklich lösen. Die ELO-Zahl ist ein von Arpad Elo geschaffenes oder ermitteltes mathematisches Modell. Entweder ich benutze dieses Modell, dann habe ich eine ELO-Zahl oder ich benutze ein anderes Modell, dann habe ich etwas anderes. Deswegen halte ich allein aufgrund der Berechnungsgrundlagen in den ganzen Listen den Begriff ELO-Zahl für problematisch. Es ist eine BayesELO, eine ELOSTAT-ELO oder eine ORDO-ELO aber eben keine wirkliche ELO-Zahl. Es gibt nur eine ELO-Zahl (die von Arpad Elo) und es gibt die verschiedensten Wertungszahlen die auf irgendeine andere Art entstanden sind.
Dann lass doch bitte die Verwendung von Elo ganz. Offiziell heißt es "FIDE Rating". Und wenn wir hier ein "Schachcomputer.info Rating" machen würden, dann könnte man sehr gut darüber diskutieren, ob Computer xy mit unserer Ratingzahl Spielern mit Fide Rating im gleichen Bereich einen ausgeglichenen Wettkampf spielen würden.

 Zitat von Hartmut Beitrag anzeigen
Der Begriff Gewinnerwartung den Du so gerne benutzt ist ebenfalls irreführend (zumindest so, wie ich ihn von Dir verstanden habe). Entweder ich habe eine Gewinnerwartung (woher wenn nicht aus einer Elodifferenz oder einer anderen Wertungszahlendifferenz?) oder ich habe ein Turnier in dem sowas berechnet wird. Dann ist es aber keine "Erwartung" mehr sondern ein Ergebnis. Also was nun bitte?
Ah, darin liegt wohl Dein Missverständnis.

Nehmen wir wieder zwei Computer (um Tagesform und ähnliches auszuschließen). Du kennst die beiden Computer nicht und ich sage Dir, dass Gerät eine Gewinnerwartung von 64% hat. Was sage ich damit? Bei einem Wettkampf über 10 Partien ist 6,5:3,5 das wahrscheinlichste Ergebnis. Aber auch ein 8,0:2,0 ist möglich oder ein 5,0:5,0.
Denn jede Partie ist unabhängig voneinander, bei einer Wiederholung morgen hätten wir immer noch genau dieselben 64%. Du würdest zurecht annehmen, dass die beiden Rechner sich in ihrem Rating um 100 Punkte unterscheiden (das sie es nicht tun, weil Ergebnisse gegen dritte anders ausfallen, ist unerheblich. Ohne weitere Informationen ist 100 immer noch die beste Schätzung).

Ähnliche Situation, Du gibst mir zwei Schachcomputer. Ich weiß, auch hier gibt es wieder eine Gewinnerwartung, ich kenne nur den Wert nicht. Dass es ein fester Wert ist, WEIß ich aufgrund der Eigenschaft Schachcomputer. Es findet keine Entwicklung der Spielstärke statt, für eine ganz bestimmte Stellung kann ich theoretisch den berechneten Zug bestimmen, alle nötigen Informationen sind unabhängig vom Gegner und höchstens in der Praxis schwer zu ermitteln (z.B. Hashtabelle in Abhängigkeit von der Rechenzeit vorheriger Züge).

Aber ich kenne den Wert nicht. Nach etlichen Testpartien komme ich auf einen Wert von (x+-y)%. Je kleiner y wird, desto besser die Vorhersage. Aber selbst mit y=0 kann ich das Ergebnis der nächsten Partie nicht vorhersagen. Ich kann es nur statistisch beschreiben, denn es sind Zufallselemente in der einzelnen Partie. Diese Art der Vorhersage machen wir z.B. bei den Tipps auf die von Egbert durchgeführten Matches. Und da vor dem Match x (y interessiert hier nicht mehr, es vergrößert nur die Unsicherheit, d.h. Tipps werden noch unsicherer) nur wenig Informationen verfügbar sind (z.B. durch Abschätzungen mit verwandten Programmen) sind die Vorhersagen deutlich ungenauer als bei Kenntnis der "wahren" Gewinnerwartung. Daher kommt der Spaß bei der Beschäftigung.

Nächster Schritt: Eigentlich müsste für jedes Paar von Computern eine eigene Gewinnerwartung ermittelt werden, denn die Rückschlüsse aus anderen Partien funktionieren nur mit Annahmen. Dadurch können wir einem Programm eine Ratingzahl zuordnen und aufgrund dieser Ratingzahl Vorhersagen für zukünftige Wettkämpfe treffen. Haben zwei Programme dieselbe Ratingzahl, dann schätze ich sie daher als gleichstark ein und erwarte 50% für beide. Hätte ich aber vorher schon mal 100 Partien zwischen den beiden Computern durchgeführt (mit einem Ergebnis von 70:30), was sollte ich dann erwarten?
Ich würde 70:30 erwarten, denn der direkte Vergleich enthält mehr Informationen als die eine, aus allen Partien ermittelte Ratingzahl.

 Zitat von Hartmut Beitrag anzeigen
Zurück zur von dir geposteten Frage: Können Computer unter sich nach demselben Modell wie Menschen beschrieben werden und dann für eine Elodifferenz dieselben Gewinnerwartungen erhalten.

Also erstmal erneut ein erstauntes: "Ja was nun bitte?" Erst soll ich mich von dem Modell lösen, dann kommst Du mit der Frage ob man mit dem Modell arbeiten kann. Entscheide Dich doch bitte mal.
Ich kann mit einem Modell etwas beschreiben. Wen ich das tue, dann kann ich dieses Modell für Vorhersagen verwenden und experimentell überprüfen. Bei Menschen funktioniert das Modell ganz gut und die Unsicherheiten im System sind kleiner als die Schwankungen aufgrund der zeitlichen Entwicklung der Spielstärke der Menschen (kurzfristige Formschwankungen und langfristige Entwicklungen durch mehr oder weniger Training, Gesundheit, Lebensumstände usw.).
Bei Computern funktioniert das auch ganz gut, aber es gibt viel mehr Partien und keine zeitlichen Schwankungen. Die statistischen Unsicherheiten sind klein und nur eine rein statistische Angabe. Ich kann zwei Programmen Ratingzahlen mit sehr kleiner Schwankung zuordnen, im direkten Duell kann etwas anderes herauskommen. Dies wird meist mit "Angstgegner" oder ähnlichen Begriffen beschrieben und ist damit für den Menschen "verstanden". Auch wenn die dahinter liegende Statistik zu kompliziert ist.

Und jetzt kommt das Problem: Wir haben ein System mit großen Schwankungen für Menschen und ein System mit kleinen statistischen Unsicherheiten aber einer gewissen Verteilung von Gewinnerwartungen für Computer. Wie gut passen diese beiden Systeme zueinander, die beide einer Gewinnerwartung von 76% einen Ratingunterschied von 200 Punkten geben?

 Zitat von Hartmut Beitrag anzeigen
Nur macht sich, zumindest seit man meint, ELO-Zahlen aufgrund von tausenden von Blitzpartien ermitteln zu wollen wie bei CCGT, keiner die Arbeit nach dem wirklichen ELO-Modell zu rechnen, sondern man verwendet andere Modelle. Das sind aber dann auch eben keine wirklichen ELO-Zahlen sondern eben Wertungszahlen nach Methode Bayes, ORDO oder wie sie alle heissen mögen. Gleichzeitig (siehe CSS-Forum) erwartet man dass diese Zahlen dann auch noch mit menschlichen ELO-Werten vergleichbar sein sollen. Da fängt dann wirklich die Dummheit an (das einzige neben dem Universum, das scheinbar wirklich keine Grenzen kennt).
Bayes und Co. sind aufgekommen, weil das System von Arpad Elo nur Gewinnprozente benutzt und die Verteilung von Gewinn, Remis und Verlust nicht. Dadurch ergeben sich kleine Abweichungen.
Aber auch das System Arpad Elos ist nicht frei von intrinsischen Unterschieden.

Vergleiche mal Zahlen der FIDE und der USCF auf verschiedenen Leveln aus der Zeit vor 2000. Das mathematische Modell war beides Mal gleich und dennoch war die Differenz für Durchschnittsspieler und für Spitzenspieler unterschiedlich. Und zwar in Größenordnungen wie bei der Frage -100 oder nicht für Brettcomputer.
Mit Zitat antworten