Thema: Frage: Mm5 nur 1575 ELO ??
Einzelnen Beitrag anzeigen
  #88  
Alt 03.07.2017, 01:35
Hartmut Hartmut ist gerade online
Lebende Foren Legende
 
Registriert seit: 01.04.2010
Ort: Nürnberg
Alter: 61
Land:
Beiträge: 2.607
Abgegebene Danke: 3.561
Erhielt 2.793 Danke für 1.275 Beiträge
Aktivitäten Langlebigkeit
16/20 15/20
Heute Beiträge
1/3 sssss2607
AW: Mm5 nur 1575 ELO ??

 Zitat von Solwac Beitrag anzeigen
Dann lass doch bitte die Verwendung von Elo ganz. Offiziell heißt es "FIDE Rating". Und wenn wir hier ein "Schachcomputer.info Rating" machen würden, dann könnte man sehr gut darüber diskutieren, ob Computer xy mit unserer Ratingzahl Spielern mit Fide Rating im gleichen Bereich einen ausgeglichenen Wettkampf spielen würden.
Naja, ich hab mit dem Begriff ELO-Zahl nicht angefangen, sondern die Threadüberschrift beginnt schon mit dem Begriff. Wenn wir jetzt den allgemeinen Begriff Wertungszahl benutzen wollen und dabei im Auge behalten dass wir von verschiedenen Systemen reden, dann habe ich da kein Problem damit.

Zitieren:
Ah, darin liegt wohl Dein Missverständnis.
Bei mir liegt kein Missverständnis vor. Es ist wohl eher so, dass Du Begriffe oder Werte benutzt (Gewinnerwartung) ohne zu sagen wo Du die hernimmst. Sorry, ich kann vieles, aber Gedankenlesen gehört nicht dazu.

Zitieren:
Nehmen wir wieder zwei Computer (um Tagesform und ähnliches auszuschließen). Du kennst die beiden Computer nicht und ich sage Dir, dass Gerät eine Gewinnerwartung von 64% hat. Was sage ich damit? Bei einem Wettkampf über 10 Partien ist 6,5:3,5 das wahrscheinlichste Ergebnis. Aber auch ein 8,0:2,0 ist möglich oder ein 5,0:5,0.
Soweit völlig richtig, wenn wir mal beiseitelassen, dass Du erneut nicht verrätst wo Du die Gewinnerwartung her hast.


Zitieren:
Denn jede Partie ist unabhängig voneinander, bei einer Wiederholung morgen hätten wir immer noch genau dieselben 64%.
Warum? Hätte der Wettkampf über 10 Partien tatsächlich nun mit einem anderen Ergebnis als jenen 65 % stattgefunden, hätte sich für einen zukünftigen Wettkampf auch die Gewinnerwartung geändert. Alles andere ist im Sinne der Wahrscheinlichkeitsrechnung erstmal mathematischer Unfug

Zitieren:
Du würdest zurecht annehmen, dass die beiden Rechner sich in ihrem Rating um 100 Punkte unterscheiden (das sie es nicht tun, weil Ergebnisse gegen dritte anders ausfallen, ist unerheblich. Ohne weitere Informationen ist 100 immer noch die beste Schätzung).
Soweit richtig. Hat man keine andere Information dann muss man erstmal mangels Information von diesen ca. 100 Puinkten ausgehen. Das ist dann halt keine wirklich gefestigte Wertungszahl sondern eine Schätzung. Genauso wie ich - würde ich gegen einen beliebigen Spieler eine 65 % Performance über eine ausreichende Anzahl Partien erzielen - davon ausgehen würde dass der etwa 100 Punkte unter mir angesiedelt ist. Soweit ja legitim, denn wir reden jetzt von sehr groben Schätzungen mangels zusätzlicher Information.

Zitieren:
Ähnliche Situation, Du gibst mir zwei Schachcomputer. Ich weiß, auch hier gibt es wieder eine Gewinnerwartung, ich kenne nur den Wert nicht. Dass es ein fester Wert ist, WEIß ich aufgrund der Eigenschaft Schachcomputer. Es findet keine Entwicklung der Spielstärke statt, für eine ganz bestimmte Stellung kann ich theoretisch den berechneten Zug bestimmen, alle nötigen Informationen sind unabhängig vom Gegner und höchstens in der Praxis schwer zu ermitteln (z.B. Hashtabelle in Abhängigkeit von der Rechenzeit vorheriger Züge).
Hier ist allerdings ein Denkfehler. Ratings erhalten die Spieler(Geräte) ja nicht indem man nur 2 Stück gegeneinander spielen lässt sondern durch viele Wettkämpfe und Turniere. Rein theoretisch könnte man natürlich glauben, dass es sich um ein endliches Problem handelt, weil
- keine Entwicklung stattfindet,
- weil die vielleicht vorgegebenen Eröffnungsdatenbanken und damit die Endstellungen von denen es weiter geht endlich sind, etc.
Dabei wird aber unterschlagen dass z.B,
- Algorithmen existieren die bei 2 oder 3 gleichwertigern möglichen Zügen per Zufallsgenerator entscheiden,
- dass der Pool (fast jeden Tag kommt eine neue Version irgendeiner Engine raus) sich stetig vergrößert,
- dass mit jedem Gerät jeder gegen jeden das gegebene Eröffnungsbuch ausspielen müsste um den exakten Wert zu ermitteln, etc.

Und damit ist es eben kein endliches Problem mehr, wie man sehr leicht mathematisch mit Hilfe der vollständigen Induktion nachweisen könnte, falls Dir dieses Nachweisprinzip bekannt ist.

Schränke ich jetzt den Pool nur auf diese 2 Geräte ein, dann kann ich zwar nicht ihre Wertungszahl ermitteln, wohl aber davon ausgehen dass es eine feste Gewinnerwartung gibt. In diesem Fall wäre es wirklich ein endliches Problem. Und selbst wenn man solche Gags wie Zufallsgenerator bei gleichwertigen Zügen etc. mit einbezieht und damit ein unendliches Problem erschafft, ist der Wert doch näherungsweise so gut zu ermitteln dass man von einem relativ festen Wert ausgehen kann, auch wenn es kleine Unsicherheiten noch geben mag.

Zitieren:
Aber ich kenne den Wert nicht. Nach etlichen Testpartien komme ich auf einen Wert von (x+-y)%. Je kleiner y wird, desto besser die Vorhersage. Aber selbst mit y=0 kann ich das Ergebnis der nächsten Partie nicht vorhersagen. Ich kann es nur statistisch beschreiben, denn es sind Zufallselemente in der einzelnen Partie.
Dann hast Du genau das im Kleinen gemacht, was ein Ratingsystem im Großen macht, denn was Du beschreibst ist das Prinzip jedes Ratingsystems. Statistisch einen Wert zu ermitteln der nahezu die durchschnittliche Erwartungshaltung zwischen 2 oder mehr Spielern beschreibt. Der Ausgang einer bestimmten Partie oder eines bestimmten Matches kann deshalb trotzdem nicht vorhergesehen werden. Wäre ja auch Unsinn. Könnte man das exakt vorhersagen, bräuchte man das Match ja nicht spielen und wir können uns stattdessen anderen Hobbies widmen.

Zitieren:
Diese Art der Vorhersage machen wir z.B. bei den Tipps auf die von Egbert durchgeführten Matches. Und da vor dem Match x (y interessiert hier nicht mehr, es vergrößert nur die Unsicherheit, d.h. Tipps werden noch unsicherer) nur wenig Informationen verfügbar sind (z.B. durch Abschätzungen mit verwandten Programmen) sind die Vorhersagen deutlich ungenauer als bei Kenntnis der "wahren" Gewinnerwartung. Daher kommt der Spaß bei der Beschäftigung.
Es gibt, da es eben kein endliches Problem ist, keine "wahre" Gewinnerwartung. Jedwede Gewinnerwartung ist nur eine Momentaufnahme basierend auf bestehenden Wertungszahlen (welchen auch immer) und basierend auf den gegebenen Informationen. Habe ich wenig Partien als Basis, ist die Gewinnerwartung ein sehr unsicherer Wert. Soweit gehen wir beide hier natürlich konform.

Zitieren:
Nächster Schritt: Eigentlich müsste für jedes Paar von Computern eine eigene Gewinnerwartung ermittelt werden, denn die Rückschlüsse aus anderen Partien funktionieren nur mit Annahmen. Dadurch können wir einem Programm eine Ratingzahl zuordnen und aufgrund dieser Ratingzahl Vorhersagen für zukünftige Wettkämpfe treffen. Haben zwei Programme dieselbe Ratingzahl, dann schätze ich sie daher als gleichstark ein und erwarte 50% für beide. Hätte ich aber vorher schon mal 100 Partien zwischen den beiden Computern durchgeführt (mit einem Ergebnis von 70:30), was sollte ich dann erwarten?
Und was willst Du damit sagen? Diese Situation trifft man unter Menschen doch auch an. Ich sagte es schon. Es gibt Gegner mit gleicher Wertungszahl wie ich, gegen die ich nie verloren und einen Score von 70 % erreicht habe und es gibt andere (ebenfalls mit gleicher Wertungszahl) wo ich regelmäßig kein Bein auf die Erde kriege. Trotzdem ist natürlich bei gleicher Wertungszahl die Gewinnerwartung 50 %. Letztlich beschreibst Du hier nur eine Situation die für Menschen ebenso gilt wie für Programme. Im Schnitt und unter der Voraussetzung dass ein genügend großer Partienpool vorhanden ist, sind zwei Spieler mit derselben Ratingzahl in ungefähr gleichstark. Trotzdem kann der eine ein angenehmer Gegner sein weil seine Spielweise wie für mich gemacht ist und der andere ist mir unangenehm, weil ich mit seinem Spilstil nicht so gut klar komme. Und was sagt uns das? Nichts anderes als das was schon Einstein wusste... alles ist relativ.

Zitieren:
Ich würde 70:30 erwarten, denn der direkte Vergleich enthält mehr Informationen als die eine, aus allen Partien ermittelte Ratingzahl.
Wenn Du die Gewinnerwartung für ein Match daraus ermittelst dass Du genau dasselbe Match mit denselben Gegnern vorher schon durchgeführt hast, dann ist das ja legitim. Trotzdem kannst Du damit genauso auf die Schnauze fliegen wie mit der Erwartung 50:50. Die Frage ist halt nur, was Du damit zeigen willst. Das A stärker als B einzuschätzen ist und C Dich nicht interessiert? Klar, aber dafür braucht es dann auch keine Ratingliste sondern nur einen Wettkampf.

Zitieren:
Ich kann mit einem Modell etwas beschreiben. Wen ich das tue, dann kann ich dieses Modell für Vorhersagen verwenden und experimentell überprüfen. Bei Menschen funktioniert das Modell ganz gut und die Unsicherheiten im System sind kleiner als die Schwankungen aufgrund der zeitlichen Entwicklung der Spielstärke der Menschen (kurzfristige Formschwankungen und langfristige Entwicklungen durch mehr oder weniger Training, Gesundheit, Lebensumstände usw.).
Das ist unbestritten...

Zitieren:
Bei Computern funktioniert das auch ganz gut, aber es gibt viel mehr Partien und keine zeitlichen Schwankungen. Die statistischen Unsicherheiten sind klein und nur eine rein statistische Angabe. Ich kann zwei Programmen Ratingzahlen mit sehr kleiner Schwankung zuordnen, im direkten Duell kann etwas anderes herauskommen. Dies wird meist mit "Angstgegner" oder ähnlichen Begriffen beschrieben und ist damit für den Menschen "verstanden". Auch wenn die dahinter liegende Statistik zu kompliziert ist.
Und genau das ist ein Vorteil ebenso wie ein Nachteil. Allein an meinen Beispielen zur Erstellung der CCRL-Liste habe ich schon ausgeführt dass die Qualität der Partien oder im Falle dieser speziellen Liste bereits die Qualität der Umrechnung (Bedenkzeiten bezogen auf diesen und jenen Rechner) ein Problem darstellt (zugegebenermaßen ein Problem das wir hier bei unserer Liste zumindest nicht haben, weil hier die Hardware durch den reinen Schachcomputer ja vorgegeben ist und getunte Geräte extra aufgeführt sind). Bei allen anderen Listen ist es aber ein Problem. Sowohl bei der CCRL als auch bei der CCGT-Liste wird wild umhergerechnet. Es finden Benchmarks aufgrund eines bestimmten Programms (Crafty) statt. Dass der Benchmark unmöglich alle Partiephasen abdecken kann, dass ein Programm die Hardware anders ausnutzt als ein anderes, dass eventuell sogar das Zeitmanagement des Programms sich total verändern kann, wenn es aufgrund der Schnelligkeit des Prozessors eine andere Zeitvorgabe bekommt, all das wird nicht berücksichtigt. Sprich: die Listen sind - auch wenn sie mathematisch gesehen richtig berechnet wurden - qualitativ wertlos. Stimmt die Voraussetzung für eine saubere Berechnung schon nicht, kann auch keine saubere Berechnung rauskommen.

Ein Vorteil wäre sicherlich die Menge der Partien. Wenn man die aber nur dadurch zustande bringt, dass man mit verschiedener Hardware arbeitet, dann bezüglich der Zeitvorgaben umrechnen muss ohne Berücksichtigung der Tatsache, dass sich das Programm mit solcher Einstellung dann vielleicht ganz anders verhält als normal, dann hilft auch die Menge der Partien nicht. Ganz im Gegenteil. Je mehr Partien mit solch mangelhafter Qualität ich habe, umso mehr wird die Statistik verfälscht. Und über das Thema zeitliche Veränderung könnte man jetzt vortrefflich streiten. Das die ganze Partienliste immer auf einem gegebenen Startwert bezogen komplett durchgerechnet wird und zeitliche Veränderungen nicht berücksichtigt werden, sorgt eben gerade für große statistische Unsicherheiten. Auch und gerade deshalb weil hier oftmals recht willkürliche Partienanzahlen als Basis dienen. Gegen den einen Gegner lasse ich 50 Partien spielen, gegen den anderen 300. Aber klar, die Abweichungen sind natürlich nur ganz gering. Sorry, wers glaubt ist selber schuld. Die einzige Liste die wirklich auf bestimmter Hardware aufbaut und nicht irgendwas umrechnet ist die IPON-Liste. Dafür kann mir da keiner erklären, warum manche Engines über zehntrausend Partien gespielt haben und einige andere nur wenige hundert. Man rechnet sich die Welt, wie sie einem gefällt. Hauptsache die richtigen Engines sind in der Liste weit oben. Wer mit wem wieviele Partien gespielt hat... wen juckts... Sorry, aber das hat mit Statistik absolut nichts mehr zu tun.

Zitieren:
Und jetzt kommt das Problem: Wir haben ein System mit großen Schwankungen für Menschen und ein System mit kleinen statistischen Unsicherheiten aber einer gewissen Verteilung von Gewinnerwartungen für Computer.
Und genau das ist aufgrund des oben gesagten in Zweifel zu ziehen. So wie bei den meisten Listen gerechnet wird, ist der Begriff "kleine statistische Unsicherheiten" eigentlich schon sehr dreist. Die genannten Listen sind an fragwürdigen Methoden und ungenauigkeiten schon beim Ausgangsmaterial der Partien nicht mehr zu toppen. Da bisher kaum jemand im Netz eine vernünftige nachvollziehbare Partienbasis geliefert hat (da nehmen sich die Listen leider alle nichts) kann man im Moment noch gar nicht beurteilen wie groß die Unsicherheiten unter vernünftigen Bediungungen wären.

Zitieren:
Bayes und Co. sind aufgekommen, weil das System von Arpad Elo nur Gewinnprozente benutzt und die Verteilung von Gewinn, Remis und Verlust nicht. Dadurch ergeben sich kleine Abweichungen. Aber auch das System Arpad Elos ist nicht frei von intrinsischen Unterschieden.
Nein Bayes und Co sind aufgekommen, weil man damit eine Quick and Dirty Berechnungsmöglichkeit hat die einfach ein pgn File durchläuft, egal wie groß, und sich nicht die Mühe machen eine Datenbank richtig zu pflegen, Veränderungen zu berechnen etc. Zudem findet sich im Netz kein frei verfügbares Programm zur Berechnung von FIDE-Ratings oder DWZ im größeren Stil. Da sitzen die Organisationen drauf, wie die Glucke auf dem Ei. Die Programme die es können sind aber vergleichsweise schweineteuer und meist allenfalls für einen Schachverein geeignet, nicht aber für solche Riesenlisten.

Die Berechnungsmethode nach FIDE hätte vor allem vorausgesetzt, dass man eine Datenbank anlegt und pflegt. Das ist für die Wertungslistenjunkies bei IPON und Co, die möglichst nach Erscheinen einer Engine an 3 Tagen schon 500 Partien gespielt haben wollen, aber zuviel Arbeit. Neue Partien an eine bestehende Datenbank anhängen und dann die Berechnung einfach neu starten ist halt einfacher. Quick and Dirty eben. Verkauft werden einem dann die von der FIDE-Berechnung abweichenden Listen mit nicht nachvollziehbaren Argumenten wie: 10 Siege und 10 Niederlagen gegen einen ELO 1500 werden bei der Fide ebenso behandelt wie 10 Siege gegen einen ELO 500 und 10 Verluste gegen einen ELO 2500 (so auf der Bayesian Seite zu lesen). Das eben aus diesem Grund eine ELO-Differenz von mehr als 400 Punkten für die Berechnung nicht berücksichtigt wird, damit genau dieser Fall eben nicht vorkommt, wird natürlich verschwiegen. Hauptsache, ich habe einen Grund die Quick und Dirty-Lösung zu nehmen. Wenn dann auch noch das Material, welches ausgewertet werden soll, schon fehlerhaft ist (wie oben beschrieben), wie soll da was vernünftiges bei rauskommen. Bisher hat mir noch niemand bewiesen dass die verschiedenen Berechnungsmethoden ala Bayes alltagstauglich sind, weil noch niemand (vielleicht von unserem Forum hier mal abgesehen) ein vernünftiges Ausgangsmaterial ausgewertet hat. Das von IPON CCGT und Co ist jedenfalls aufgrund der sehr fragwürdigen Erstellungsmethode absolut unbrauchbar.

Zitieren:
Vergleiche mal Zahlen der FIDE und der USCF auf verschiedenen Leveln aus der Zeit vor 2000. Das mathematische Modell war beides Mal gleich und dennoch war die Differenz für Durchschnittsspieler und für Spitzenspieler unterschiedlich. Und zwar in Größenordnungen wie bei der Frage -100 oder nicht für Brettcomputer.
Äh ja, und was erwartest Du bitte wenn die Basis der Partien eine andere ist? Die Berechnungsmethode war gleich, aber das Ligensystem ist unterschiedlich, die Partiebasis ist unterschiedlich und höchstwahrscheinlich ist auch allgemein das Level der Spieler im Vergleich unterschiedlich. Zudem mögen sich auch die Regeln unterscheiden die bestimmen, welche Turniere unter welchen Bedingungen überhaupt ausgewertet werden oder nicht. Da ist jedes Land in seiner Entscheidung frei drüber. Spielt ein Amerikaner zum Beispiel nur im eigenen Ländle wird halt dort die USCF-Ratingzahl ausgewertet. Spielt er ein internationales Turnier mit hat es auf die USCF keine Auswertung, dafür wird es von der FIDE ausgewertet. Insofern unterscheiden sich die Werte bereits aufgrund unterschiedlichen Partiematerials und unterschiedlicher Gegnerschaft. Ist doch normal. Wären dieselben Partien von beiden Organisationen ausgewertet worden, wäre das Ergebnis gleich gewesen. Ist aber eben nicht passiert. So what?

OK, sei's drum, du kannst weiter die Argumente der Listenanbieter und Programierer von Bayes und Co nachplappern oder mir mathematisch beweisen, was an diesen Listen jetzt besser sein soll. Ansonsten müssen wir das Thema nicht weiter ausweiten, denn weiterkommen werden wir hier auf andere Art nicht. Dass Listen die nicht auf dieselbe Art entstanden sind, nicht direkt vergleichbar sind, darüber dürften wir uns ja einig sein. Ansonsten zieh ich mich aus dem Thema jetzt erstmal raus. Meine Fernschachpartien warten...
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation)
https://www.iccf.com/player?id=89948&tab=3
Mit Zitat antworten