Schachcomputer.info Community

Schachcomputer.info Community (https://www.schachcomputer.info/forum/index.php)
-   Die ganze Welt der Schachcomputer / World of chess computers (https://www.schachcomputer.info/forum/forumdisplay.php?f=2)
-   -   Test: ELO ist relativ (https://www.schachcomputer.info/forum/showthread.php?t=5096)

Solwac 16.01.2016 20:08

AW: ELO ist relativ
 
Irgendwie scheine ich das Problem nicht erkennen...

Einige sind sauer/enttäuscht, dass "ihr" Lieblingscomputer in einer vorher anerkannten Liste zu hoch steht und deshalb bei einer Beschränkung raus fällt?

Dann sollte vorher der Finger gehoben werden, nachkarten hinterlässt immer einen faden Beigeschmack.

Eine andere Sache ist das teilweise vorhandene Unverständnis in Bezug auf die Ermittlung der ELO-Zahlen. Da wird mit "Gefühl" argumentiert, es werden Vergleiche mit der Ermittlung menschlicher ELO-Zahlen herangezogen usw.

Zum ersten: Gefühl hat dabei nichts verloren und ist zwar menschlich verständlich, aber für ein Ergebnis nicht hilfeich. Solange die einzelne Partie nicht technische Fehler hat gehört sie gewertet. Ansonsten wird ein systematischer Fehle eingebaut. Für verschiedene Fälle gehört vorher eine Lösung überlegt und diese dann konsequent angewandt. Dazu gehören z.B. Zeitüberschreitung, Umgang mit Dubletten (wenn sie aus Gründen der Zeitersparnis und Abwechselung nicht ausgespielt werden sollen), Aufgabe einer Seite und Abschätzung einer Partie (auch hier wäre das Ausspielen besser, aber eben auch mit Zeit und wenig Abwechselung verbunden).

Die Veränderung der ELO-Zahlen in verschiedenen Listen mit der Zeit hat hauptsächlich zwei Ursachen: Es werden neue Partien gespielt (eventuell sogar mit neuen Programmen) und bei der Neuberechnung ergibt sich eine bessere Schätzung. Und zweitens, die gesamte Liste wird neu geeicht. Letzteres verändert die Liste nur als ganzes, aber für einzelne Programme kann dabei eine kritische fixe Marke (z.B. ELO 2000) über- bzw. unterschritten werden. Daher sollte eine Neueichung nicht kurz vor einem Turnier mit einem fixen Limit durchgeführt werden. Denn ein Programm mit z.B: 2006 statt vorher 1997 ist natürlich kein Deut anders und die Relation zu den anderen Turnierteilnehmern hat sich nicht geändert.

Der Vergleich mit der Ermittlung menschlicher ELO-Werte ist nicht hilfreich. Menschen unterliegen einer zeitlichen Veränderung, Schachprogramme nicht. Eine Partie vor 20 Jahren von mir gegen meinen Nachbarn ist für den heutigen Erwartungswert meiner Spielstärke irrelevant. Eine Partie zwischen MM IV gegen Roma II hingegen gehört auch nach 20 Jahren noch in die Berechnung.

Die Berechnung von ELO-Zahlen aus Partien zwischen Computern hat zwei grundsätzliche Probleme: Zum einen sollen die Zahlen mit menschlichen Zahlen vergleichbar sein, d.h. wenn Programm A 200 ELO höher als Progamm B eingestuft wird, dann soll sich das auch im Vergleich zu Menschen wider spiegeln. Es gibt aber deutlich mehr Partien zwischen Computern als gegen Menschen, deshalb wird es immer Abweichungen geben müssen. Und das zweite Problem liegt in der Annahme einer Verteilungsfunktion. Bayes-ELO statt ELO-Stat ist eine Verbesserung, aber es bleibt immer noch ein Fehler.

Solwac 16.01.2016 20:26

AW: ELO ist relativ
 
Was das Gefühl betrifft:

Nehmen wir mal eine Bewertung aufgrund von vier Programmen A, B, C und D.

Folgende Ergebnisse gab es in einem ersten Durchlauf:

Code:

A - B 12,0 -  8,0
A - C 18,0 - 22,0
A - D 13,5 - 16,5
B - C 16,5 - 13,5
B - D 22,0 - 18,0
C - D 10,0 - 10,0

A: 43,5/90
B: 46,5/90
C: 45,5/90
D: 44,5/90

Was sagt Euer Gefühl, welches Programm ist das Stärkste?
Was sagen die ELO-Zahlen?
Und würde sich etwas ändern, wenn in 10 weiteren Partien A gegen B 6 weitere Punkte erzielen würde?

;)

mclane 16.01.2016 20:53

AW: ELO ist relativ
 
Zitieren:

Zitat von Wolfgang2 (Beitrag 56962)
Das "Angstgegner" - Argument möchte ich gerne aufgreifen, weil es speziell beim Almeria 68020 und - umgekehrter Effekt - beim MonteCarlo IV anzutreffen ist. Ersterer tut sich schwer mit den Schröder-Programmen (MC IV, Nigl Short) und der MC IV hat zwar 211 Spiele gemacht, aber davon nun mal rund die Hälfte gegen diverse Programme von Richard Lang, die ihm offenbar gut liegen.
Nun, dann gibt es ein stolzes Rating für den MC IV (2018), der meiner Ansicht nach (ich selbst habe den Supermondial II) irgendwo zwischen MM IV und MM V besser aufgehoben wäre.
Aber das liegt in der Natur der Sache. Ich verstehe jeden, der mit dem "kleinen" Schröder-Programm Partien gegen "Lang"-Rechner spielt. ;)

Einen weiteren Punkt, den ich für kritisch halte, ist wenn ein Programm gegen eine Vorgängerversion spielt. Das gibt dann mitunter zu klare Ergebnisse.
Ich betreibe "Mephisto Polgar - MM IV /20 MHz" auch deswegen nicht weiter. Denn das würde den MM IV unverhältnismäßig schlecht aussehen lassen, das Rating nach unten "verfälschen".

Gruß
Wolfgang

Also ich kann zur ganzen Diskussion wenig beitragen, möchte aber darauf hinweisen das in meinem Oldie Turnier der MC4/college
Von den Schröder Programmen am stärksten abschneidet.

12 Mephisto College 20/30
16 mm5 18,5/33
17 Nigel Short 18/30
20 Mega IV 15/32
21 Academy 15/31
25 Milano 13/30

Von rebel x, rebel oder polgar habe ich noch nicht genug Partien erspielt.
Aber ist es nicht erstaunlich das dieser Ableger von es so gut Scored ?!

Chessguru 16.01.2016 23:25

AW: ELO ist relativ
 
Zitieren:

Zitat von Solwac (Beitrag 56978)
Und das zweite Problem liegt in der Annahme einer Verteilungsfunktion. Bayes-ELO statt ELO-Stat ist eine Verbesserung, aber es bleibt immer noch ein Fehler.

Völlig richtig, nur welche Variante würdest du wählen? Gerade mit dem Blick auf das sehr breite Spektrum z.B. in der Aktivliste? Im Grunde passt da keines der Programme, denn je breiter die Streuung desto ungenauer wird die Liste.

Solwac 16.01.2016 23:51

AW: ELO ist relativ
 
Zitieren:

Zitat von Chessguru (Beitrag 56986)
Völlig richtig, nur welche Variante würdest du wählen? Gerade mit dem Blick auf das sehr breite Spektrum z.B. in der Aktivliste? Im Grunde passt da keines der Programme, denn je breiter die Streuung desto ungenauer wird die Liste.

Meine Statistikkenntnisse reichen zum verstehen, nicht zum erfinden. :ignore:

Das Problem wird meiner Meinung nach von den Eröffnungsbibliotheken verstärkt. Viele Programme nehmen nach dem Buch in schlechter bewerteten Stellungen die Stellungswiederholung, egal gegen welchen Gegner. Ich habe für eigene Auswertungen irgendwann mal festgestellt, dass bei Siegen unterhalb von 80% alles noch ganz gut funktioniert, das war noch bevor ich von Bayes-ELO gehört habe.

Remi Coulom hat aber schon eine Menge Gehirnschmalz verwendet, daher habe ich nur wenig Hoffnung auf eine weitere Verbesserung.

StefanT 17.01.2016 12:04

AW: ELO ist relativ
 
Die grundsache ist das noch immer die gespielten partien des forums mitglieder zum grundlage liegen !

Für mich mit solch eine umfangreiche Partien Datenbank sollte die Reihenfolge nicht wesentlich anders aussehen.

Was die interpretation des entgegens betrifft wo A von B , B von C, C von D und D von A wiederum besiegt werd oder sonnstige fälle, sollte auf eine menge partien keine oder weniger eine rolle spielen, weil diese specifischen scenario (s) während die Anzahl des Partien nur theoretisch ist....

Der ELOzahl legt nur das Verhalten fest, der Zahl kann wie in dieser fall so um und bei 50 ELO abgewertet sein. Es schaut sich an wegend die abwertung des SC die entsteht, das es eher die SSDF liste ernähert, aber da sollte wirklich die zwei listen SC nach SC einander nachlegen und Ihren relativen Position in eine Tabellenkalkulationprogramm eingegeben werden um so etwas zu bestätigen.

Wenn ich überhaupt über ELOstat/BayesELO lese, sollte BayesELO eher ausgeglichen sein. Vielleicht gibt es mitglieder die nicht einverstanden sind mit dem heutigen Reihenfolge, kann schon sein. Ich lese manchmal über die Polemik des SFC.

Eine ELOzahl entspricht am besten die Zahl des DWZ/FIDE oder USCF. Die Schweden haben sich dahin gemischt und daher die ELO des brettcomputer abgewertet und dies war nicht für jeder Computer zu recht ! Einige erhielten sich verhaltnungsgemass im Partien eher gut aber trotzdem bekommten den gleichen abzug wie SC die , auf die erhaltene Partien, gar nicht zu recht kommten.

Wenn es doch keine Konvertierung danach möglich ist, und partien gegen Mensche fehlen werde ich mich nicht mühen.

Ich weiss nicht ob die Arbeit nicht all so gross ist, sonst konnte beide Statistiken auf die wiki liste angezeigt werden für Ihre fangemeinde,
doch die Diskussion Pro oder Contra werde sicherlich nicht aufhören.

Für mich ist es egal ich sehe es wie eine convention, mehr nicht. Ich glaube meine hunger nach noch eine Zahl wie es beim Menschenschach explodiert sei besänftigt (National Standard , National Blitz ..., Fide Standard, Fide Blitz,..., DWZ, Höllandischen ELO, ...)

Ich werde auch bestätigen : Meine Statistikkenntnisse reichen zum verstehen, nicht zum erfinden !

Solwac 17.01.2016 14:40

AW: ELO ist relativ
 
Zitieren:

Zitat von StefanT (Beitrag 56988)
Eine ELOzahl entspricht am besten die Zahl des DWZ/FIDE oder USCF. Die Schweden haben sich dahin gemischt und daher die ELO des brettcomputer abgewertet und dies war nicht für jeder Computer zu recht ! Einige erhielten sich verhaltnungsgemass im Partien eher gut aber trotzdem bekommten den gleichen abzug wie SC die , auf die erhaltene Partien, gar nicht zu recht kommten.

Anders geht es ja auch nicht. Es geht nicht darum für einen Computer den besten Wert zu bestimmen, es soll über alle gerechnet der beste Wert berechnet werden.

Allerdings war das Vorgehen der Schweden mit einer Korrektur um 100 Punkte so nicht richtig (die 100 Punkte machen mich misstrauisch, hätte man um z.B. 93 Punkte korrigiert, dann wäre es für mich glaubhafter).

MaximinusThrax 17.01.2016 18:48

AW: ELO ist relativ
 
Zitieren:

Zitat von Solwac (Beitrag 56989)
Allerdings war das Vorgehen der Schweden mit einer Korrektur um 100 Punkte so nicht richtig

Ja natürlich nicht, manche Geräte wurden dadurch schwächer gemacht als sie in Wirklichkeit sind!

MaximinusThrax 17.01.2016 18:50

AW: ELO ist relativ
 
Zitieren:

Zitat von Solwac (Beitrag 56989)
Allerdings war das Vorgehen der Schweden mit einer Korrektur um 100 Punkte so nicht richtig

Ja natürlich nicht, manche Geräte wurden dadurch schwächer gemacht als sie in Wirklichkeit sind! Nur damit die gepimpten Elozahlen der Spitzen-PC's im oberen Teil der Liste nicht aus dem Ruder liefen.

Solwac 17.01.2016 23:36

AW: ELO ist relativ
 
Zitieren:

Zitat von MaximinusThrax (Beitrag 56994)
Ja natürlich nicht, manche Geräte wurden dadurch schwächer gemacht als sie in Wirklichkeit sind! Nur damit die gepimpten Elozahlen der Spitzen-PC's im oberen Teil der Liste nicht aus dem Ruder liefen.

Das ist ja auch in Ordnung. Wenn sich die Liste spreizt, dann sollten die Abweichungen oben und unten ähnlich groß sein. Leider gibt es im höheren Bereich weniger Partien zwischen Menschen und Computern. Eine Zeitlang waren die Spitzen-Mikros definitv schwächer als ihr allgemein anerkantes Rating der SSDF.

Heute ist es egal ob die Spitze bei 3300 oder 3100 liegt, der Wert ist kaum vergleichbar mit den besten Menschen.


Alle Zeitangaben in WEZ +2. Es ist jetzt 12:39 Uhr.

Powered by vBulletin (Deutsch)
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
©Schachcomputer.info