Schachcomputer.info Community - Einzelnen Beitrag anzeigen

#38

29.06.2017, 08:31

Solwac

Revelation

Dabei seit 15 Jahren, 2 Monaten und 7 Tagen.

Registriert seit: 18.07.2010

Land:

Beiträge: 782

Abgegebene Danke: 189

Erhielt 338 Danke für 216 Beiträge

AW: Mm5 nur 1575 ELO ??

Zitat von Chessguru

Kennst du eines der Berechnungsprogramme? Alle Programme (EloStat, Ordo, Bayeselo) erwarten die Angabe einer Startelo. Anhand dieser Zahl werden die Elo Zahlen aufgebaut. Die Abstände der Geräte untereinander bleiben davon aber unberührt. Dient eigentlich nur dazu, die ausgeworfenen Elo Zahlen, dem eigenen Empfinden anzupassen. Die Programme berechnen grundsätzlich nur die Abstände der Geräte zueinander.

Ja, ich kenne die Programme. Auch wenn ich lieber mein eigenes verwendet habe.

Da wusste ich wenigstens was das Programm genau macht und hatte mehr Informationen über die statistischen Unsicherheiten.

Die Verwendung einer Startelo ist trotzdem zu hinterfragen. Denn die Unsicherheit dieses Startwerts ist wesentlich für die Rückschlüsse, die viele aus einer solchen Liste ziehen.

Zitat von Chessguru

Bei Aktivschachpartien kommen vereinzelt Turnier per E-Mail rein, aber der Rest zu 99% stammt aus dieser Community.

Bei den Turnierpartien sieht es etwas anders aus. Die überwiegende Zahl stammt aus der Community, der Rest von Personen die ernsthaft Turnierpartien spielen und diese auch veröffentlichen.

Dann wäre zu überlegen, ob nicht eine Liste ohne Startwert, d.h. Startelo = 0, die sauberste Darstellung wäre. Ein Elowert von +41 mit Fehlerbereich würde dann bedeuten, dass das Programm besser als der getestete Durchschnitt abschneidet. Für denjenigen, der den Wert aber lieber als Information zum Vergleich mit anderen Listen/Angaben/menschlichen Spielern vergleichen möchte, braucht es dann einen weiteren Wert, der aber unabhängig von den Testpartien ist.

Eine Angabe von Computer XY hat Elo 1717 kann immer kritisiert werden mit Aussagen wie "Das kann gar nicht stimmen, der hat mindestens 1750!"
Aber was wird da kritisiert? Wahrscheinlich nicht wirklich die Testpartien sondern eher die Schätzung was das im Vergleich mit anderen Listen bedeutet.

Bei manchen Beiträgen im CCC waren schon Dinge zu lesen wie: "Nach soundso vielen Partien habe ich für Programm A eine Elo von 3210 +- 3 ermittelt" und das ist Käse. Richtig ist, dass Programm A in einem Pool der Programme A, B, C und D eine relative Wertung von +11 +-3 erreicht hat. Mit einem Startwert von 3199 +-50 ergibt dies aber für einen Vergleichswert mit anderen Listen 3210 +-50.

Zitat von Chessguru

Gar nicht.

Man kann schlecht mehrere Listen erstellen und diese dann vermischen.

Da liegt ein Missverständnis vor, ich habe ja nur eine Liste auf Basis all meiner Ergebnisse, kann aber sie aber mehrfach kalibrieren. So könnte ich meine Liste einmal wie oben beschrieben erstellen und den Basiswert zweimal angeben: Einmal aufgrund von Partien gegen Menschen für die Programme, die sowohl in meiner Liste sind als auch Ergebnisse gegen Menschen haben. Und zum anderen könnte ich eine andere Liste nehmen, z.B. die der SSDF und schauen mit welchem Basiswert habe ich insgesamt die geringste Abweichung (dies halte ich übrigens für eine sehr gute Methode für einen Vergleich).

Aber mehrere Listen können durchaus vermischt werden, es müssen halt vergleichbare Daten sein. Wenn ich also ein Turnier mit 1000 Partien spiele und Du eines mit 2000 Partien und die Bedenkzeit ist vergleichbar, dann kann dies zusammen auch als ein Turnier mit 3000 Partien angesehen werden. Es dürfen halt keine getrennten Cluster auftreten, aber das gilt auch schon für die einzelnen Turniere.

Zitat von Chessguru

Du findest ein paar Überreste auf der SSDF Seite. Leider sehr schlecht katalogisiert.

Tony´s Chess site: http://privat.bahnhof.se/wb432434/welcome.htm

Ah, danke. 337 Partien mit 24 Programmen, das ergibt natürlich eine statistische Unsicherheit größer als die Angaben in den meisten Listen. Und man erhält nur einen Vergleich zum menschlichen Pool in Schweden (da dürften die meisten Partien gespielt worden sein) im Zeitraum von 1987-1991. Diese Beschränkung ist im Jahr 2000 wahrscheinlich schon so auffällig geworden, dass eine Änderung wirklich nötig wurde (ich habe es damals in der CSS nur gelesen und im USENET bzw. bei CCC gab es kaum zusätzliche Informationen). Eigentlich hätte es mindestens 300 neue Partien gegen Menschen gebraucht, aber daran hat es (für die Statistik) ja immer schon gemangelt. Auch erklärt sich so der Versatz um glatte 100 Punkte, eine bessere Zahl gibt es nicht.

Zitat von Chessguru

Die SSDF hat ihren Wert im Laufe der Zeit auch angepasst. Es ist nicht so, dass man stur auf einem Anfangswert bestand. Damit meine ich jetzt nicht die 100 Punkte zum Abschluss. Anfang der 90er passte die Sache recht gut zu den erzielten Werten bei vielen Turnieren mit menschlicher Beteiligung.

Ja, für den Zeitraum kurz nach 1990 ist die Liste sehr konsistent.

Zitat von Chessguru

Natürlich hat sich das Niveau im Top Bereich geändert. Aber wir reden hier nicht über 2800 Elo Geräte. Im Bereich z.B. von 1500 aufwärts hat sich die Welt nicht großartig geändert.

Woher kommt diese Überzeugung? Eigentlich müsste man Geräte im Bereich von 1500-1700 gemäß gängiger Listen nehmen und gegen menschliche Schachspieler mit DWZ in dem Bereich spielen lassen, einige hundert Partien. Und dann könnte man Rückschlüsse daraus ziehen. Nur wüsste ich keinen, der diesen Aufwand hinbekommen könnte. 50 Partien in einem Schachverein wären schon eine große Leistung und der Ausschluss systematischer Fehler eine riesige Herausforderung. Und die statistische Unsicherheit immer noch groß.