Schachcomputer.info Community

Zurück   Schachcomputer.info Community > Schachcomputer / Chess Computer: > Teststellungen und Elo Listen / Test positions and Elo lists


Antwort
 
Themen-Optionen Ansicht

  #1  
Alt 31.08.2004, 23:31
Benutzerbild von Chessguru
Chessguru Chessguru ist offline
Administrator
 
Registriert seit: 29.06.2004
Ort: Rostock
Alter: 55
Land:
Beiträge: 6.519
Bilder: 1
Abgegebene Danke: 1.655
Erhielt 4.693 Danke für 1.403 Beiträge
Member Photo Albums
Aktivitäten Langlebigkeit
9/20 20/20
Heute Beiträge
0/3 sssss6519
AW: Im Fadenkreuz

 Zitat von kosakenzipfel
Eine kritische Anmerkung zur neuen Liste

Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste.
Als Beispiel sei der MMII aufgeführt, der in dieser Liste neu vertreten ist. Hier einige der Paarungen (Opponenten):

Atlanta/Magellan, Meph. 2 + 0 = 0 - 2 0.0 %
Dallas 68000/Mondial XL 2 + 0 = 0 - 2 0.0 %
Lyon 68000, Mephisto 2 + 0 = 0 - 2 0.0 %
Polgar 10 MHz, Mephisto 2 + 0 = 0 - 2 0.0 %
Roma 68020, Mephisto 2 + 0 = 0 - 2 0.0 %
Berlin Pro 68020, Meph. 2 + 0 = 0 - 2 0.0 %
R30 V 2.5, TASC 2 + 0 = 0 - 2 0.0 %
RISC 2500, Saitek 2 + 0 = 0 - 2 0.0 %

Alle diese Gegner spielen in einer anderen Liga. Die Ergebnisse sind ebenso vorhersehbar wie nichtssagend.

M. E. sprechen 3 Gründe gegen solche Paarungen, auch wenn sie nach der Elo-Formel korrekt ausgewertet sind:
Konstruktive Kritik ist in Form einer sachlichen Diskussion immer willkommen!

Teilweise kann ich deine Einsprüche nachvollziehen. Aber eins vorneweg. Wir berechnen die angegebenen Werte nicht mit Hilfe einer Elo Formel. Ich kann mich nur wiederholen. Die Werte werden mit Hilfe von EloStat errechnet. Dieses Programm errechnet die relativen Spielstärkeunterschiede der Geräte untereinander. Es berechnet keine Elo Zahlen, sondern stellt die Abstände der Geräte untereinander aufgrund der zugrundliegenden Partien in Zahlen dar.

Die von dir angegebenen Partien stammen aus dem Turnier von Wolfgang. In diesem Turnier kamen 18 Geräte zum Einsatz. Wolfgang hat einfach versucht ein interessantes Teilnehmerfeld zusammenzustellen. Was ihm wohl auch gelungen ist. Natürlich kam es dabei auch zu den oben genannten Paarungen.
Wobei sein Augenmerk wohl eher auf Unterhalt denn Auswertung lag. Man will ja auch seinen Spaß bei der ganzen Geschichte haben. Schließlich sind es ja auch die sogenannten Kleinen, die das Salz in der Suppe ausmachen, zumindest teilweise.

Aber deine Kritik zielt wohl auf einen anderen Punkt.

Zitieren:
1.) Zu den Qualitäten des schwächeren Geräts sagen sie nichts aus. Will ich einen Elo 2000-Spieler einschätzen, bringt es nichts ihn gegen Kasparov, Anand oder Kramnik spielen zu lassen. Das gleiche Problem gibt es bei Teststellungen wie dem BT-Test. Ein Gerät, das keine Aufgabe löst, erhält nach der korrekten Anwendung der Formel einen Grundwert zugemessen. Dieser ist aber durch nichts belegt und abhängig vom eingesetzten Grundwert. Erhöht man den Grundwert der Formel, erhöht sich (bei gleichbleibend „Nichts“) auch der zugemessene Elowert, ohne dass es dafür eine Basis gäbe.
Völlig richtig. Vergleiche über eine längere Distanz gegen diese Schwergewichte würden keinen Sinn machen, was aber in diesem Turnier auch nicht der Fall war.

Zu dem BT-Test ist anzumerken, dass Geräte mit einem BT-Wert von weniger als 1650 aus dem Test genommen werden sollten, da die Ungenauigkeit in diesem Bereich stark zunimmt. So zumindest die Aussage der Entwickler des BT2450 Tests.


Zitieren:
2.) Zu den Qualitäten des stärkeren Gerätes sagt der Vergleich auch nichts aus. Das Kasparov gegen einen 2000-Elo Spieler gewinnt ist klar. Niemand würde aber aus 20 oder mehr solcher Partien eine Aussage zu seiner Leistung treffen. Es tritt aber noch ein Problem hinzu. Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte Und das macht im Vergleich mit benachbarten Geräten in der Spitze, wo die Differenzen klein und die Luft dünn wird, eben deutliche Unterschiede in der Platzierung aus. Ein Effekt, wenn man neutral, oder ein „Verfahren“, wenn man unfreundlich sein will, was leider in der SSDF schon zu sehen war.
Damit unterstellst du uns, dass wir nach dem gleichen Prinzip wie die SSDF "arbeiten" und so eventuell Geräte bevorteilen. Diese Aussage finde ehrlich gesagt mehr als fragwürdig.
Zumal dein Ansatz nicht korrekt ist. Der von dir beschriebene Zuwachs von 1-2 Punkten pro Partie, ist für eine normale Elo Berechnung korrekt. Aber für unsere Liste trifft er eben nicht zu!

Ein Beispiel bezogen auf unsere momentane Liste:

Gerät 1 hat eine Elo von 2216 (RISC 2500)
Gerät 2 hat eine Elo von 1849 (MM II)

Gerät 1 spielt eine Serie von 20 Partien gegen Gerät 2 und gewinnt 20:0. Wie hoch ist nun die Veränderung für Gerät 1? Laut FIDE Elo Berechnung wären es 30 Punkte. In unserer Liste wären es 2 Punkte. Gut könnte man sagen, es sind immerhin 2 Punkte. Was passiert nun aber nach 30 Partien, wenn Gerät 1 30:0 führt? Wenn man in der FIDE Berechnung alle 30 Partien zusammen berechnet, wären es 45 Punkte. Bei uns sieht die Sache aber völlig anders aus. Gerät 1 fällt auf 2216 zurück. Zumal sich aufgrund dieser neuen Konstellation auch die Werte anderer Geräte verschieben.

Warum dieser Effekt eintritt, habe ich oben erklärt.

Zitieren:
3.) In Anbetracht der mangelnden Verwendbarkeit der Ergebnisse ist die Ausführung solcher Partien auch Zeitverschwendung.
Ich halte es daher für geboten, solche Paarungen jetzt, wo die Liste noch im Anfang steckt, zu vermeiden bzw. wieder zu entfernen, um verzerrende Effekte von vornherein auszuschließen.
Diesen Punkt möchte doch gern erläutert bekommen. Welchen verzerrenden Effekt meinst du?

Zitieren:
Die geht nicht darum , möglichst schnell viele Partien abzureißen, sondern für jedes Gerät eine möglichst nahekommende Einschätzung zu erreichen.
Also ich kann micht daran erinnern, dass bisher ein Besucher, der sich aktiv in die Liste mit seinen Partien eingebracht hat, Partien "runtergerissen" hat, um sinnlose Vergleiche zu erstellen. Alle bisherigen aktiven Besucher versuchen mit ihren Partien eine sinnvolle Liste zu erstellen.


Zitieren:
Ich schlage dafür zwei Punkte vor:

A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo.

B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20Elopunkten Abstand beidseitig nähert,

also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden.
Ein interessanter Vorschlag. Nur stellt sich die Frage, woher wissen wir, wie stark ein Gerät wirklich ist? Genau das wollen wir ja mit unserer neuen Liste herausfinden.
Das würde z.B. heißen (wenn man die SSDF zu Rate zieht) ein Sparc dürfte nicht gegen einen Berlin 68000 antreten? Oder ein Milano Pro nicht gegen einen RISC 2? Warum nicht? Sollte nicht viel mehr eine breite Streuung in der Gegnerschaft liegen?
Welche Paarungen würdest du als sinnvoll erachten, unter Berücksichtigung der von dir genannten Kriterien?

Gut finde ich persönlich den Ansatzpunkt, unterschiedliche Charaktere auszuwählen, um eben eine gewisse Streuung zu erhalten und die Hardware der einzelnen Geräte zu beachten. Welche Geräte könntest du ins Feld schicken, um das Gesagte zu illustrieren?

Zitieren:
Mit der Bitte um sachliche Diskussion
Dieser Aussage kann ich mich nur anschließen.

Micha

Geändert von Chessguru (01.09.2004 um 00:05 Uhr)
Mit Zitat antworten
  #2  
Alt 01.09.2004, 09:30
Benutzerbild von Supergrobi
Supergrobi Supergrobi ist offline
Gesperrt
 
Registriert seit: 12.07.2004
Ort: Hannover
Alter: 52
Land:
Beiträge: 702
Abgegebene Danke: 277
Erhielt 436 Danke für 112 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss702
AW: Im Fadenkreuz

Guten Morgen!

 Zitat von kosakenzipfel
2.) Zu den Qualitäten des stärkeren Gerätes sagt der Vergleich auch nichts aus. Das Kasparov gegen einen 2000-Elo Spieler gewinnt ist klar. Niemand würde aber aus 20 oder mehr solcher Partien eine Aussage zu seiner Leistung treffen. Es tritt aber noch ein Problem hinzu. Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte.
Das ist eine interessante Aussage.
Wenn man Elos Formel glaubt, dann sollte es statistisch eigentlich egal sein, gegen welche Gegner man spielt. Es gibt allerdings eine größere Ungenauigkeit, wenn Gegner mit sehr unterschiedlichem Rating gegeneinander spielen: Stellt man die Formel grafisch dar (x-Achse: Ratingdifferenz, y-Achse: Performance), dann wird sie zu den Rändern hin immer flacher. Ab 600 Punkten Differenz holt man schon 100% der Punkte, ein größerer Unterschied macht sich nach Elo nicht mehr bemerkbar. Die größte Genauigkeit ergibt sich demnach im mittleren Bereich, wo die Kurve halbwegs linear verläuft.

In der Praxis scheint es aber so auszusehen, daß Spieler mit einer geringeren Elo-Zahl in Matches mehr Punkte holen, als sie es statistisch (nach Elo) sollten. Jeff Sonas versucht das jedenfalls im ersten Teil seiner Artikelserie in der CSS (2004) statistisch zu belegen. Wer aktiv Schach spielt, kennt vielleicht auch die Haltung vieler Spieler, die, um eine möglichst gute Ratingzahl zu erhalten, lieber gegen stärkere Gegner spielen. Das geht ja sogar bis zur äußersten Weltspitze, die auch lieber unter sich spielt. Und die achtet wirklich auf ihre ELO-Zahl, schließlich entscheiden sich darüber oft Turniereinladungen. An dieser Annahme könnte also was dran sein.

Entsprechend müßte also ein Gerät in unserer Liste gehandicapt sein, wenn es gegen deutlich schwächere Gegner gespielt hat.

Falls diese Annahme wahr ist, bleibt allerdings noch die praktische Auswirkung auf unsere Liste zu bedenken. Aus Gründen des Interesses werden längere Matches im Regelfall nur mit Computern gespielt, die halbwegs in einer Liga spielen. Wenn mal eine Paarung gegen viel stärkere/schwächere Gegner dabei ist, dann, soweit ich das sehe, nur im Rahmen eines größeren Turniers über eine oder höchstens zwei Partien. Ich denke, gemessen an der viel größeren Zahl der in längeren Matches gegen ähnlich starke Computer gespielten Partien werden diese "Ausreißer" nicht so stark ins Gewicht fallen.

Das ist natürlich nur eine pauschale Aussage. Vielleicht findet sich ja jemand, der mich mit einem konkreten Beispiel aus unserer Liste widerlegt?

Viele Grüße,
Dirk
Mit Zitat antworten
  #3  
Alt 03.09.2004, 09:24
Benutzerbild von Supergrobi
Supergrobi Supergrobi ist offline
Gesperrt
 
Registriert seit: 12.07.2004
Ort: Hannover
Alter: 52
Land:
Beiträge: 702
Abgegebene Danke: 277
Erhielt 436 Danke für 112 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss702
AW: Im Fadenkreuz

 Zitat von Supergrobi
Jeff Sonas versucht das jedenfalls im ersten Teil seiner Artikelserie in der CSS (2004) statistisch zu belegen.
Oh, sorry, das war in CSS 5/03! Und auch nicht in der Serie, sondern in einem eigenen Artikel, in dem er ein neues Ratingsystem propagiert.

Da meine Anmerkungen offenbar nicht hinreichend zur Kenntnis genommen worden sind, hier die Kernaussage noch einmal etwas deutlicher:

Wird ein Vergleich zwischen einem stärkeren und schwächeren Gegner gewertet, ist dies ein Nachteil für den stärkeren Spieler.

Jeff Sonas hat in 262.000 Turnierpartien von 1996-2001 nachgewiesen, daß die stärkeren Spieler durchschnittlich weniger Punkte gemacht haben als ihrer ELO-Erwartung entsprach. Dies veranlaßt ihn in dem o.g. Artikel, von der Gaußschen Normalverteilung Elos Abstand zu nehmen, denn aus der Statistik ergibt sich eher ein linearer Zusammenhang.

Wenn wir uns also Gedanken um eine ausgeglichene Gegnerschaft machen, dann höchstens, um ein stärkeres Gerät einem anderen gegenüber nicht zu benachteiligen, indem man es gegen schwache Gegner spielen läßt. Das ist zum Beispiel auch die Grundidee der CSS-Rangliste (www.computerschach.de), die alle Programme gegen die gleichen Gegner spielen läßt, im Grunde in einem großen Rundenturnier.

Es bleibt allerdings die Frage nach der Signifikanz. Bei unserer geringen Partienzahl und der damit verbundenen hohen Standardabweichung dürfte eine eventuelle Verfälschung des Ergebnisses durch unausgewogene Paarungen völlig im "Rauschen" untergehen.

Vielleicht stellen sich Micha oder Stefan mal für ein kleines Experiment zur Verfügung: Bitte erstellt in der Datenbank mal 20 Fake-Partien R30-MMII (Ergebnis 19:1 -- Eloerwartung 0.96 ein bißchen abgerundet, s.o.). Um wie viele Punkte sinkt dann das Rating des R30?


Viele Grüße,
Dirk
Mit Zitat antworten
  #4  
Alt 03.09.2004, 09:52
Benutzerbild von Stefan
Stefan Stefan ist offline
Mephisto Wundermaschine
 
Registriert seit: 01.07.2004
Ort: Dresden
Alter: 58
Land:
Beiträge: 495
Abgegebene Danke: 2
Erhielt 10 Danke für 9 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss495
AW: Im Fadenkreuz

 Zitat von Supergrobi

Vielleicht stellen sich Micha oder Stefan mal für ein kleines Experiment zur Verfügung: Bitte erstellt in der Datenbank mal 20 Fake-Partien R30-MMII (Ergebnis 19:1 -- Eloerwartung 0.96 ein bißchen abgerundet, s.o.). Um wie viele Punkte sinkt dann das Rating des R30?


Viele Grüße,
Dirk

Hallo Dirk,

ich habe einmal folgendes Experiment gemacht und habe unserer Auswerteliste 2 mal jeweils 20 fiktive Partien zugefügt und dann mit dem gleichen Startwert 2113 nochmals neu berchnet. Mit folgenden Ergebnissen:

A) R30 V 2.5 vs MMII 20:0

Ergebnis:
Der R30 verschlechtert sich von 2339 auf 2332
Der MMII bleibt bei 1849 Punkten

B) Montreux 512 K vs MMI 20:0 (ohne die Ergebnisse aus A))

Ergebnis:
Der Montreux verschlechtert sich von 2253 auf 2248
Der MMII verschlechtert sich ebenfalls von 1849 auf 1828


Es bleibt noch anzumerken, daß sich aufgrund der Berechnungsmethode von ELO-Stat (Cluster, d. h. für jedes Gerät werden alle Partien zu einem "Gegner" zusammengezogen und die mittlere gewichtete (!) ELO-Zahl der Gegner als ELo-Wert genommen) jeweils auch geringfügige Änderungen von 1 bis 2 Punkten bei den Geräten ergeben, die entweder gegen den MMII oder den R30 bzw. Montreux gespielt haben.

Womit aus meiner Sicht das Problem, daß ein Gerät bei solcherlei Zweikämpfen permanent Punkte ansammelt, widerlegt ist.

Gruß
Stefan

Geändert von Stefan (03.09.2004 um 09:54 Uhr)
Mit Zitat antworten
  #5  
Alt 03.09.2004, 10:44
kosakenzipfel kosakenzipfel ist offline
SPARC
 
Registriert seit: 12.08.2004
Beiträge: 229
Abgegebene Danke: 1
Erhielt 29 Danke für 5 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss229
AW: Im Fadenkreuz

 Zitat von Stefan Ottow
Hallo Dirk,

ich habe einmal folgendes Experiment gemacht und habe unserer Auswerteliste 2 mal jeweils 20 fiktive Partien zugefügt und dann mit dem gleichen Startwert 2113 nochmals neu berchnet. Mit folgenden Ergebnissen:

A) R30 V 2.5 vs MMII 20:0

Ergebnis:
Der R30 verschlechtert sich von 2339 auf 2332
Der MMII bleibt bei 1849 Punkten

B) Montreux 512 K vs MMI 20:0 (ohne die Ergebnisse aus A))

Ergebnis:
Der Montreux verschlechtert sich von 2253 auf 2248
Der MMII verschlechtert sich ebenfalls von 1849 auf 1828

...

Womit aus meiner Sicht das Problem, daß ein Gerät bei solcherlei Zweikämpfen permanent Punkte ansammelt, widerlegt ist.

Gruß
Stefan
Ok. Dafür bekommen wir ein Problem von der anderen Seite, dass ein Gerät bei solcherlei Zweikämpfen (trotz 100%-Score) permanent Punkte verliert. Was wieder dafür spricht, davon abzusehen.

Gruß
kosakenzipfel
Mit Zitat antworten
  #6  
Alt 03.09.2004, 11:22
Benutzerbild von Stefan
Stefan Stefan ist offline
Mephisto Wundermaschine
 
Registriert seit: 01.07.2004
Ort: Dresden
Alter: 58
Land:
Beiträge: 495
Abgegebene Danke: 2
Erhielt 10 Danke für 9 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss495
AW: Im Fadenkreuz

 Zitat von kosakenzipfel
Ok. Dafür bekommen wir ein Problem von der anderen Seite, dass ein Gerät bei solcherlei Zweikämpfen (trotz 100%-Score) permanent Punkte verliert. Was wieder dafür spricht, davon abzusehen.

Gruß
kosakenzipfel
Lieber Kosakenzipfel,

langsam fehlt mir ein wenig das Verständnis, mir wird nicht so recht klar worauf Du hinaus willst. Wie schon angedeutet, werden wir versuchen "objektivere" Paarungen zusammenzustellen. Aufgrund der Resonanzen im Forum werden wir wohl aber aber davon absehen, den Schachfreunden diesbezüglich Vorschriften zu machen. Wir haben das im übrigen in der Frühzeit schon einmal versucht, als Partien vom Vancouver 68000 fehlten. Nach anfänglich positiver Resonanz ist die Sache dann leider sehr schnell eingeschlafen. Wir vertrauen daher weiter darauf, daß die Leute unsere Liste lesen, Schlüsse ziehen und selbständig zum Anlaß nehmen Partien zusammen zu stellen. Es bleibt daher, wenn Du so willst beim VERSUCH.

 Zitat von kosakenzipfel
Die Botschaft hör´ich wohl, allein ich stehe nicht unter Beweispflicht. Ich habe einen Vorschlag zur Diskussion gestellt. Den kann man aufgreifen oder auch nicht.
Hmm, beweisen wollen wir eigentlich auch nichts... Ich sehe uns weiterhin nicht den Punkt der fehlenden Objektivität oder statistischen Unsicherheit in unserem Ansatz. Die ist möglicherweise durch die vielen verschiedenen Turniermodi nach dem 40. Zug viel größer (was i. Ü. mal interessant wäre zu untersuchen...).

 Zitat von kosakenzipfel
Ich muss mich dafür nicht mit Partien revanchieren. Ich kann mir auch überlegen, was das neue Saitek-Modul können sollte. Deshalb muss ich es aber nicht bauen o Natürlich bin auch ich weiter für alles offen

müssen muß hier niemand .

... und wenn wir schon beim wir sind nochmal die Frage: Wie könnte Dein Beitrag aussehen bzgl. des "Problems"? Partien zu spielen können und wollen wir natürlich nicht einfordern, aber es wäre schon ganz nett wenn ein Kritiker sich im positiven Sinne einbringen könnte, zumal er einen Vorschlag gemacht, wie man es aus seiner Sicht besser machen könnte.

Viele Grüße
Stefan

Geändert von Stefan (03.09.2004 um 18:02 Uhr)
Mit Zitat antworten
  #7  
Alt 03.09.2004, 17:39
kosakenzipfel kosakenzipfel ist offline
SPARC
 
Registriert seit: 12.08.2004
Beiträge: 229
Abgegebene Danke: 1
Erhielt 29 Danke für 5 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss229
AW: Im Fadenkreuz

Lieber Stefan,

wenn mich das Handling nach der 1. Zeitkontrolle auch interessiert, der zweite Absatz im zweiten Zitat meines Postings stammt nicht von mir. A bisserl mehr Sorgfalt beim Zitiern, gell


müssen muß hier niemand .

Na, da hab´ich ja noch mal Glück gehabt

... und wenn wir schon beim wir sind nochmal die Frage: Wie könnte Dein Beitrag aussehen bzgl. des "Problems"? Partien zu spielen können und wollen wir natürlich nicht einfordern, aber es wäre schon ganz nett wenn ein Kritiker sich im positiven Sinne einbringen könnte, zumal er einen Vorschlag gemacht, wie man es aus seiner Sicht besser machen könnte.

Folgende Geräte könnte ich anbieten (allerdings nur Aktiv-Schach) Die Zeit für Turnierpartien hab´ ich leider nicht:

Mephisto: SuMo II; MMII+HG240; MMIV+HG440; Academy; RomaII
Saitek: Travel Champion; Centurion
Novag: SuperVIP; Sapphire

Zufrieden?

Gruß
kosakenzipfel

Mit Zitat antworten
  #8  
Alt 03.09.2004, 17:50
Benutzerbild von Stefan
Stefan Stefan ist offline
Mephisto Wundermaschine
 
Registriert seit: 01.07.2004
Ort: Dresden
Alter: 58
Land:
Beiträge: 495
Abgegebene Danke: 2
Erhielt 10 Danke für 9 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss495
AW: Im Fadenkreuz

 Zitat von kosakenzipfel

A bisserl mehr Sorgfalt beim Zitiern, gell

O.K. da ist mir ein Fehler unterlaufen (habe es korrigiert), aber deswegen zitierst Du jetzt gar nicht mehr?

Gruß
Stefan

Geändert von Stefan (03.09.2004 um 18:03 Uhr)
Mit Zitat antworten
  #9  
Alt 03.09.2004, 18:05
Benutzerbild von Chessguru
Chessguru Chessguru ist offline
Administrator
 
Registriert seit: 29.06.2004
Ort: Rostock
Alter: 55
Land:
Beiträge: 6.519
Bilder: 1
Abgegebene Danke: 1.655
Erhielt 4.693 Danke für 1.403 Beiträge
Member Photo Albums
Aktivitäten Langlebigkeit
9/20 20/20
Heute Beiträge
0/3 sssss6519
Frage an Kosakenzipfel

Hallo Jungs,

irgendwie reden wir aneinander vorbei. Ich dachte, dass mein langes Posting die Sache geklärt hat. Scheint aber nicht so. Ich versuche es noch einmal ganz einfach darzustellen bzw. auszudrücken. Diesmal mit einer Frage zum Schluß. Vielleicht versteht man es ja so besser.

Aber zuerst noch einmal die Ausgangspunkte.

 Zitat von Martin
Mir scheint, ein Teil des Problems hängt mit einer kleinen Verwechslung des Modells mit der Realität zusammen - oder wenn man es etwas philosophischer formulieren wollte, mit der Frage "Was ist die 'wahre' Spielstärke?".
Das ist eben nicht die Frage bei unserer Liste. Es geht nicht um die Spielstärke, sondern um die Abstände der Geräte untereinander. Anhand dieser Abstände können dann Elo Zahlen erzeugt werden.

[Quote=Martin]Die Elo-Zahl bzw. genauer die Differenz zweier solcher Zahlen soll, wenn ich es recht verstehe, die (statistisch ermittelte) Gewinnerwartung/Punkteverteilung zwischen zwei Kontrahenten angeben. Wie aber die Experimente von Stefan und Herrn Sonas zeigen, ist dummerweise diese Größe nicht über alle Gegner-Spielstärken konstant, vielleicht ist sie nicht einmal exakt transitiv (A ist besser als B, B ist besser als C, also muss A deutlich besser als C sein...?).
Im Grunde ist also die ELO-Zahl ein Gewinnerwartungs-Modell, das bei großen Differenzen die Zähigkeit des schwächeren Partners - oder die Remistendenz des Schachspiels generell - offenbar unterschätzt. Um diesen Sachverhalt genauer abzubilden, müsste man einem Spieler daher statt einer einzigen Zahl eher einen n-dimensionalen Vektor, oder gar eine Funktion zuordnen.[/Martin]

Ja genau Martin, du hast das Prinzip erkannt.

Nur machen einige immer den Fehler, die Elo Zahlen in unserer Liste mit den eigenen Elo Zahlen zu vergleichen. Dieser Vergleich hat aber einen Haken. Ein Schachcomputer hat eine feste "Spielstärke". Die Spielstärke eines menschlichen Spielers kann ständigen Schwankungen unterworfen sein.

 Zitat von Martin
Im Endeffekt wird also eine ELO-Zahl, selbst bei Schachcomputern, immer, weil prinzipbedingt nur eine Näherung an die 'tatsächliche' Gewinnerwartung unserer Protagonisten sein. So gesehen und weil 'die Spielstärke' eines R30 auch aus einem Vergleich gegen den MMII resultiert (natürlich nicht nur), sind m.E. etwaige Ungereimtheiten wie sie im obigen Experiment auftreten, leicht zu verkraften. Zumindest weit leichter als die Verzerrungen wie sie in der SSDF-Liste offenbar vorkommen.
Endlich. Genau so sehe ich die Sache aus. Grundsätzlich ist nur eine Näherung möglich. Die Frage ist jetzt nur, wie kommen wir dieser Zahl am Nächsten?

Unser Ansatz bzw. der von EloStat sieht so aus. Wie gesagt, wir gehen davon aus, dass ein Schachcomputer eine feste "Spielstärke" hat. Wobei wir wieder bei dem Punkt ankommen, ob ein Vergleich z.B. zwischen R30 und MMII sinnvoll ist. Aus meiner Sicht ja. Unter folgenden Voraussetzungen.

Wenn man es wirklich korrekt angehen will, müssen sogar alle Geräte gegeneinander antreten. Wenn alle Geräte die gleiche Gesamtanzahl an Partien aufweisen
und dabei gewährleistet ist, dass jedes Gerät gegen alle anderen Vertreter die gleichen Anzahl an Vergleichspartien gespielt hat, ist eine relative
statistische Auswertung möglich. Wobei die Gesamtanzahl der Partien ins Unendliche tendieren müßte, um der Wahrheit nahe zu kommen.

Aufgrund dieser Partien, entsteht so ein Tabelle, sozusagen eine riesige Turniertabelle, welche die Abstände der Geräte darstellt. Und aufgrund dieser Abstände können wir den einzelnen Geräten Werte zuordnen.

Jetzt das Beispiel. Und ich hoffe diesmal nicht auf Antworten, sondern ich erwarte welche, damit wir das Thema "ausdiskutieren" können. Daher ist diese Diskussion schon sinnvoll.

Wir nehmen mal das Beispiel mit den 18:2 Ergebnissen. Bei diesem Turnier spielten 2 Geräte. Wenn wir das Turnier jetzt auswerten (Startwert z.B. 2000) bekommen wir nach z.B. 20 Partien und einem Ergebnis von 18:2, diese Liste:

Code:
    Program                     Elo    +   -   Games   Score   Av.Op.  Draws

  1 Vancouver 68000           : 2191  115 391    20    90.0 %   1809    0.0 %
  2 Elite Privat              : 1809  391 115    20    10.0 %   2191    0.0 %

Gehen wir weiter davon aus, dass sich dieses Turnier jedes Jahr wiederholt und auch die Ergebnisse immer die Gleichen (bitte jetzt nicht fragen warum, ist nur ein Beispiel zur Demonstration der geposteten 18:2 Problematik) sind.

Jetzt meine Frage vor allem an Kosakenzipel, aber auch an alle anderen. Wie verändern sich die Elo-Zahlen der beiden Geräte nach 100 Partien? Wie viel gewinnt und verliert ein Gerät und warum?

Gruß,
Micha
Mit Zitat antworten
  #10  
Alt 03.09.2004, 18:16
kosakenzipfel kosakenzipfel ist offline
SPARC
 
Registriert seit: 12.08.2004
Beiträge: 229
Abgegebene Danke: 1
Erhielt 29 Danke für 5 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss229
AW: Im Fadenkreuz

 Zitat von Stefan Ottow
O.K. da ist mir ein Fehler unterlaufen (habe es korrigiert), aber deswegen zitierst Du jetzt gar nicht mehr?
Sorry, ich weiß leider nicht, woran es liegt. Aber mal bekomme ich Zitatfenster und Smileys an der richtigen Stelle und dann wieder nicht.

kosakenzipfel
Mit Zitat antworten
Antwort


Forumregeln
Du bist nicht berechtigt, neue Themen zu erstellen.
Du bist nicht berechtigt, auf Beiträge zu antworten.
Du bist nicht berechtigt, Anhänge hochzuladen.
Du bist nicht berechtigt, deine Beiträge zu bearbeiten.

BB code ist An
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist An.

Gehe zu

Ähnliche Themen
Thema Erstellt von Forum Antworten Letzter Beitrag
Neue ELO-Liste Stefan Teststellungen und Elo Listen / Test positions and Elo lists 20 13.04.2005 14:35
Aktivschach Elo Liste Chessguru Teststellungen und Elo Listen / Test positions and Elo lists 0 02.04.2005 18:44
D.A.CH 2004 Turnier 'hard Usertreffen, Veranstaltungen / User Meetings, Events 32 24.11.2004 16:51


Alle Zeitangaben in WEZ +2. Es ist jetzt 05:12 Uhr.



Powered by vBulletin (Deutsch)
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
©Schachcomputer.info