Schachcomputer.info Community

Schachcomputer.info Community (https://www.schachcomputer.info/forum/index.php)
-   Teststellungen und Elo Listen / Test positions and Elo lists (https://www.schachcomputer.info/forum/forumdisplay.php?f=10)
-   -   ELO-Liste 02-2004 (https://www.schachcomputer.info/forum/showthread.php?t=74)

Stefan 30.08.2004 22:44

ELO-Liste 02-2004
 
Hallo Freunde der Zahlen,

es ist vollbracht, die neue Liste ist fertig!! Es hat wieder einiges an Schweiß und Zeit gekostet aber wir finden es hat sich gelohnt. Großer Dank an alle, die dazu beigetragen haben, daß wir so schnell ein "Update" herausbringen konnten!!

Eine kommentierte pdf-Version mit komplettem Statistikteil ist noch in Arbeit und wird nachgeliefert.

Viel Spaß

Stefan & Micha

Robert 31.08.2004 10:27

AW: ELO-Liste 02-2004
 
Zitieren:

Zitat von Stefan Ottow
Hallo Freunde der Zahlen,

es ist vollbracht, die neue Liste ist fertig!! Es hat wieder einiges an Schweiß und Zeit gekostet aber wir finden es hat sich gelohnt. Großer Dank an alle, die dazu beigetragen haben, daß wir so schnell ein "Update" herausbringen konnten!!

Aaahh, super!

Einige interessante und diskussionswürdige Einträge sind drin!

Dass z. B. der Risc 1 MB 25 Punkte vor seinem Nachfolger liegt, ist (für mich) doch etwas überraschend (Micha, gib' zu: du hast da was gedreht! ;) ich weiss doch, dass du ein Fan vom Risc 1 MB bist!)

Und dass der London 68020 so weit vor der 68030-Version liegt, ist schon auch etwas verwunderlich. Aber die Zeit wirds wohl noch richten...

Der Atlanta/Magellan konnte die 2200-er Grenze doch noch halten! :p

Der Diablo/Scorpio scheint mir viel zu hoch bewertet zu sein.

Etwas fragwürdig scheinen mir auch die Zahlen der beiden Super Forte C (6 und 5 Mhz). Dass dieses 1 Mhz glatte 175 Punkte ausmachen soll, kann doch eigentlich nicht stimmen (damit will ich natürlich nicht eure Rechenkünste anzweifeln, nur das Ergebnis :D ) Mehr als 10-20 Punkte sollte die Differenz doch nicht betragen, oder?

Ach ja, dass der Roma 68020 hinter seinem 68000-er Vorgänger liegt, finde ich auch bemerkenswert!

Dass die Schwankungsbreite der meisten Zahlen noch recht hoch ist, ist mir natürlich klar! Wie ich oben schon sagte: die Zeit (sprich: weitere Partien ;) ) wirds schon richten!

Der Travelchampion, was für eine Version ist das: die Urversion (2080? also die rechteckige ;) ) oder die 2100-er (Cosmos)?
Zitieren:

Eine kommentierte pdf-Version mit komplettem Statistikteil ist noch in Arbeit und wird nachgeliefert.
Auch das noch! Wir werden hier ja nach Strich und Faden verwöhnt! Vorsicht ihr beiden, wir anderen gewöhnen uns noch da dran! :D

Auch die graphische Aufbereitung der Liste finde ich eine tolle Idee, aber dazu hätte ich ein paar Verbesserungsvorschläge:

Die 200-er Abstufung der Elo-Achse finde ich etwas grob. Eine 100-er fände ich besser.

Könntet ihr auf der linken Seite anstatt der Zahl der Games (ist ja sowieso bei jedem Eintrag zu lesen (sogar in Klarschrift)) fände ich eine zweite Elo-Achse besser (so wie auf der rechten Seite)
Das würde die Ablesbarkeit für die Einträge auf der linken Seite deutlich verbessern. Und wenn Ihr die beiden Achsen noch mit Linien verbinden würdet (zumindest die wichtigsten Zahlen wie 2100, 2000, 1900 usw.), dann würde ich sagen, wäre es fast perfekt (zumindest in meinem Augen)

Macht weiter so! (und lasst euch nicht von irgendwelchen Nörglern entmutigen! :D )


viele Grüße,
Robert

P.S.: Das da oben ist natürlich nicht als Nörgelei gedacht, sondern als Versuch eines Beitrags, um die (ohnehin schon fantastische) Liste und deren graphische Auswertung noch attraktiver zu machen!

Martin 31.08.2004 12:16

AW: ELO-Liste 02-2004
 
Hallo zusammen,

ja, ausgezeichnet! Die Liste wird ja immer besser (auch wenn ich diesmal (noch) nichts dazu beitragen konnte). :p

Das Ergebnis des Scorpio/Diablo finde ich übrigens nicht so außerordentlich überraschend: Bei mir hat er sich z.B. in zwei Schnellpartien relativ gut gegen den Vanc 32bit behauptet. Gut, das ist natürlich statistisch nicht relevant, aber einen kleinen Einblick in die Spielstärke/Spielweise gewinnt man mit der Beschäftigung mit den Kisten dann doch und ich kann mir gut vorstellen, dass er nicht wesentlich (vielleicht ein bisschen) schlechter als der Vanc 68000 tatsächlich ist.

Dass einige der schnelleren Protagonisten gegen die langsameren Geschwister etwas abfallen, wird die Zeit schon noch ausbügeln, das denke ich auch.

Grüße,
Martin

P.S. Die grafische Darstellung ist wirklich gut gelungen, insbesondere durch die Anzahl der Partien (bzw. die Fehlerbalken) kann man gut sehen wo noch etwas zu tun ist... ;)

kosakenzipfel 31.08.2004 20:18

Im Fadenkreuz
 
Eine kritische Anmerkung zur neuen Liste

Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste.
Als Beispiel sei der MMII aufgeführt, der in dieser Liste neu vertreten ist. Hier einige der Paarungen (Opponenten):

Atlanta/Magellan, Meph. 2 + 0 = 0 - 2 0.0 %
Dallas 68000/Mondial XL 2 + 0 = 0 - 2 0.0 %
Lyon 68000, Mephisto 2 + 0 = 0 - 2 0.0 %
Polgar 10 MHz, Mephisto 2 + 0 = 0 - 2 0.0 %
Roma 68020, Mephisto 2 + 0 = 0 - 2 0.0 %
Berlin Pro 68020, Meph. 2 + 0 = 0 - 2 0.0 %
R30 V 2.5, TASC 2 + 0 = 0 - 2 0.0 %
RISC 2500, Saitek 2 + 0 = 0 - 2 0.0 %

Alle diese Gegner spielen in einer anderen Liga. Die Ergebnisse sind ebenso vorhersehbar wie nichtssagend.

M. E. sprechen 3 Gründe gegen solche Paarungen, auch wenn sie nach der Elo-Formel korrekt ausgewertet sind:

1.) Zu den Qualitäten des schwächeren Geräts sagen sie nichts aus. Will ich einen Elo 2000-Spieler einschätzen, bringt es nichts ihn gegen Kasparov, Anand oder Kramnik spielen zu lassen. Das gleiche Problem gibt es bei Teststellungen wie dem BT-Test. Ein Gerät, das keine Aufgabe löst, erhält nach der korrekten Anwendung der Formel einen Grundwert zugemessen. Dieser ist aber durch nichts belegt und abhängig vom eingesetzten Grundwert. Erhöht man den Grundwert der Formel, erhöht sich (bei gleichbleibend „Nichts“) auch der zugemessene Elowert, ohne dass es dafür eine Basis gäbe.

2.) Zu den Qualitäten des stärkeren Gerätes sagt der Vergleich auch nichts aus. Das Kasparov gegen einen 2000-Elo Spieler gewinnt ist klar. Niemand würde aber aus 20 oder mehr solcher Partien eine Aussage zu seiner Leistung treffen. Es tritt aber noch ein Problem hinzu. Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte Und das macht im Vergleich mit benachbarten Geräten in der Spitze, wo die Differenzen klein und die Luft dünn wird, eben deutliche Unterschiede in der Platzierung aus. Ein Effekt, wenn man neutral, oder ein „Verfahren“, wenn man unfreundlich sein will, was leider in der SSDF schon zu sehen war.

3.) In Anbetracht der mangelnden Verwendbarkeit der Ergebnisse ist die Ausführung solcher Partien auch Zeitverschwendung.

Ich halte es daher für geboten, solche Paarungen jetzt, wo die Liste noch im Anfang steckt, zu vermeiden bzw. wieder zu entfernen, um verzerrende Effekte von vornherein auszuschließen. Die geht nicht darum , möglichst schnell viele Partien abzureißen, sondern für jedes Gerät eine möglichst nahekommende Einschätzung zu erreichen. Ich schlage dafür zwei Punkte vor:

A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo.

B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20Elopunkten Abstand beidseitig nähert,

also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden.

Mit der Bitte um sachliche Diskussion

kosakenzipfel

Chessguru 31.08.2004 20:36

AW: ELO-Liste 02-2004
 
Hallo Robert,

wohl war. Einige Elo Werte sollten sich noch ändern. Oder auch nicht.

Wir sollten uns nicht zwangsläufig an der SSDF orientieren. Denn dann macht unsere Liste ja keinen Sinn. Unser Bestreben ist es ja gerade, eine Liste zu erstellen, die nachvollziehbar und durch jeder man kontrolliert werden kann.

Die Liste basiert nicht auch irgendwelchen von uns erdachten Elo Berechnungen, sondern auf dem Programm EloStat, welches die relativen Spielstärkeunterschiede der Geräte unter einander errechnet.

Gut, einige Werte halte ich auch (noch) für fragwürdig. Aber nicht weil die SSDF uns andere Werte vorlegt, sondern weil die eigenen Erfahrungen eine andere Sprache sprechen.

Schauen wir uns doch mal einige Geräte an.

Der Diablo spielt bisher recht gut mit. Ein Elo Wert zwischen 2070 - 2110 scheint mir realistisch. Auch die bisherigen Ergebnisse bestätigen meine These. Der MMV hatte nach 10 Partien nur 3 Remisen zu verbuchen. Wie dieses Gerät in der SSDF ein 10:10 erreicht haben soll, bleibt mir ein Rätsel. Der MMV fällt im Endspiel dermaßen stark ab, dass der Diablo häufig leichtes Spiel hatte. In der ersten Partie erzeugte der MMV in besserer Stellung ein Selbst-Matt in drei Zügen, wirklich sehenswert.

Dann durfte der Milano Pro sein Glück versuchen, aber auch er hat nach 8 Partien nur einen 3,5:4,5 Rückstand auf der Haben Seite. Wiederum fällt hier das schwache Endspielverhalten des Milano Pro ins Gewicht. Wenn es dem Diablo gelingt in ein Endspiel zu kommen, welches in etwa ausgeglichen ist, hat er zumeist das Remis häufig schon in der Tasche. In 3 Fällen reichte es sogar zum Sieg.

Ok, dann nehmen wir halt den Vancouver 68000. Dieser sollte dem Novag doch deutlich seine Grenzen aufzeigen, dachte ich zumindest. Aber auch diesmal konnte sich der Novag behaupten. 5:5 nach 10 Partien, nicht schlecht. Interessant bei diesem Vergleich ist die Tatsache, dass der Diablo teilweise dem Vancouver im Endspiel überlegen war. Zu mehr Diablo Partien reichte es bisher nicht.

Das Problem London sollte klar sein, wenn man sich die wenigen Partien des 68030 ansieht. Hier fehlen uns einfach die Partien.

Bei den RISC Geräten sehe ich die Sache nicht so eng. Beide Geräte scheinen gleich stark zu sein. Der RISC II scheint taktisch ein klein wenig besser zu sein. Dem RISC II hängt einfach das 3.RSCO noch ein wenig in den Chips. Dort spielte er weit unter seinen Möglichkeiten. Aber das wird schon. Ein Wettkampf gegen den R30 wird in den nächsten Wochen folgen. Hier konnte der RISC I, ob wohl er gut mitspielte, nur ein 2,5 : 7,5 erreichen. Was wieder einmal die Ausnahmestellung des R30 dokumentiert.

Bei den SFC Geräten fehlen mir ein wenig die Argumente. Das der SFC 6 MHz die klare Nummer 1 im 8 Bit Bereich ist, haben wir alle anhand von vielen Beispielen bei uns im Forum gesehen. Gerade Eckehard konnte dies mit vielen Partien beweisen.
Warum nun die 5 MHz Version so schlecht abschneidet, tja, schwierig. Auch kann ich zu den anderen Geräten (Roma 68020, Travel Champ, MM IV Turbo, MM II usw.) bzw. Partien nicht viel sagen. Vielleicht kann Wolfgang etwas dazu beitragen , da die Partien aus seinem großen Turnier stammen. Dieses Turnier wurde doppelrundig ausgetragen, womit statistische Schwankungen wohl nicht ganz ausgeschlossen werden können.

Aber ich möchte noch einmal auf die Spalte Rating Evaluation (RE) in der neuen Liste hinweisen. Zwar haben wir schon einige Partien gesammelt, aber die Schwankungsbreite ist nach wie vor sehr groß. Die Zeit und viele neue Partien werden langsam Licht ins Dunkel bringen. Nicht ungeduldig werden. Wir fangen doch gerade erst an.

Viele Grüße,
Micha

Stefan 31.08.2004 22:37

AW: Im Fadenkreuz
 
Hallo kosakenzipfel,

zunächst einmal vielen Dank für das konstruktive Feedback, genau so sollte es sein. Ich versuche mal einige Antworten zu geben:

Zitieren:

Zitat von kosakenzipfel
Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste.
Als Beispiel sei der MMII aufgeführt, der in dieser Liste neu vertreten ist. Hier einige der Paarungen (Opponenten):

Atlanta/Magellan, Meph. 2 + 0 = 0 - 2 0.0 %
Dallas 68000/Mondial XL 2 + 0 = 0 - 2 0.0 %
Lyon 68000, Mephisto 2 + 0 = 0 - 2 0.0 %
Polgar 10 MHz, Mephisto 2 + 0 = 0 - 2 0.0 %
Roma 68020, Mephisto 2 + 0 = 0 - 2 0.0 %
Berlin Pro 68020, Meph. 2 + 0 = 0 - 2 0.0 %
R30 V 2.5, TASC 2 + 0 = 0 - 2 0.0 %
RISC 2500, Saitek 2 + 0 = 0 - 2 0.0 %

Alle diese Gegner spielen in einer anderen Liga. Die Ergebnisse sind ebenso vorhersehbar wie nichtssagend.

Man kann sich in der Tat fragen, ob solche Partien Sinn machen, und ich teile hier grundsätzlich ihre Darlegung. Ich vermisse aber gerade beim MM2 in Ihrer Auflistung das Ergebnis gegen den Elite 68060, der nämlich ein Remis abgegeben hat. Für den Elite lassen sich weitere Beispiele finden, wo gegen schwächere Gegner (MM V, Excellence) Punkte abgegeben wurden. Vorhersehbar? Meiner Meinung nach nicht, eher ein wenig "menschlich" wie in richtigen Schachturnieren auch.

In wieweit sich solche Paarungen auf die Auswertung mit dem Programm ELO-Stat auswirken, bin ich gerne bereit beim Autor des Programms, Frank Schubert, zu erfragen, gegen den ich gerade eine Fernschachpartie spiele.

Zitieren:

Zitat von kosakenzipfel
Ich halte es daher für geboten, solche Paarungen jetzt, wo die Liste noch im Anfang steckt, zu vermeiden bzw. wieder zu entfernen, um verzerrende Effekte von vornherein auszuschließen.

Ein Großteil der neu hinzugekommenen Partien (> 330) wurden uns von Schachfreund Wolfgang Spiekermann zur Verfügung gestellt, der seit ca. 3 Jahren ein Turnier mit seinen Geräten austrägt und da kommen halt auch Paarungen zu Stande, die möglicherwiese in einer reinen Zweikampfansetzung nicht sehr sinnvoll sind. Wir wollen aber allen Interessierten die Möglichkeit bieten sich hier einzubringen und nicht von vorherein diejenigen ausschließen, die z. B. einen Superconstellation und einen RISC 2500 haben, nur weil die Geräte von der Spielstärke her nicht zueinander passen.

Kurz nach Veröffentlichung der Liste sind uns weitere 300 Partien zugegangen, die wir natürlich auch uneingeschränkt auswerten möchten.

Zitieren:

Zitat von kosakenzipfel
Ich schlage dafür zwei Punkte vor:

A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo.

B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20 Elopunkten Abstand beidseitig nähert, also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden.

Die Vorschläge sind gut und sinnvoll und wir versuchen sie aktuell auch schon so gut wie möglich umzusetzen, wenn auch nicht so detailliert untersetzt wie von Ihnen vorgeschlagen. In der Praxis ergibt sich aber leider das Problem, daß die Schachfreunde nicht alle am selben Ort wohnen und hier zwangläufig eine Einschränkung vorhanden ist, da nicht jeder über beliebig viele Schachcomputer verfügt. Und ich möchte abschließend noch einmal darauf hinweisen, daß wir grundsätzlich jedem Brettcomputerfreund die Möglichkeit geben wollen sich hier einzubringen. Wir haben nicht den Anspruch die letzte Wahrheit zu finden, den geringen Nachteil kleinerer "Verzerrungen" nehmen wir gerne in Kauf, wenn es dazu beiträgt die doch eher kleine Gemeinde der Brettcomputerfreunde zusammen zu halten, bzw. zu erweitern.

Danke nochmal für ihr Posting!

Gruß
Stefan Ottow

Chessguru 31.08.2004 23:31

AW: Im Fadenkreuz
 
Zitieren:

Zitat von kosakenzipfel
Eine kritische Anmerkung zur neuen Liste

Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste.
Als Beispiel sei der MMII aufgeführt, der in dieser Liste neu vertreten ist. Hier einige der Paarungen (Opponenten):

Atlanta/Magellan, Meph. 2 + 0 = 0 - 2 0.0 %
Dallas 68000/Mondial XL 2 + 0 = 0 - 2 0.0 %
Lyon 68000, Mephisto 2 + 0 = 0 - 2 0.0 %
Polgar 10 MHz, Mephisto 2 + 0 = 0 - 2 0.0 %
Roma 68020, Mephisto 2 + 0 = 0 - 2 0.0 %
Berlin Pro 68020, Meph. 2 + 0 = 0 - 2 0.0 %
R30 V 2.5, TASC 2 + 0 = 0 - 2 0.0 %
RISC 2500, Saitek 2 + 0 = 0 - 2 0.0 %

Alle diese Gegner spielen in einer anderen Liga. Die Ergebnisse sind ebenso vorhersehbar wie nichtssagend.

M. E. sprechen 3 Gründe gegen solche Paarungen, auch wenn sie nach der Elo-Formel korrekt ausgewertet sind:

Konstruktive Kritik ist in Form einer sachlichen Diskussion immer willkommen!

Teilweise kann ich deine Einsprüche nachvollziehen. Aber eins vorneweg. Wir berechnen die angegebenen Werte nicht mit Hilfe einer Elo Formel. Ich kann mich nur wiederholen. Die Werte werden mit Hilfe von EloStat errechnet. Dieses Programm errechnet die relativen Spielstärkeunterschiede der Geräte untereinander. Es berechnet keine Elo Zahlen, sondern stellt die Abstände der Geräte untereinander aufgrund der zugrundliegenden Partien in Zahlen dar.

Die von dir angegebenen Partien stammen aus dem Turnier von Wolfgang. In diesem Turnier kamen 18 Geräte zum Einsatz. Wolfgang hat einfach versucht ein interessantes Teilnehmerfeld zusammenzustellen. Was ihm wohl auch gelungen ist. Natürlich kam es dabei auch zu den oben genannten Paarungen.
Wobei sein Augenmerk wohl eher auf Unterhalt denn Auswertung lag. Man will ja auch seinen Spaß bei der ganzen Geschichte haben. Schließlich sind es ja auch die sogenannten Kleinen, die das Salz in der Suppe ausmachen, zumindest teilweise.

Aber deine Kritik zielt wohl auf einen anderen Punkt.

Zitieren:

1.) Zu den Qualitäten des schwächeren Geräts sagen sie nichts aus. Will ich einen Elo 2000-Spieler einschätzen, bringt es nichts ihn gegen Kasparov, Anand oder Kramnik spielen zu lassen. Das gleiche Problem gibt es bei Teststellungen wie dem BT-Test. Ein Gerät, das keine Aufgabe löst, erhält nach der korrekten Anwendung der Formel einen Grundwert zugemessen. Dieser ist aber durch nichts belegt und abhängig vom eingesetzten Grundwert. Erhöht man den Grundwert der Formel, erhöht sich (bei gleichbleibend „Nichts“) auch der zugemessene Elowert, ohne dass es dafür eine Basis gäbe.
Völlig richtig. Vergleiche über eine längere Distanz gegen diese Schwergewichte würden keinen Sinn machen, was aber in diesem Turnier auch nicht der Fall war.

Zu dem BT-Test ist anzumerken, dass Geräte mit einem BT-Wert von weniger als 1650 aus dem Test genommen werden sollten, da die Ungenauigkeit in diesem Bereich stark zunimmt. So zumindest die Aussage der Entwickler des BT2450 Tests.


Zitieren:

2.) Zu den Qualitäten des stärkeren Gerätes sagt der Vergleich auch nichts aus. Das Kasparov gegen einen 2000-Elo Spieler gewinnt ist klar. Niemand würde aber aus 20 oder mehr solcher Partien eine Aussage zu seiner Leistung treffen. Es tritt aber noch ein Problem hinzu. Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte Und das macht im Vergleich mit benachbarten Geräten in der Spitze, wo die Differenzen klein und die Luft dünn wird, eben deutliche Unterschiede in der Platzierung aus. Ein Effekt, wenn man neutral, oder ein „Verfahren“, wenn man unfreundlich sein will, was leider in der SSDF schon zu sehen war.
Damit unterstellst du uns, dass wir nach dem gleichen Prinzip wie die SSDF "arbeiten" und so eventuell Geräte bevorteilen. Diese Aussage finde ehrlich gesagt mehr als fragwürdig.
Zumal dein Ansatz nicht korrekt ist. Der von dir beschriebene Zuwachs von 1-2 Punkten pro Partie, ist für eine normale Elo Berechnung korrekt. Aber für unsere Liste trifft er eben nicht zu!

Ein Beispiel bezogen auf unsere momentane Liste:

Gerät 1 hat eine Elo von 2216 (RISC 2500)
Gerät 2 hat eine Elo von 1849 (MM II)

Gerät 1 spielt eine Serie von 20 Partien gegen Gerät 2 und gewinnt 20:0. Wie hoch ist nun die Veränderung für Gerät 1? Laut FIDE Elo Berechnung wären es 30 Punkte. In unserer Liste wären es 2 Punkte. Gut könnte man sagen, es sind immerhin 2 Punkte. Was passiert nun aber nach 30 Partien, wenn Gerät 1 30:0 führt? Wenn man in der FIDE Berechnung alle 30 Partien zusammen berechnet, wären es 45 Punkte. Bei uns sieht die Sache aber völlig anders aus. Gerät 1 fällt auf 2216 zurück. Zumal sich aufgrund dieser neuen Konstellation auch die Werte anderer Geräte verschieben.

Warum dieser Effekt eintritt, habe ich oben erklärt.

Zitieren:

3.) In Anbetracht der mangelnden Verwendbarkeit der Ergebnisse ist die Ausführung solcher Partien auch Zeitverschwendung.
Ich halte es daher für geboten, solche Paarungen jetzt, wo die Liste noch im Anfang steckt, zu vermeiden bzw. wieder zu entfernen, um verzerrende Effekte von vornherein auszuschließen.
Diesen Punkt möchte doch gern erläutert bekommen. Welchen verzerrenden Effekt meinst du?

Zitieren:

Die geht nicht darum , möglichst schnell viele Partien abzureißen, sondern für jedes Gerät eine möglichst nahekommende Einschätzung zu erreichen.
Also ich kann micht daran erinnern, dass bisher ein Besucher, der sich aktiv in die Liste mit seinen Partien eingebracht hat, Partien "runtergerissen" hat, um sinnlose Vergleiche zu erstellen. Alle bisherigen aktiven Besucher versuchen mit ihren Partien eine sinnvolle Liste zu erstellen.


Zitieren:

Ich schlage dafür zwei Punkte vor:

A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo.

B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20Elopunkten Abstand beidseitig nähert,

also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden.
Ein interessanter Vorschlag. Nur stellt sich die Frage, woher wissen wir, wie stark ein Gerät wirklich ist? Genau das wollen wir ja mit unserer neuen Liste herausfinden.
Das würde z.B. heißen (wenn man die SSDF zu Rate zieht) ein Sparc dürfte nicht gegen einen Berlin 68000 antreten? Oder ein Milano Pro nicht gegen einen RISC 2? Warum nicht? Sollte nicht viel mehr eine breite Streuung in der Gegnerschaft liegen?
Welche Paarungen würdest du als sinnvoll erachten, unter Berücksichtigung der von dir genannten Kriterien?

Gut finde ich persönlich den Ansatzpunkt, unterschiedliche Charaktere auszuwählen, um eben eine gewisse Streuung zu erhalten und die Hardware der einzelnen Geräte zu beachten. Welche Geräte könntest du ins Feld schicken, um das Gesagte zu illustrieren?

Zitieren:

Mit der Bitte um sachliche Diskussion
Dieser Aussage kann ich mich nur anschließen.

Micha

Supergrobi 01.09.2004 09:30

AW: Im Fadenkreuz
 
Guten Morgen!

Zitieren:

Zitat von kosakenzipfel
2.) Zu den Qualitäten des stärkeren Gerätes sagt der Vergleich auch nichts aus. Das Kasparov gegen einen 2000-Elo Spieler gewinnt ist klar. Niemand würde aber aus 20 oder mehr solcher Partien eine Aussage zu seiner Leistung treffen. Es tritt aber noch ein Problem hinzu. Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte.

Das ist eine interessante Aussage.
Wenn man Elos Formel glaubt, dann sollte es statistisch eigentlich egal sein, gegen welche Gegner man spielt. Es gibt allerdings eine größere Ungenauigkeit, wenn Gegner mit sehr unterschiedlichem Rating gegeneinander spielen: Stellt man die Formel grafisch dar (x-Achse: Ratingdifferenz, y-Achse: Performance), dann wird sie zu den Rändern hin immer flacher. Ab 600 Punkten Differenz holt man schon 100% der Punkte, ein größerer Unterschied macht sich nach Elo nicht mehr bemerkbar. Die größte Genauigkeit ergibt sich demnach im mittleren Bereich, wo die Kurve halbwegs linear verläuft.

In der Praxis scheint es aber so auszusehen, daß Spieler mit einer geringeren Elo-Zahl in Matches mehr Punkte holen, als sie es statistisch (nach Elo) sollten. Jeff Sonas versucht das jedenfalls im ersten Teil seiner Artikelserie in der CSS (2004) statistisch zu belegen. Wer aktiv Schach spielt, kennt vielleicht auch die Haltung vieler Spieler, die, um eine möglichst gute Ratingzahl zu erhalten, lieber gegen stärkere Gegner spielen. Das geht ja sogar bis zur äußersten Weltspitze, die auch lieber unter sich spielt. Und die achtet wirklich auf ihre ELO-Zahl, schließlich entscheiden sich darüber oft Turniereinladungen. An dieser Annahme könnte also was dran sein.

Entsprechend müßte also ein Gerät in unserer Liste gehandicapt sein, wenn es gegen deutlich schwächere Gegner gespielt hat.

Falls diese Annahme wahr ist, bleibt allerdings noch die praktische Auswirkung auf unsere Liste zu bedenken. Aus Gründen des Interesses werden längere Matches im Regelfall nur mit Computern gespielt, die halbwegs in einer Liga spielen. Wenn mal eine Paarung gegen viel stärkere/schwächere Gegner dabei ist, dann, soweit ich das sehe, nur im Rahmen eines größeren Turniers über eine oder höchstens zwei Partien. Ich denke, gemessen an der viel größeren Zahl der in längeren Matches gegen ähnlich starke Computer gespielten Partien werden diese "Ausreißer" nicht so stark ins Gewicht fallen.

Das ist natürlich nur eine pauschale Aussage. Vielleicht findet sich ja jemand, der mich mit einem konkreten Beispiel aus unserer Liste widerlegt?;)

Viele Grüße,
Dirk

Robert 01.09.2004 09:56

AW: Im Fadenkreuz
 
Zitieren:

Zitat von kosakenzipfel
Eine kritische Anmerkung zur neuen Liste

Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste.

[...]

A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo.

Prinzipiell bin ich deiner Meinung, allerdings sollte die Grenze wesentlich weiter gesteckt sein. Laut Gewinnerwartungsliste sollte sogar bei einem Unterschied von 200 Elo-Punkten der niedriger eingestufte Gegner noch etwa 25% holen. Und auch bei 350 Punkten Unterschied sollten noch etwa 10% drin sein.

Und wenn man sich die Turniertabellen z. B. der Welser Turniere anschaut, dann sieht man, dass es doch immer wieder mal Überraschungssiege von Underdogs gab! Und gerade das macht doch den Reiz solcher Paarungen aus!

In meinem Turnier hat z. B. der Diablo eine Partie gegen den London 68020 18 Mhz gewinnen können; der Sparc musste sich mit 2 Remisen begnügen; der Star Sapphire gab sogar beide Punkte gegen den Designer 2265 ab! Alles sind Paarungen, die nach deiner Meinung gar nicht sinnvoll gewesen wären!

Wo man allerdings jetzt die Grenze ziehen soll, ist die nächste gute Frage :)

400 Punkte? Da wäre der MM II ein Grenzfall gewesen...


viele Grüße,
Robert

Eckehard Kopp 01.09.2004 14:09

AW: ELO-Liste 02-2004
 
Hallo !

Ich finde, mit einer Einschränkung der Paarungen sollte man vorsichtig sein. Gerade die Siege der Underdogs machen doch den Reiz dieser Wettkämpfe aus.
Als ich vor zwei Jahren alle meine SC in einem vierrundigen Turnier antreten ließ
( Magellan, Diamond I, Milano Pro, Miami, Turbostar, Superconny, Supermondial) gab es trotz des starken Elogefälles nur selten ein 4:0 (Mag-Turbostar, Diamond-Supermondial, Miami-Superconny (glücklich) ). Der Miami holte gegen den Mag mit Weiß 1,5 aus 2, ebenso der Turbostar gegen den Milano Pro.
Gerade diese Partien möchte ich nicht missen.

Gruß Eckehard

Stefan 01.09.2004 21:55

AW: ELO-Liste 02-2004
 
Zitieren:

Zitat von Robert

Auch die graphische Aufbereitung der Liste finde ich eine tolle Idee, aber dazu hätte ich ein paar Verbesserungsvorschläge:

Die 200-er Abstufung der Elo-Achse finde ich etwas grob. Eine 100-er fände ich besser.

Könntet ihr auf der linken Seite anstatt der Zahl der Games (ist ja sowieso bei jedem Eintrag zu lesen (sogar in Klarschrift)) fände ich eine zweite Elo-Achse besser (so wie auf der rechten Seite)
Das würde die Ablesbarkeit für die Einträge auf der linken Seite deutlich verbessern. Und wenn Ihr die beiden Achsen noch mit Linien verbinden würdet (zumindest die wichtigsten Zahlen wie 2100, 2000, 1900 usw.), dann würde ich sagen, wäre es fast perfekt (zumindest in meinem Augen)

Hallo Robert,

Deinem Wunsch nach Umgestaltung der Grafik kann ich leider nicht ganz nachkommen :o. In Excel kann man zwar beide Y-Achsen gleich beschriften, aber dann verliert man den Bezug zu den gespielten Partien (hier: der Balkengrafik), die ist dann nämlich weg und das möchte ich eigentlich. Es ist leider nicht möglich (zumindest mit meiner 97er Version) den ELO-Daten Datenbeschriftungen von anderen datenreihen (hier den gespielten Partien) zuzuordnen.

Kleiner Trost: Die gewünschten Linien zur Orientierung werde ich aber einbauen :)

Ansonsten hast Du mit Deinen Kommentaren die Schwachpunkte und interessanten Bewertungen exakt getroffen, ich könnte die eigentlich bedenkenlos in die kommentierte pdf Version übernehmen... ;)

Gruß
Stefan

Chessguru 01.09.2004 23:10

AW: ELO-Liste 02-2004
 
Hallo Robert,

Zitieren:

Zitat von Robert

Auch die graphische Aufbereitung der Liste finde ich eine tolle Idee, aber dazu hätte ich ein paar Verbesserungsvorschläge:

Die 200-er Abstufung der Elo-Achse finde ich etwas grob. Eine 100-er fände ich besser.

Könntet ihr auf der linken Seite anstatt der Zahl der Games (ist ja sowieso bei jedem Eintrag zu lesen (sogar in Klarschrift)) fände ich eine zweite Elo-Achse besser (so wie auf der rechten Seite)
Das würde die Ablesbarkeit für die Einträge auf der linken Seite deutlich verbessern. Und wenn Ihr die beiden Achsen noch mit Linien verbinden würdet (zumindest die wichtigsten Zahlen wie 2100, 2000, 1900 usw.), dann würde ich sagen, wäre es fast perfekt (zumindest in meinem Augen)

so in Ordnung? :) Abbildung1

Viele Grüße,
Micha

Robert 02.09.2004 10:14

AW: ELO-Liste 02-2004
 
Zitieren:

Zitat von Chessguru
Hallo Robert,



so in Ordnung? :) Abbildung1

Viele Grüße,
Micha

Zucker! :D

Eins noch: Wäre es möglich, die Grafik um 90 Grad zu drehen, damit die Rechner-Bezeichnungen auf der X-Achse stehen? Dann bräuchte man nicht immer den Kopf so schief halten! ;)

Die Schrift ist ohnehin sehr klein und damit nicht so leicht lesbar. Ich denke da v. a. an unsere älteren User (nicht wahr, 'hard? :D )

Und nach Möglichkeit die stärksten nach oben! (so wie man es halt von einer Rangliste her gewöhnt ist)

Wenn das noch ginge, wäre es in meinen Augen perfekt! (aber es ist jetzt schon wunderbar)

Ich weiß, ich bin lästig; dabei werfe ich immer meiner Frau vor, dass sie so eine Perfektionistin sei ;) )


viele Grüße,
Robert

Robert 02.09.2004 10:32

AW: ELO-Liste 02-2004
 
Hallo Stefan und Micha,

Zitieren:

Zitat von Stefan Ottow
Hallo Robert,

Deinem Wunsch nach Umgestaltung der Grafik kann ich leider nicht ganz nachkommen :o. In Excel kann man zwar beide Y-Achsen gleich beschriften, aber dann verliert man den Bezug zu den gespielten Partien (hier: der Balkengrafik), die ist dann nämlich weg und das möchte ich eigentlich. Es ist leider nicht möglich (zumindest mit meiner 97er Version) den ELO-Daten Datenbeschriftungen von anderen datenreihen (hier den gespielten Partien) zuzuordnen.

Nicht so tragisch!
Zitieren:

Kleiner Trost: Die gewünschten Linien zur Orientierung werde ich aber einbauen :)
Hab's schon gesehen (Posting von Micha) Gefällt mir sehr gut!
Zitieren:

Ansonsten hast Du mit Deinen Kommentaren die Schwachpunkte und interessanten Bewertungen exakt getroffen, ich könnte die eigentlich bedenkenlos in die kommentierte pdf Version übernehmen... ;)
Danke ;)

keine Angst; ich würde deswegen keinen Copyright-Rechtstreit mit euch anfangen! :D


viele Grüße,
Robert

kosakenzipfel 02.09.2004 15:50

AW: ELO-Liste 02-2004
 
Vorausschickend vielen Dank für die rege Anteilnahme an meinem Vorschlag. Ich möchte versuchen, die aufgeworfenen Fragen zu beantworten. Ich tue dies allerdings in einem Posting, um mich nicht auf die zahlreichen Antworten zu zerstreuen. Dabei beziehe ich mich zunächst auf die Reaktionen zum Problem der ungleichen Gegner und dann auf die Anmerkungen zum Vorschlag „Fadenkreuz“.

Zitat Stefan OTTOW:
"Ich vermisse aber gerade beim MM2 in Ihrer Auflistung das Ergebnis gegen den Elite 68060, der nämlich ein Remis abgegeben hat."

Danke für den Hinweis. Was wiegt denn schwerer: Der Block der Verlustpartien oder das singuläre Remis? Neutralisierende Effekte der Statistik sollte man hier nicht erwarten.

Zitat weiter:
"Ein Großteil der neu hinzugekommenen Partien (> 330) wurden uns von Schachfreund Wolfgang Spiekermann zur Verfügung gestellt, der seit ca. 3 Jahren ein Turnier mit seinen Geräten austrägt und da kommen halt auch Paarungen zu Stande, die möglicherweise in einer reinen Zweikampfansetzung nicht sehr sinnvoll sind. ..."

Eben! Da die Liste auf genau diesen Paarungen basiert, sollte hier nicht vermischt werden.

Zitat weiter:
"Wir wollen aber allen Interessierten die Möglichkeit bieten sich hier einzubringen und nicht von vornherein diejenigen ausschließen, die z. B. einen Superconstellation und einen RISC 2500 haben, nur weil die Geräte von der Spielstärke her nicht zueinander passen.

In der Praxis ergibt sich aber leider das Problem, daß die Schachfreunde nicht alle am selben Ort wohnen und hier zwangläufig eine Einschränkung vorhanden ist, da nicht jeder über beliebig viele Schachcomputer verfügt. Und ich möchte abschließend noch einmal darauf hinweisen, daß wir grundsätzlich jedem Brettcomputerfreund die Möglichkeit geben wollen sich hier einzubringen."

Zitat von CHESSGURU
"Die von dir angegebenen Partien stammen aus dem Turnier von Wolfgang. In diesem Turnier kamen 18 Geräte zum Einsatz. Wolfgang hat einfach versucht ein interessantes Teilnehmerfeld zusammenzustellen. ... Wobei sein Augenmerk wohl eher auf Unterhaltung denn Auswertung lag. Man will ja auch seinen Spaß bei der ganzen Geschichte haben. Schließlich sind es ja auch die sogenannten Kleinen, die das Salz in der Suppe ausmachen, zumindest teilweise."

Zitat von Eckehard
"Ich finde, mit einer Einschränkung der Paarungen sollte man vorsichtig sein. Gerade die Siege der Underdogs machen doch den Reiz dieser Wettkämpfe aus."

Zitat von Robert
"Und wenn man sich die Turniertabellen z. B. der Welser Turniere anschaut, dann sieht man, dass es doch immer wieder mal Überraschungssiege von Underdogs gab! Und gerade das macht doch den Reiz solcher Paarungen aus!"


Nun, ich möchte niemandem das Salz aus der Suppe nehmen. Ich bestreite auch nicht den hohen Unterhaltungswert von Turnieren oder ihren hohen kommunikativen Wert für die „Gemeinde“. Es sollte jeder die Geräte gegeneinander spielen lassen, wie er mag. –Nur:

Muss man denn all das in e i n e Auswertung werfen?

Ich denke, man sollte die Liste nicht mit zusätzlichen Aufgaben befrachten und klar trennen: Macht Unterhaltung wo ihr Unterhaltung (Zufall) wollt und Information wo ihr Information (Fakten) wollt.

Die Turnierergebnisse kann man ja mitteilen, nur sollte man sie nicht in die Leistungsermittlung einbeziehen. In jeder Art von Leistungssport oder Leistungstechnik werden aus gutem Grund Klasseneinteilungen vorgenommen und nur sinnvolle Gegnerpaarungen angesetzt. Es werden doch die Zweiervergleiche über viele Partien angesetzt, um die Zufallswirkungen von Turnieren auszuschalten. Macht es Sinn dies zuzulassen und dann von der Statistik zu erwarten, sie werde „die paar Ausreißer“ schon ausbügeln?

Es gibt viele Möglichkeiten, sich einzubringen. Verhalten der Geräte in einzelnen Partienphasen, bei bestimmten Problemen (Taktik/Strategie) etc. Das Einbringen in die Liste ist eine Möglichkeit, aber kein Grundrecht.


Zitat von CHESSGURU
"Wir berechnen die angegebenen Werte nicht mit Hilfe einer Elo Formel. Ich kann mich nur wiederholen. Die Werte werden mit Hilfe von EloStat errechnet. Dieses Programm errechnet die relativen Spielstärkeunterschiede der Geräte untereinander. Es berechnet keine Elo Zahlen, sondern stellt die Abstände der Geräte untereinander aufgrund der zugrundliegenden Partien in Zahlen dar."

???

Warum heißt ein Programm, dass KEINE Elos berechnet ELOSTAT?
Warum heißt eure damit erstellte Liste dann „Private ELO-Liste“?

Ich schrieb: „Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte Und das macht im Vergleich mit benachbarten Geräten in der Spitze, wo die Differenzen klein und die Luft dünn wird, eben deutliche Unterschiede in der Platzierung aus. Ein Effekt, wenn man neutral, oder ein „Verfahren“, wenn man unfreundlich sein will, was leider in der SSDF schon zu sehen war.“

Dazu Zitat von CHESSGURU
"Damit unterstellst du uns, dass wir nach dem gleichen Prinzip wie die SSDF ´arbeiten´ und so eventuell Geräte bevorteilen. ..."

Definitiv nicht. Ich schrieb „schon“ nicht „auch“. Damit ist die Gefahr und nicht der Willen zu einem methodischen Fehler gemeint.

Zitat von CHESSGURU
"Zumal dein Ansatz nicht korrekt ist. Der von dir beschriebene Zuwachs von 1-2 Punkten pro Partie, ist für eine normale Elo Berechnung korrekt. Aber für unsere Liste trifft er eben nicht zu!"

Das freut mich zu hören.

Zitat von CHESSGURU
"Ein Beispiel bezogen auf unsere momentane Liste:

Gerät 1 hat eine Elo von 2216 (RISC 2500)
Gerät 2 hat eine Elo von 1849 (MM II)

Gerät 1 spielt eine Serie von 20 Partien gegen Gerät 2 und gewinnt 20:0. Wie hoch ist nun die Veränderung für Gerät 1? Laut FIDE Elo Berechnung wären es 30 Punkte. In unserer Liste wären es 2 Punkte. Gut könnte man sagen, es sind immerhin 2 Punkte. Was passiert nun aber nach 30 Partien, wenn Gerät 1 30:0 führt? Wenn man in der FIDE Berechnung alle 30 Partien zusammen berechnet, wären es 45 Punkte. Bei uns sieht die Sache aber völlig anders aus. Gerät 1 fällt auf 2216 zurück."

Hier brauche ich etwas Aufklärung:

Wenn Gerät 1 mit 2216 startet, wie kann es (bei 30:0) auf den identischen Wert 2216 „zurückfallen“? Das heißt, das Gerät erhält 0 Punkte?

Wenn dem so ist, wäre das m.E. nicht leistungsgerecht. Zwar hat Gerät 1 seine 30:0 mit wenig „Leistung“ erbracht. Aber mehr als 30 Punkte sind aus 30 Partien nun mal nicht herauszuholen :o). Und das kann man schlecht mit 0 Punkten bewerten. Oder?

Erteilt man aber mindestens einen Punkt pro Partie, sind wir wieder am Anfang. Will ich benachbarte Geräte in der Spitze nicht benachteiligen, muss ich ihnen auch die Möglichkeit zu solchen 30:0 Vergleichen geben. Das hieße aber umständlich nachtesten, um einen Mangel auszugleichen, den man mit Verzicht auf solche Paarungen im schon im Ansatz hätte ausschließen können.

Zitat von CHESSGURU
"Welchen verzerrenden Effekt meinst du?"

Das Punktesammeln der Starken. Wenn das mit eurer Formel ausgeschlossen wird. Ok.


Beim FADENKREUZ hatte ich 2 Punkte vorgeschlagen:

A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo.

B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20Elopunkten Abstand beidseitig nähert,also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden.

Zitat von CHESSGURU
"Ein interessanter Vorschlag. Nur stellt sich die Frage, woher wissen wir, wie stark ein Gerät wirklich ist? Genau das wollen wir ja mit unserer neuen Liste herausfinden."

Nun, die Liste entsteht ja nicht im luftleeren Raum. Zahlreiche Erfahrungswerte und andere Ratings, ob nun Listen oder Tests liegen vor. Sie haben zwar auch methodische Mängel, können aber Anhaltspunkte zur Auswahl liefern. Genau deshalb soll das Gerät eingekreist werden, ausgehend von formalen Punkten, siehe B (Anhaltspunkte) und Erfahrungswerten der zahlreichen fleißigen Besitzer.

Ein großer Vorteil der jetzt entstehende Liste ist doch, dass zahlreiche Fehler von anderen vorher gemacht wurden, so dass man jetzt eine Testmethodik erarbeiten kann, die diese vermeidet.

Zitat von Robert
"Prinzipiell bin ich deiner Meinung, allerdings sollte die Grenze wesentlich weiter gesteckt sein."

Das FADENKREUZ ist eine Möglichkeit, die in ihren Details verändert werden kann und soll, wenn das zielführend ist. Zur Illustration:
Soll die Leistung eines Geräts möglichst genau erfaßt werden, sollte der Testablauf sehr genau umgrenzt sein. Da man mit Schwankungen rechnen muss und sollte die Methode sich schrittweise annähern, bis die Restschwankung vertretbar gering ist. Je weiter der Testraum (Eloabstand) angelegt wird, desto mehr Annäherungsschritte (Paarungen) muss ich durchführen, denn mit Blick auf die Restschwankung sollten diese relativ fein sein (10-20 Elo). Um daher die Zahl der notwendigen Paarungen klein zu halten, muss der Radius schmal ausfallen. Zur Festlegung dienen dann die genannten Auswahlkriterien. Hat man den ersten Durchlauf absolviert, sieht man, wohin das Gerät tendiert und kann in dieser Richtung mit weiteren Geräten den Radius erweitern. Bei den formell stärksten Geräten (nach Hardwarebasis) kann man sich natürlich nur einseitig annähern.

Zitat von CHESSGURU
"Sollte nicht viel mehr eine breite Streuung in der Gegnerschaft liegen?"

Streuung ja, aber innerhalb einer Leistungsklasse.

Zitat weiter:
"Welche Paarungen würdest du als sinnvoll erachten, unter Berücksichtigung der von dir genannten Kriterien?"

Einige Ausgangskriterien habe ich in B vorgeschlagen. Die konkreten Paarungen müssen für das jeweilige Gerät gefunden werden. Ein Einzelbeispiel würde daher zunächst nur für sich selbst sprechen. Im Übrigen verlangt das Testmodell ja nicht, das ein Tester alle Paarungen realisiert, also alle Geräte der Gegnerliste dafür vorrätig haben muss. Das kann auf verschiedene Tester aufgeteilt werden. Das hätte ohnedies den Vorteil, zeitgleich zu testen und so schneller zu Ergebnissen zu kommen.

Gruß
kosakenzipfel

Fluppio 02.09.2004 17:17

"Spaß"-Liste, ja oder nein
 
@kosakenzipfel

Diie Gründer der neuen privaten ELO-Liste sollten grundsätzlich entscheiden, was sie erreichen wollen. Hauptsächlich Spaß an der Sache/Hobby oder statistisch unfehlbare Ergebnisse.

Für meinen Teil überwiegt Punkt 1, d.h. jede Paarung ist möglich. Gegen welche Geräte soll ich z.B. den R30 antreten lassen, wenn ich nicht im Besitz eines Mephisto London, Elite Nr. 11 bin? Auch wäre der organisatorische Aufwand um einiges größer, wenn man die Paarungen im Vorfeld an die Tester verteilen muß. Vom Ansatz her ist deine Idee gut, aber ich glaube in diesem Rahmen (Hobby!!) nicht umsetzbar.

P.S. Wenn mir jemand seine Super-Geräte ab 2250 ELO leihweise überläßt, biete ich mich für Testpartien mit meinem R30 an;)

Chessguru 02.09.2004 17:33

Erklärung
 
Hallo kosakenzipfel,

Zitieren:

Zitat von kosakenzipfel
Warum heißt ein Programm, dass KEINE Elos berechnet ELOSTAT?
Warum heißt eure damit erstellte Liste dann „Private ELO-Liste“?

Das habe ich mit voller Absicht geschrieben. Sicherlich fließt die Elo Formel mit ein, nur auf eine andere Art, als wie du es annimmst. Du klammerst dich zu sehr an die "menschliche" Berechnung.

Der Begriff Elo, hat sich als Standard durchgesetzt hat. Wir könnten genauso einen anderen Begriff wählen und mit Werten ab 10000 beginnen. Das Prinzip ist aber das Gleiche. Es geht um den Abstand zwischen den Geräten, nicht um die eigentliche Zahl.

Zitieren:

Nun, ich möchte niemandem das Salz aus der Suppe nehmen. Ich bestreite auch nicht den hohen Unterhaltungswert von Turnieren oder ihren hohen kommunikativen Wert für die „Gemeinde“. Es sollte jeder die Geräte gegeneinander spielen lassen, wie er mag. –Nur:

Muß man denn all das in e i n e Auswertung werfen?
Ja, warum denn nicht? Du siehst das zu eng. Dein Ansatz sieht so aus (zumindest glaube ich das bisher aus deinen Postings gelesen zu habe): Gerät 1 spielt gegen Gerät 2 und gewinnt. Somit muß Gerät 1 immer so und soviel Punkt für einen Sieg bekommen, richtig?

Ich versuche mal eine einfache Erklärung des Elo Systems. Bei der Berechung einer Elo Zahl geht man von folgender Hypothese aus. Die Verteilung der Spielstärke in der Gesamtheit der Spieler entspricht mathematisch der Gaußschen Glockenkurve (Wahrscheinlichkeitstheorie). Nach dieser Hypothese läßt sich für 2 Gegner statistisch voraussagen, mit welcher Wahrscheinlichkeit der eine Spieler gewinnen müßte (s.h. https://www.schachcomputer.info/html...erwartung.html). Somit kann man bei vielen Partien oder einem Turnier anhand der Wertungszahlen eines Spielers und des Durchschnitts der Wertungszahlen seiner Gegner voraussagen, wie viele Punkte er theoretisch erreichen wird. Wenn die Partien/Turniere gespielt sind, kann man so das erreichte Ergebnis mit dem statistisch Erreichbaren vergleichen und aus der Abweichung die neue Wertungs- oder Elo-Zahl berechnen. Wie das geht, kannst du auch auf unseren Seiten nachlesen.

Ursprünglich wollte ich das auch so machen, nur überzeugte mich Stefan davon, daß diese Elo Berechnung für Schachcomputer nicht die Beste ist. Wenn du möchtest, kann ich dir das auch anhand von Beispielen erklären. Kurz gesagt, wenn du jedes Gerät nach einem Turnier oder nach mehreren Partien einzeln berechnest (und nichts anderes wird bei der "menschlichen" Elo Berechnung gemacht), bekommst du genau die von dir geschilderten Probleme. Für Schachcomputer ist dieser Ansatz aber nicht korrekt.

Schachcomputer haben eine gleichbleibende Spielstärke, daß ist der entscheidende Unterschied! Weiterhin betrachten wir alle Partien als ein Ganzes! Somit können wir auf das Programm EloStat zurückgreifen. Ich zitiere mal aus der Anleitung von EloStat, da Frank Schubert es aus meiner Sicht sehr anschaulich erläutert hat.

"ELOStat verwendet das Iterationsverfahren..." (Anmerkung von mir: Iterationsverfahren sind Verfahren, welche zum Lösen nichtlinearer Gleichungen verwendet werden) "...nach Thompson. Bei diesem Verfahren wird allen Programmen zu Beginn der gleiche Elostartwert zugeordnet (evtl. im PGN-Header angegebene Elozahlen bleiben also unberücksichtigt !). Danach wird die gesamte Datenbank wie ein einziges großes Turnier behandelt und elomäßig ausgewertet. Die somit ermittelten Elozahlen werden anschließend den Programmen zugewiesen, d.h. sie ersetzen den anfänglichen Elostartwert. Mit den nunmehr aktualisierten Elozahlen wird erneut eine Datenbankauswertung gestartet. Dieses Vorgehen wird solange wiederholt, bis die Elozahlen aller Programme nahezu konstant bleiben (man sagt, die Elozahlen konvergieren..." (Anmerkung von mir: einem endlichen Grenzwert zustrebend) "...gegen einen bestimmten Grenzwert).
Der Elostartwert hat keinen Einfluß auf die relativen Spielstärkeunterschiede der Programme, d.h. der Eloabstand zwischen den Programmen ist unabhängig vom Startwert."

"Die Leistungsfähigkeit des oben beschriebenen Iterationsalgorithmus beruht u.a. darauf, daß zwischen zwei Programmen A und C ein indirekter Spielstärkebezug hergestellt werden kann, selbst wenn A und C nie direkt gegeneinander gespielt haben. Hat z.B. das Programm A mehrere Partien gegen B gespielt und B wiederum einige Partien gegen C, so reicht dies aus, um die Elozahlen aller drei beteiligten Programme im Sinne des Iterationsverfahrens konvergieren zu lassen. A, B, und C bilden somit einen zusammenhängenden Cluster. Die im Beispiel behandelte Datenbank ‘wb_elo.pgn’..." (Anmerkung von mir: Bitte das Programm EloStat herunterladen, um auf die Beispieldatei zugreifen zu können) "...besteht aus einem einzelnen Cluster, d.h. geht man von einem beliebigen Programm aus, so läß sich zu JEDEM anderen Programm der Datenbank ein Spielstärkebezug im obigen Sinne ableiten. Jede gute Datenbank sollte daher aus einem einzelnen Programmcluster bestehen und somit unfragmentiert sein (im Idealfall hat jeder gegen jeden gespielt).
Spielt man allerdings mit zahlreichen Programmen, so kann es passieren, daß die Datenbank unbemerkt fragmentiert, d.h. in einzelne unabhängige Cluster zerfällt, zwischen denen kein Spielstärkebezug mehr existiert. Dieser Fall tritt z.B. dann ein, wenn man zu den Programmen A,B,C drei weitere Programme D,E,F, hinzufügen würde, die zwar jeweils unmit-telbar gegeneinander spielen (also etwa D-E, D-F, E-F), aber keine einzige Partie gegen die anderen Programme austragen. In diesem Fall handelt es sich streng genommen nicht um eine einzige, sondern um zwei voneinander unabhängige Datenbestände. Bei der Eloberechnung laufen somit zwei ebenfalls unabhängige Iterationsverfahren ab und die ermittelten Elozahlen in beiden Clustern haben keinen Bezug mehr zueinander. ELOStat erkennt solche fragmentierten Datenbanken und zeigt in der Datei ‘cluster.dat’ die einzelnen Programme sowie die Anzahl der gespielten Partien je Cluster an."


"In der Datei ‘cluster.dat’ wird zusätzlich der Wert des sog. Iterationsoffsets (itoffset) (Anmerkung von mir: Aus diesem Grund geben wir diesen Wert in unser Liste mit an) angegeben. Hierbei handelt es sich um eine Eigenart des Iterationsverfahrens, die für praktische Zwecke meist ohne Belang ist. Sie sei hier trotzdem kurz erläutert: Um die Konvergenz des Iterationsverfahrens sicherzustellen, muß gewährleistet sein, daß der mit der Anzahl der ge-spielten Partien je Programm gewichtete Mittelwert aller Elozahlen nach jedem Iterations-schritt exakt gleich dem Elostartwert ist. Aufgrund des nichtlinearen Zusammenhangs zwi-schen der relativen Performance eines Programms (in Prozent) und seiner Elozahl (genauer Elodifferenz) kommt es zu einem konstanten Offset, der bei jedem Iterationsschritt hinzuad-diert werden muß, um die oben erwähnte Konstanz des Elomittelwerts sicherzustellen. Dieser Offset führt in der Rangliste dazu, daß sich der angegebene Wert für Av.Op. von dem tatsäch-lichen Wert, den man aus den Elomittelwerten der ersten Spalte erhält, um genau diesen Wert ‘itoffset’ voneinander unterscheidet. Anders ausgedrückt fällt der Elowert eines Programms in der Rangliste immer um genau itoffset größer aus, als es aufgrund seiner Performance und seines Av.Op.-Wertes zu erwarten wäre. Dieser systematische Offset betrifft aber jedes in der Rangliste aufgeführte Programm gleichermaßen, so daß die Eloabstände zwischen den Pro-grammen und somit die relativen Spielstärken davon unbeeinflußt bleiben. Der Wert von i-toffset ist in den meisten Fällen kleiner als 1 Elopunkt (s.o.), kann in Sonderfällen aber durch-aus auch mehr als 50 Elopunkte betragen."

"Der Elowert eines Zweikampfergebnisses von 100 % bzw. 0 % bleibt nach der Theorie zwangsläufig unbestimmt. Aus rechentechnischen Gründen (u.a. um die korrekte Durchführung des Iterationsverfahrens in den Programmmodi 1 und 2 sicherzustellen) wird den betei-ligten Programmen trotzdem eine endliche Elozahl zugewiesen, die um 600 Punkte oberhalb bzw. unterhalb des Av.Op. Elowertes liegt. Mit anderen Worten: ELOStat berücksichtigt kei-ne Elounterschiede, die größer als ± 600 Punkte sind (die 95%-Fehlergrenzen können daher maximal ± 1200 Elopunkte betragen). Für alle praktisch relevanten Datenbanken spielen diese Sonderfälle aber im Grunde keine Rolle."


Jetzt bitte genau lesen, denn dieser Punkt ist wichtig.

"Das Iterationsverfahren setzt zwingend voraus, daß die mittlere Spielstärke eines Programms in jeder Partie dieselbe bleibt. Diese Näherung ist für Schachprograme derzeit sicherlich gut erfüllt, sofern kein extensives Buchlernen gegen ein und denselben Gegner erfolgt (andere Lernalgorithmen spielen meiner Erfahrung nach in der Praxis derzeit keine wesentliche Rolle). Für menschliche Datenbanken ist dieses Vorgehen aber problematisch, da menschliche Spieler sich im Laufe der Zeit deutlich steigern können (um Hunderte von Elopunkten), so daß die mittlere Spielstärke in der Regel von Partie zu Partie zunimmt. Die Auswertung historischer Datenbanken mit dem Iterationsverfahren stellt daher zwar eine äußerst reizvolle Sache dar, hat aber aus obigen Gründen nur eine bedingte Aussagekraft. Bei menschlichen Spie-lern sollte daher nach Möglichkeit des Elosystem der FIDE verwendet werden."

Soweit verständlich? Vielleicht etwas ausführlich, aber ich habe versucht, dir die Sache genau und doch einfach bzw. anschaulich zu erläutern. Probier es doch einfach mal aus. Du wirst sehen, dass unser Ansatz um Längen besser ist, als die "menschliche" Berechnung. Vorausgesetzt, es liegen genügend Partien von jedem Gerät vor. Daher auch die noch sehr hohe Schwankungsbreite in den Zahlen.

Genau die von dir geschilderten Probleme können bei diesem Verfahren sehr gut eingeschränkt werden.

Gruß,
Micha

kosakenzipfel 02.09.2004 18:42

AW: "Spaß"-Liste, ja oder nein
 
[QUOTE=Fluppio]@kosakenzipfel

Diie Gründer der neuen privaten ELO-Liste sollten grundsätzlich entscheiden, was sie erreichen wollen. Hauptsächlich Spaß an der Sache/Hobby oder statistisch unfehlbare Ergebnisse.

Natürlich. Da will ich mich auch nichts vorschreiben. Ich würd´s trennen. Ihr nicht. Ok.

Für meinen Teil überwiegt Punkt 1, d.h. jede Paarung ist möglich. Gegen welche Geräte soll ich z.B. den R30 antreten lassen, wenn ich nicht im Besitz eines Mephisto London, Elite Nr. 11 bin?

Die simple Antwort: Keine! Es muss ja nicht jeder unbedingt an der Elo-Liste arbeiten. (Achtung: Dies ist NICHT PERSÖNLICH zu verstehen !!!) Es gibt viele Möglichkeiten, die Qualitäten eines Gerätes zu untersuchen. Zweikämpfe sind nur eine Möglichkeit. Nicht mehr und nicht weniger.

Auch wäre der organisatorische Aufwand um einiges größer, wenn man die Paarungen im Vorfeld an die Tester verteilen muß. Vom Ansatz her ist deine Idee gut, aber ich glaube in diesem Rahmen (Hobby!!) nicht umsetzbar.

Das käme auf den Versuch an. Man erstellt die Gegnerliste und stellt sie auf die Page. Wer einzelne Paarungen übernehmen kann, meldet sich beim Admin und der vermerkt diese als vergeben. Mancher kann nur eine, andere mehr und einige keine davon durchführen. Dafür dann eben bei einem anderen Gerät.

kosakenzipfel

Stefan 02.09.2004 22:01

AW: "Spaß"-Liste, ja oder nein
 
Zitieren:

Zitat von kosakenzipfel
Das käme auf den Versuch an. Man erstellt die Gegnerliste und stellt sie auf die Page. Wer einzelne Paarungen übernehmen kann, meldet sich beim Admin und der vermerkt diese als vergeben. Mancher kann nur eine, andere mehr und einige keine davon durchführen. Dafür dann eben bei einem anderen Gerät.

kosakenzipfel

Hallo Kosakenzipfel,

wie sieht es denn mit Dir aus? Möchtest Du Dich beteiligen? Welche Geräte hast Du und welche Matches könntest Du nach der "Fadenkreuzmethode" basierend auf der aktuellen Liste anbieten? Wir sind für alles offen ;)

Gruß
Stefan

kosakenzipfel 03.09.2004 08:59

AW: "Spaß"-Liste, ja oder nein
 
Zitieren:

Zitat von Stefan Ottow
Hallo Kosakenzipfel,

wie sieht es denn mit Dir aus? Möchtest Du Dich beteiligen? Welche Geräte hast Du und welche Matches könntest Du nach der "Fadenkreuzmethode" basierend auf der aktuellen Liste anbieten? Wir sind für alles offen ;)

Gruß
Stefan

Die Botschaft hör´ich wohl, allein ich stehe nicht unter Beweispflicht. Ich habe einen Vorschlag zur Diskussion gestellt. Den kann man aufgreifen oder auch nicht. Ich muss mich dafür nicht mit Partien revanchieren. Ich kann mir auch überlegen, was das neue Saitek-Modul können sollte. Deshalb muss ich es aber nicht bauen o:) Natürlich bin auch ich weiter für alles offen

Gruß
Kosakenzipfel

Supergrobi 03.09.2004 09:24

AW: Im Fadenkreuz
 
Zitieren:

Zitat von Supergrobi
Jeff Sonas versucht das jedenfalls im ersten Teil seiner Artikelserie in der CSS (2004) statistisch zu belegen.

Oh, sorry, das war in CSS 5/03! Und auch nicht in der Serie, sondern in einem eigenen Artikel, in dem er ein neues Ratingsystem propagiert.

Da meine Anmerkungen offenbar nicht hinreichend zur Kenntnis genommen worden sind, hier die Kernaussage noch einmal etwas deutlicher:

Wird ein Vergleich zwischen einem stärkeren und schwächeren Gegner gewertet, ist dies ein Nachteil für den stärkeren Spieler.

Jeff Sonas hat in 262.000 Turnierpartien von 1996-2001 nachgewiesen, daß die stärkeren Spieler durchschnittlich weniger Punkte gemacht haben als ihrer ELO-Erwartung entsprach. Dies veranlaßt ihn in dem o.g. Artikel, von der Gaußschen Normalverteilung Elos Abstand zu nehmen, denn aus der Statistik ergibt sich eher ein linearer Zusammenhang.

Wenn wir uns also Gedanken um eine ausgeglichene Gegnerschaft machen, dann höchstens, um ein stärkeres Gerät einem anderen gegenüber nicht zu benachteiligen, indem man es gegen schwache Gegner spielen läßt. Das ist zum Beispiel auch die Grundidee der CSS-Rangliste (www.computerschach.de), die alle Programme gegen die gleichen Gegner spielen läßt, im Grunde in einem großen Rundenturnier.

Es bleibt allerdings die Frage nach der Signifikanz. Bei unserer geringen Partienzahl und der damit verbundenen hohen Standardabweichung dürfte eine eventuelle Verfälschung des Ergebnisses durch unausgewogene Paarungen völlig im "Rauschen" untergehen.

Vielleicht stellen sich Micha oder Stefan mal für ein kleines Experiment zur Verfügung: Bitte erstellt in der Datenbank mal 20 Fake-Partien R30-MMII (Ergebnis 19:1 -- Eloerwartung 0.96 ein bißchen abgerundet, s.o.). Um wie viele Punkte sinkt dann das Rating des R30?


Viele Grüße,
Dirk

Stefan 03.09.2004 09:52

AW: Im Fadenkreuz
 
Zitieren:

Zitat von Supergrobi

Vielleicht stellen sich Micha oder Stefan mal für ein kleines Experiment zur Verfügung: Bitte erstellt in der Datenbank mal 20 Fake-Partien R30-MMII (Ergebnis 19:1 -- Eloerwartung 0.96 ein bißchen abgerundet, s.o.). Um wie viele Punkte sinkt dann das Rating des R30?


Viele Grüße,
Dirk


Hallo Dirk,

ich habe einmal folgendes Experiment gemacht und habe unserer Auswerteliste 2 mal jeweils 20 fiktive Partien zugefügt und dann mit dem gleichen Startwert 2113 nochmals neu berchnet. Mit folgenden Ergebnissen:

A) R30 V 2.5 vs MMII 20:0

Ergebnis:
Der R30 verschlechtert sich von 2339 auf 2332
Der MMII bleibt bei 1849 Punkten

B) Montreux 512 K vs MMI 20:0 (ohne die Ergebnisse aus A))

Ergebnis:
Der Montreux verschlechtert sich von 2253 auf 2248
Der MMII verschlechtert sich ebenfalls von 1849 auf 1828


Es bleibt noch anzumerken, daß sich aufgrund der Berechnungsmethode von ELO-Stat (Cluster, d. h. für jedes Gerät werden alle Partien zu einem "Gegner" zusammengezogen und die mittlere gewichtete (!) ELO-Zahl der Gegner als ELo-Wert genommen) jeweils auch geringfügige Änderungen von 1 bis 2 Punkten bei den Geräten ergeben, die entweder gegen den MMII oder den R30 bzw. Montreux gespielt haben.

Womit aus meiner Sicht das Problem, daß ein Gerät bei solcherlei Zweikämpfen permanent Punkte ansammelt, widerlegt ist.

Gruß
Stefan

kosakenzipfel 03.09.2004 10:44

AW: Im Fadenkreuz
 
Zitieren:

Zitat von Stefan Ottow
Hallo Dirk,

ich habe einmal folgendes Experiment gemacht und habe unserer Auswerteliste 2 mal jeweils 20 fiktive Partien zugefügt und dann mit dem gleichen Startwert 2113 nochmals neu berchnet. Mit folgenden Ergebnissen:

A) R30 V 2.5 vs MMII 20:0

Ergebnis:
Der R30 verschlechtert sich von 2339 auf 2332
Der MMII bleibt bei 1849 Punkten

B) Montreux 512 K vs MMI 20:0 (ohne die Ergebnisse aus A))

Ergebnis:
Der Montreux verschlechtert sich von 2253 auf 2248
Der MMII verschlechtert sich ebenfalls von 1849 auf 1828

...

Womit aus meiner Sicht das Problem, daß ein Gerät bei solcherlei Zweikämpfen permanent Punkte ansammelt, widerlegt ist.

Gruß
Stefan

Ok. Dafür bekommen wir ein Problem von der anderen Seite, dass ein Gerät bei solcherlei Zweikämpfen (trotz 100%-Score) permanent Punkte verliert. Was wieder dafür spricht, davon abzusehen.

Gruß
kosakenzipfel

Stefan 03.09.2004 11:22

AW: Im Fadenkreuz
 
Zitieren:

Zitat von kosakenzipfel
Ok. Dafür bekommen wir ein Problem von der anderen Seite, dass ein Gerät bei solcherlei Zweikämpfen (trotz 100%-Score) permanent Punkte verliert. Was wieder dafür spricht, davon abzusehen.

Gruß
kosakenzipfel

Lieber Kosakenzipfel,

langsam fehlt mir ein wenig das Verständnis, mir wird nicht so recht klar worauf Du hinaus willst. Wie schon angedeutet, werden wir versuchen "objektivere" Paarungen zusammenzustellen. Aufgrund der Resonanzen im Forum werden wir wohl aber aber davon absehen, den Schachfreunden diesbezüglich Vorschriften zu machen. Wir haben das im übrigen in der Frühzeit schon einmal versucht, als Partien vom Vancouver 68000 fehlten. Nach anfänglich positiver Resonanz ist die Sache dann leider sehr schnell eingeschlafen. Wir vertrauen daher weiter darauf, daß die Leute unsere Liste lesen, Schlüsse ziehen und selbständig zum Anlaß nehmen Partien zusammen zu stellen. Es bleibt daher, wenn Du so willst beim VERSUCH.

Zitieren:

Zitat von kosakenzipfel
Die Botschaft hör´ich wohl, allein ich stehe nicht unter Beweispflicht. Ich habe einen Vorschlag zur Diskussion gestellt. Den kann man aufgreifen oder auch nicht.

Hmm, beweisen wollen wir eigentlich auch nichts... Ich sehe uns weiterhin nicht den Punkt der fehlenden Objektivität oder statistischen Unsicherheit in unserem Ansatz. Die ist möglicherweise durch die vielen verschiedenen Turniermodi nach dem 40. Zug viel größer (was i. Ü. mal interessant wäre zu untersuchen...).

Zitieren:

Zitat von kosakenzipfel
Ich muss mich dafür nicht mit Partien revanchieren. Ich kann mir auch überlegen, was das neue Saitek-Modul können sollte. Deshalb muss ich es aber nicht bauen o Natürlich bin auch ich weiter für alles offen


müssen muß hier niemand ;) .

... und wenn wir schon beim wir sind nochmal die Frage: Wie könnte Dein Beitrag aussehen bzgl. des "Problems"? Partien zu spielen können und wollen wir natürlich nicht einfordern, aber es wäre schon ganz nett wenn ein Kritiker sich im positiven Sinne einbringen könnte, zumal er einen Vorschlag gemacht, wie man es aus seiner Sicht besser machen könnte.

Viele Grüße
Stefan

Supergrobi 03.09.2004 12:41

AW: Im Fadenkreuz
 
Hallo Stefan,

danke für Deine Mühe!


Zitieren:

Zitat von Stefan Ottow
A) R30 V 2.5 vs MMII 20:0

Ergebnis:
Der R30 verschlechtert sich von 2339 auf 2332
Der MMII bleibt bei 1849 Punkten

Da haben wir's: Selbst bei 20 Partien mit einer Differenz von knapp 500 ELO-Punkten verschwindet der Einfluß völlig in der Meßungenauigkeit (+37-64 für den R30). Selbst wenn man bedenkt, daß dieses Ergebnis (20:0) etwas besser als seine ELO-Erwartung war, wird der Einfluß über eine solche Distanz nicht mehr als 15 Punkte ausmachen, was m.E. völlig vernachlässigbar ist.

Zitieren:

Zitat von Stefan Ottow
B) Montreux 512 K vs MMI 20:0 (ohne die Ergebnisse aus A))

Ergebnis:
Der Montreux verschlechtert sich von 2253 auf 2248
Der MMII verschlechtert sich ebenfalls von 1849 auf 1828

Die Verschlechterung des MMII dürfte sich daraus ergeben, daß das Ergebnis etwas schlechter als seine Turniererwartung von 0,08 laut ELO-Tabelle (entsprechend 1,5:18,5) war.

Und wenn man Herrn Sonas (CSS) glauben darf, könnte es über diese Distanz sogar ein 2:18 geben! Das macht ja fast schon Lust auf einen solchen Zweikampf... ;)


Viele Grüße,
Dirk


Alle Zeitangaben in WEZ +1. Es ist jetzt 03:11 Uhr.

Powered by vBulletin (Deutsch)
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
©Schachcomputer.info