Einzelnen Beitrag anzeigen
  #7  
Alt 31.08.2004, 23:31
Benutzerbild von Chessguru
Chessguru Chessguru ist offline
Administrator
 
Registriert seit: 29.06.2004
Ort: Rostock
Alter: 55
Land:
Beiträge: 6.492
Abgegebene Danke: 1.616
Erhielt 4.636 Danke für 1.390 Beiträge
Member Photo Albums
Aktivitäten Langlebigkeit
8/20 20/20
Heute Beiträge
0/3 sssss6492
AW: Im Fadenkreuz

 Zitat von kosakenzipfel
Eine kritische Anmerkung zur neuen Liste

Gerätepaarungen von weit auseinander liegenden Geräten scheinen mir sehr fragwürdig, sowohl im Aussagewert für das betreffende Gerät als auch in ihrem Einfluss auf die Liste.
Als Beispiel sei der MMII aufgeführt, der in dieser Liste neu vertreten ist. Hier einige der Paarungen (Opponenten):

Atlanta/Magellan, Meph. 2 + 0 = 0 - 2 0.0 %
Dallas 68000/Mondial XL 2 + 0 = 0 - 2 0.0 %
Lyon 68000, Mephisto 2 + 0 = 0 - 2 0.0 %
Polgar 10 MHz, Mephisto 2 + 0 = 0 - 2 0.0 %
Roma 68020, Mephisto 2 + 0 = 0 - 2 0.0 %
Berlin Pro 68020, Meph. 2 + 0 = 0 - 2 0.0 %
R30 V 2.5, TASC 2 + 0 = 0 - 2 0.0 %
RISC 2500, Saitek 2 + 0 = 0 - 2 0.0 %

Alle diese Gegner spielen in einer anderen Liga. Die Ergebnisse sind ebenso vorhersehbar wie nichtssagend.

M. E. sprechen 3 Gründe gegen solche Paarungen, auch wenn sie nach der Elo-Formel korrekt ausgewertet sind:
Konstruktive Kritik ist in Form einer sachlichen Diskussion immer willkommen!

Teilweise kann ich deine Einsprüche nachvollziehen. Aber eins vorneweg. Wir berechnen die angegebenen Werte nicht mit Hilfe einer Elo Formel. Ich kann mich nur wiederholen. Die Werte werden mit Hilfe von EloStat errechnet. Dieses Programm errechnet die relativen Spielstärkeunterschiede der Geräte untereinander. Es berechnet keine Elo Zahlen, sondern stellt die Abstände der Geräte untereinander aufgrund der zugrundliegenden Partien in Zahlen dar.

Die von dir angegebenen Partien stammen aus dem Turnier von Wolfgang. In diesem Turnier kamen 18 Geräte zum Einsatz. Wolfgang hat einfach versucht ein interessantes Teilnehmerfeld zusammenzustellen. Was ihm wohl auch gelungen ist. Natürlich kam es dabei auch zu den oben genannten Paarungen.
Wobei sein Augenmerk wohl eher auf Unterhalt denn Auswertung lag. Man will ja auch seinen Spaß bei der ganzen Geschichte haben. Schließlich sind es ja auch die sogenannten Kleinen, die das Salz in der Suppe ausmachen, zumindest teilweise.

Aber deine Kritik zielt wohl auf einen anderen Punkt.

Zitieren:
1.) Zu den Qualitäten des schwächeren Geräts sagen sie nichts aus. Will ich einen Elo 2000-Spieler einschätzen, bringt es nichts ihn gegen Kasparov, Anand oder Kramnik spielen zu lassen. Das gleiche Problem gibt es bei Teststellungen wie dem BT-Test. Ein Gerät, das keine Aufgabe löst, erhält nach der korrekten Anwendung der Formel einen Grundwert zugemessen. Dieser ist aber durch nichts belegt und abhängig vom eingesetzten Grundwert. Erhöht man den Grundwert der Formel, erhöht sich (bei gleichbleibend „Nichts“) auch der zugemessene Elowert, ohne dass es dafür eine Basis gäbe.
Völlig richtig. Vergleiche über eine längere Distanz gegen diese Schwergewichte würden keinen Sinn machen, was aber in diesem Turnier auch nicht der Fall war.

Zu dem BT-Test ist anzumerken, dass Geräte mit einem BT-Wert von weniger als 1650 aus dem Test genommen werden sollten, da die Ungenauigkeit in diesem Bereich stark zunimmt. So zumindest die Aussage der Entwickler des BT2450 Tests.


Zitieren:
2.) Zu den Qualitäten des stärkeren Gerätes sagt der Vergleich auch nichts aus. Das Kasparov gegen einen 2000-Elo Spieler gewinnt ist klar. Niemand würde aber aus 20 oder mehr solcher Partien eine Aussage zu seiner Leistung treffen. Es tritt aber noch ein Problem hinzu. Das Elo-stärkere Gerät sammelt trotzdem Punkte an. Das mögen vielleicht nur 1 oder 2 Punkte sein. Über 20/30 solcher Partien sind das aber auch 30 Punkte Und das macht im Vergleich mit benachbarten Geräten in der Spitze, wo die Differenzen klein und die Luft dünn wird, eben deutliche Unterschiede in der Platzierung aus. Ein Effekt, wenn man neutral, oder ein „Verfahren“, wenn man unfreundlich sein will, was leider in der SSDF schon zu sehen war.
Damit unterstellst du uns, dass wir nach dem gleichen Prinzip wie die SSDF "arbeiten" und so eventuell Geräte bevorteilen. Diese Aussage finde ehrlich gesagt mehr als fragwürdig.
Zumal dein Ansatz nicht korrekt ist. Der von dir beschriebene Zuwachs von 1-2 Punkten pro Partie, ist für eine normale Elo Berechnung korrekt. Aber für unsere Liste trifft er eben nicht zu!

Ein Beispiel bezogen auf unsere momentane Liste:

Gerät 1 hat eine Elo von 2216 (RISC 2500)
Gerät 2 hat eine Elo von 1849 (MM II)

Gerät 1 spielt eine Serie von 20 Partien gegen Gerät 2 und gewinnt 20:0. Wie hoch ist nun die Veränderung für Gerät 1? Laut FIDE Elo Berechnung wären es 30 Punkte. In unserer Liste wären es 2 Punkte. Gut könnte man sagen, es sind immerhin 2 Punkte. Was passiert nun aber nach 30 Partien, wenn Gerät 1 30:0 führt? Wenn man in der FIDE Berechnung alle 30 Partien zusammen berechnet, wären es 45 Punkte. Bei uns sieht die Sache aber völlig anders aus. Gerät 1 fällt auf 2216 zurück. Zumal sich aufgrund dieser neuen Konstellation auch die Werte anderer Geräte verschieben.

Warum dieser Effekt eintritt, habe ich oben erklärt.

Zitieren:
3.) In Anbetracht der mangelnden Verwendbarkeit der Ergebnisse ist die Ausführung solcher Partien auch Zeitverschwendung.
Ich halte es daher für geboten, solche Paarungen jetzt, wo die Liste noch im Anfang steckt, zu vermeiden bzw. wieder zu entfernen, um verzerrende Effekte von vornherein auszuschließen.
Diesen Punkt möchte doch gern erläutert bekommen. Welchen verzerrenden Effekt meinst du?

Zitieren:
Die geht nicht darum , möglichst schnell viele Partien abzureißen, sondern für jedes Gerät eine möglichst nahekommende Einschätzung zu erreichen.
Also ich kann micht daran erinnern, dass bisher ein Besucher, der sich aktiv in die Liste mit seinen Partien eingebracht hat, Partien "runtergerissen" hat, um sinnlose Vergleiche zu erstellen. Alle bisherigen aktiven Besucher versuchen mit ihren Partien eine sinnvolle Liste zu erstellen.


Zitieren:
Ich schlage dafür zwei Punkte vor:

A) Keine Paarungen mit einem Abstand von mehr als 100-150 Elo.

B) Neue Geräte werden durch die Paarungen gezielt eingekreist. Das heißt: Ausgehend von bereits gelisteten, gesicherten Geräten wird eine Gegnerliste erstellt, die sich in 10-20Elopunkten Abstand beidseitig nähert,

also –60;-40;-20; X; +20;+40;+60 (oder feiner). Als grobe Anhaltspunkte für die Opponenten von „X“ dienen analoge Hardware und Programmumfang, z.B. 6502; 32K-Progr., 8K RAM. Zugleich sollten bei der Auswahl unterschiedliche Charaktere vertreten sein (Taktiker/Positionelle) um ein ausgewogenes Gegnerfeld zu haben. Nach dem ersten Durchlauf in diesem FADENKREUZ kann mit zusätzlichen Geräten nachjustiert und somit die Wertung präzisiert werden.
Ein interessanter Vorschlag. Nur stellt sich die Frage, woher wissen wir, wie stark ein Gerät wirklich ist? Genau das wollen wir ja mit unserer neuen Liste herausfinden.
Das würde z.B. heißen (wenn man die SSDF zu Rate zieht) ein Sparc dürfte nicht gegen einen Berlin 68000 antreten? Oder ein Milano Pro nicht gegen einen RISC 2? Warum nicht? Sollte nicht viel mehr eine breite Streuung in der Gegnerschaft liegen?
Welche Paarungen würdest du als sinnvoll erachten, unter Berücksichtigung der von dir genannten Kriterien?

Gut finde ich persönlich den Ansatzpunkt, unterschiedliche Charaktere auszuwählen, um eben eine gewisse Streuung zu erhalten und die Hardware der einzelnen Geräte zu beachten. Welche Geräte könntest du ins Feld schicken, um das Gesagte zu illustrieren?

Zitieren:
Mit der Bitte um sachliche Diskussion
Dieser Aussage kann ich mich nur anschließen.

Micha

Geändert von Chessguru (01.09.2004 um 00:05 Uhr)
Mit Zitat antworten