Einzelnen Beitrag anzeigen
  #21  
Alt 03.09.2004, 09:24
Benutzerbild von Supergrobi
Supergrobi Supergrobi ist offline
Gesperrt
 
Registriert seit: 12.07.2004
Ort: Hannover
Alter: 52
Land:
Beiträge: 702
Abgegebene Danke: 277
Erhielt 436 Danke für 112 Beiträge
Aktivitäten Langlebigkeit
0/20 20/20
Heute Beiträge
0/3 ssssss702
AW: Im Fadenkreuz

 Zitat von Supergrobi
Jeff Sonas versucht das jedenfalls im ersten Teil seiner Artikelserie in der CSS (2004) statistisch zu belegen.
Oh, sorry, das war in CSS 5/03! Und auch nicht in der Serie, sondern in einem eigenen Artikel, in dem er ein neues Ratingsystem propagiert.

Da meine Anmerkungen offenbar nicht hinreichend zur Kenntnis genommen worden sind, hier die Kernaussage noch einmal etwas deutlicher:

Wird ein Vergleich zwischen einem stärkeren und schwächeren Gegner gewertet, ist dies ein Nachteil für den stärkeren Spieler.

Jeff Sonas hat in 262.000 Turnierpartien von 1996-2001 nachgewiesen, daß die stärkeren Spieler durchschnittlich weniger Punkte gemacht haben als ihrer ELO-Erwartung entsprach. Dies veranlaßt ihn in dem o.g. Artikel, von der Gaußschen Normalverteilung Elos Abstand zu nehmen, denn aus der Statistik ergibt sich eher ein linearer Zusammenhang.

Wenn wir uns also Gedanken um eine ausgeglichene Gegnerschaft machen, dann höchstens, um ein stärkeres Gerät einem anderen gegenüber nicht zu benachteiligen, indem man es gegen schwache Gegner spielen läßt. Das ist zum Beispiel auch die Grundidee der CSS-Rangliste (www.computerschach.de), die alle Programme gegen die gleichen Gegner spielen läßt, im Grunde in einem großen Rundenturnier.

Es bleibt allerdings die Frage nach der Signifikanz. Bei unserer geringen Partienzahl und der damit verbundenen hohen Standardabweichung dürfte eine eventuelle Verfälschung des Ergebnisses durch unausgewogene Paarungen völlig im "Rauschen" untergehen.

Vielleicht stellen sich Micha oder Stefan mal für ein kleines Experiment zur Verfügung: Bitte erstellt in der Datenbank mal 20 Fake-Partien R30-MMII (Ergebnis 19:1 -- Eloerwartung 0.96 ein bißchen abgerundet, s.o.). Um wie viele Punkte sinkt dann das Rating des R30?


Viele Grüße,
Dirk
Mit Zitat antworten