Folgender Benutzer sagt Danke zu Solwac für den nützlichen Beitrag: | ||
Boris (12.11.2015) |
|
||||||||||||
AW: Wettkämpfe
Ich verstehe nicht, warum die Dubletten nicht gewertet werden sollten. Sie zu vermerken, ja. Denn diese Information charakterisiert das Duell zweier Programme. Aber Dubletten zu ignorieren verfälscht das Ergebnis.
Beispiel: Programme A und B spielen 10 Partien. 1:0 1:0 0:1 1:0 0:1 0:1 1:0 1:0 1:0 0:1 (Es sind nur 10 Partien, die Statistik ist also mit einem sehr großen Fehler behaftet - aber das ignoriere ich jetzt mal) Das Match ist also 6:4 ausgegangen, d.h. bei einer Wiederholung sind wieder 60% für Programm A zu erwarten. Wenn jetzt die Partien 5 und 6 identisch verlaufen sind, was sagt uns das? Sind die Programme dadurch unterschiedlich in ihrer relativen Stärke? Nein, denn die Erwartung ist immer noch 60% für A. Bei einer Filterung der Dubletten wäre das Ergebnis 6:3 und ein Leser würde 66,7% für A erwarten. Getreu dem Motto, man beantwortet keine Frage mit einer Gegenfrage, stelle ich diese nun. Beispiel: Programme A (neues, unbekanntes Gerät) und B (sehr bekanntes Gerät) spielen 10 Partien. 1:0 1:0 1:0 1:0 1:0 1:0 1:0 1:0 1:0 0:1 Das Match ist also 9:1 ausgegangen. Ach ja, 8x wurde die Gewinnpartie wiederholt. Wenn jetzt die Partien 1 bis 9 identisch verlaufen sind, was sagt uns das? Sind die Programme dadurch unterschiedlich in ihrer relativen Stärke? Nicht nur rein statistisch die Sache beleuchten, sondern auch aus kommerzieller Sicht eines Herstellers. Nach dem oben aufgeführten Prinzip könnte man Listen sehr leicht manipulieren. Ich möchte aber nicht nur die Zufallsbreite des Eröffnungsbuches erfassen, sondern eben auch die schachlichen Qualitäten eines Programms. Erinnerst du dich noch an einige Geräte, die bei ihrem Erscheinen in der SSDF einen fantastischen Elo-Einstiegswert hingelegt haben? Später aber in die Niederungen der Durchschnitts-Elos abrutschten? Ein Schelm, wer Böses... Zitieren:
Aber Dubletten zu ignorieren verfälscht das Ergebnis.
Gruß Micha |
|
||||||||||||
AW: Wettkämpfe
A würde schließlich zu 90% diese eine Gewinnpartie spielen. Was die Sorge vor "gekochten" Büchern angeht, so kann man so einem Programm nur ein gutes Eröffnungsbuch attestieren wenn gegen verschiedene Gegner Erfolge erzielt werden. Mehr Partien gegen einen "geknackten" Gegner bringen keinen Erkenntnis mehr. Du willst die schachlichen Qualitäten wissen? Dann teste sie durch passende Testpositionen. Du willst ihre Erfolgswahrscheinlichkeit wissen? Dann spiele Partien. Du willst wissen, wie gut spielt das Gerät ohne Eröffnungsbibliothek? Dann spiele Partien aus vorgegebenen Stellungen und hoffe auf eine repräsentative Auswahl dieser Stellungen. |
|
||||||||||||
AW: Wettkämpfe
die ersten drei Unterschiede finde ich noch nachvollziehbar bei Auswertungen von Comp-Comp Partien, aber die unterschiedliche Wertung von Sieg, Niederlage und Unentschieden bei der ELO-Berechnung sollte mMn nicht mit einfließen.
__________________
http://chess-computer.blogspot.com/ |
|
|||||||||||
AW: Wettkämpfe
...Besonders interessant, die Werte der Novag Super Expert Geräte, die ebenfalls, wie bei der SSDF deutlich niedriger (im Vergleich) liegen als bei unseren Listen (Auswertung per EloStat). Womit auch die Theorie eines Ufo-Forschers widerlegt wäre, dass die Novag Ergebnisse in unseren Listen allesamt geschönt wären...
.... Gruß Micha Außerdem, Vorsicht, von "allesamt geschönt" habe ich nie gesprochen. Constellation 3.6, Super Constellation sind m.E. sehr realistisch eingestuft. Doubletten erlauben oder nicht ? Das war jetzt das Thema. A) Im Sinne eines erwartbaren (Turnier-)Ergebnis gegen Computer muss ich solche natürlich erlauben. Denn wenn ein und vielleicht sogar derselbe Gegner immer wieder auf die gleiche Eröffnungsfalle herein fällt, dann ist es eben so. Da bin ich auf der Seite von Solwac. B) Wenn ich die praktische Spielstärke, beispielsweise gegen Menschen (solche soll es ja auch noch geben, die sich selbst ans Brett setzen ) ermitteln will, sind Doubletten natürlich nicht hilfreich. Schon allein, weil man sich nicht zweimal mit dem gleichen Trick übertölpeln lässt. Da bin ich auf der Seite von Micha. Selbst versuche ich auch, Doubletten zu vermeiden. Gehe also den Weg (B). Wobei bei beispielsweise zehn Partien auch zwei Mal "Spanisch" dabei sein darf, wenn die Varianten frühzeitig sich unterscheiden. Tatsächlich schwierig wird es dann, wenn man 20 oder mehr Partien spielen lässt. Was soll man tun ? (a) auf Gedeih und Verderb Vielfalt reinbringen, was bei manchen Geräten (z.B. Mephisto Roma) verdammt schwierig ist, und den Rechner dann auch vielleicht benachteiligt, oder (b) mit vielen zueinander ähnlichen Partien "leben", was langweilig ist. Gruß Wolfgang |
|
||||||||||||
AW: Wettkämpfe
Warum nicht, wenn es doch die Verteilung besser beschreibt?
|
|
||||||||||||
AW: Wettkämpfe
Aber das klappt idR ja nur gegen diesen einen Gegner, deshalb finde ich das für den Zweck der Ermittlung einer zuverlässigen ELO zumindest fragwürdig.
Wenn ein 1700-er Programm gegen ein 2000-er Programm nur aufgrund eines Buchfehlers oder einer Killervariante etliche Dubletten gewinnt (MM V ohne HG550 ist da sehr anfällig; habe da eigene Erfahrungen), dann verfälscht das mMn die ELO durchaus. Und die Partien gegen andere Gegner können das nicht mehr korrigieren, sondern bestenfalls etwas begradigen; der "Fehler" bleibt. Zitieren:
Was die Sorge vor "gekochten" Büchern angeht, so kann man so einem Programm nur ein gutes Eröffnungsbuch attestieren wenn gegen verschiedene Gegner Erfolge erzielt werden. Mehr Partien gegen einen "geknackten" Gegner bringen keinen Erkenntnis mehr.
Sorry, aber das fände ich dann ziemlich inkonsequent: Wenn Dubletten erlaubt sind, dann müssen alle zählen... Meine Meinung kurzgefasst: Für ein Turnier müssen Dubletten natürlich zählen (der Turnierleiter/Bediener kann ja nicht bei jeder Partie einen Dublettencheck machen), aber für die ELO-Auswertung dürfen sie nicht herangezogen werden... viele Grüße Robert |
|
||||||||||||
AW: Wettkämpfe
Elo sagt nichts über die schachliche Qualität aus, nur über den Erfolg in Partien. Ob die Siege durch überlegenes Wissen, eine tiefere Suche oder ein überlegenes Buch zustande kommen, da gibt es keinen Unterschied. Wenn ein 1700-er Programm gegen ein 2000-er Programm nur aufgrund eines Buchfehlers oder einer Killervariante etliche Dubletten gewinnt (MM V ohne HG550 ist da sehr anfällig; habe da eigene Erfahrungen), dann verfälscht das mMn die ELO durchaus. Und die Partien gegen andere Gegner können das nicht mehr korrigieren, sondern bestenfalls etwas begradigen; der "Fehler" bleibt.
Eine Dublette gibt aber schachlich keine neuen Erkenntnisse, die entstehende Partie ist in ihrem Ergebnis ja bekannt. Stell Dir vor, zwei Programme haben kein Buch. Dann gibt genau zwei verschiedene Partien (P1-P2 und P2-P1). Nach diesen zwei Partien ist das Kräfteverhältnis im direkten abschließend geklärt. Eine dritte, vierte, hundertste Partie wird keine neuen Erkenntnisse liefern. Eine numerische Auswertung wird aber dieses Duell mit steigender Anzahl von Partien immer stärker wichten. Da liegt das Problem. Bei älteren Programmen mit kleinem Buch tritt meist folgender Fall ein: Zuerst bekommt man verschiedene Partien. Irgendwann wiederholen sich die ersten Partien, so könnten bei einem Wettkampf über 20 Partien z.B. 2 identische Partien auftreten. Werden jetzt mehr Partien gespielt, dann gibt es irgendwann keine neuen Partien mehr, alle möglichen verschiedenen Partien wurden gespielt, alle Kombinationen der aktiv gespielten Züge aus dem Buch sind dran gewesen. Werden jetzt noch weitere Partien gespielt, so wird nur noch der Fehler bei der Bestimmung der Ausspielwahrscheinlichkeiten kleiner. Damit erhält man eine falsche Einschätzung. |
|
|||||||||||
AW: Wettkämpfe
Ich habe den Designer 2000 (= Excellence 3 MHz mit größerer Biblio)
einige Partie auf Turnierstufe spielen lassen: Des 2000 - Turbostar KSO 4,5:1,5 6 enge Partien, am Ende hat meistens der Fidelity die Nase vorn. Des 2000 - Krypton Challenger 7,5:12,5 Ein überraschend klares Ergebnis Supermondial - Krypton Challenge 11:9 Gruß Eckehard |
|
|||||||||||
AW: Wettkämpfe
Ich habe den Supermondial gegen den Par Ex 16 MHz auf Turnierstufe spielen lassen (40/120), allerdings bekam der Par nur 2 Min/Zug, was etwa 10,6 MHz entsprechen sollte.
Supermondial (1891) - Par Ex (ca. 1980) 1,5:8,5. Außer einer schönen Angriffspartie gelang dem SuMo nicht viel. Mit einer Min pro Zug sollte der Par Ex etwa mit 5,3 MHz spielen. Supermondial - Par Ex (1880) 3,5:6,5 Immer noch ein deutliches und für mich überraschendes Ergebnis. Die Partien dauerten hier deutlich länger, es war deutlich zäher für den Par. Vor einigen Jahren ließ ich den Turbostar gegen den SuMo auf Turnierstufe spielen. Das Ergebnis war mit 16,5:7,5 eindeutig für den SuMo. Eins der Probleme des Turbos war die mangelnde Ausnutzung der Zeit. Ich habe es daher jetzt mit 3Min/Zug, probiert, doch hier lief es genau wie mit 40/120: viele Sofortantworten, viel Zeit blieb ungenutzt. Mit der nächsthöheren Stufe (6Min/Zug) überschritt der Scisys erwartungsgemäß die Zeit, allerdings um weniger als eine halbe h! Von den programmierbaren Stufen erwies sich 30/120 als die Stufe, auf der die Zeit am besten genutzt wird. Am Ende gewann der SuMo 18:12, jetzt gegen den Turbostar KSO. Gruß Eckehard |
Folgender Benutzer sagt Danke zu Eckehard Kopp für den nützlichen Beitrag: | ||
Egbert (24.06.2016) |
|
|
Ähnliche Themen | ||||
Thema | Erstellt von | Forum | Antworten | Letzter Beitrag |
Turnier: Neue Aktiv-Schach Wettkämpfe | lexmark_z55 | Partien und Turniere / Games and Tournaments | 1 | 04.03.2005 19:05 |