Schachcomputer.info Community - Turnier: Wettkämpfe

Schachcomputer.info Community (https://www.schachcomputer.info/forum/index.php)

- Partien und Turniere / Games and Tournaments (https://www.schachcomputer.info/forum/forumdisplay.php?f=11)

- - Turnier: Wettkämpfe (https://www.schachcomputer.info/forum/showthread.php?t=99)

Zitieren:

Zitat von Fluppio (Beitrag 56160)

Hallo Micha,

interessanter Ansatz. Lässt sich kurz (für Laien erläutern worin der Unterschied in der Berechnungsformel liegt?

Gruß, Peter

Für Details solltest Du dem Link folgen.

Aber grob erklärt gibt es vier Unterschiede:
- Ergebnisse gegen deutlich stärkere oder schwächere Gegner werden anders behandelt.
- Ergebnisse wie 10:0 werden anders gewichtet als ein 1:0, das verändert vor allem bei relativ wenigen Partien das Ergebnis.
- der Unterschied zwischen der durchschnittlichen Stärke vieler Gegner und einem Gegner mit der durchschnittlichen Spielstärke wird berücksichtigt.
- Anzug und Unentschieden werden berücksichtigt. Weiß und Schwarz werden also unterschiedlich behandelt, genau wie Sieg und Niederlage einen Ticken anders als zwei Unentschieden sind.

Zitieren:

Zitat von Solwac (Beitrag 56161)

Ich verstehe nicht, warum die Dubletten nicht gewertet werden sollten. Sie zu vermerken, ja. Denn diese Information charakterisiert das Duell zweier Programme. Aber Dubletten zu ignorieren verfälscht das Ergebnis.

Beispiel: Programme A und B spielen 10 Partien.
1:0
1:0
0:1
1:0
0:1
0:1
1:0
1:0
1:0
0:1

(Es sind nur 10 Partien, die Statistik ist also mit einem sehr großen Fehler behaftet - aber das ignoriere ich jetzt mal)

Das Match ist also 6:4 ausgegangen, d.h. bei einer Wiederholung sind wieder 60% für Programm A zu erwarten.

Wenn jetzt die Partien 5 und 6 identisch verlaufen sind, was sagt uns das? Sind die Programme dadurch unterschiedlich in ihrer relativen Stärke? Nein, denn die Erwartung ist immer noch 60% für A.
Bei einer Filterung der Dubletten wäre das Ergebnis 6:3 und ein Leser würde 66,7% für A erwarten.

Ja, schon klar was du mir sagen willst. Damit habe ich aber ein Problem. Oh, oh die Glaubenskämpfe beginnen. Ich bin doch Atheist...

Getreu dem Motto, man beantwortet keine Frage mit einer Gegenfrage, stelle ich diese nun.

Beispiel: Programme A (neues, unbekanntes Gerät) und B (sehr bekanntes Gerät) spielen 10 Partien.
1:0
1:0
1:0
1:0
1:0
1:0
1:0
1:0
1:0
0:1

Das Match ist also 9:1 ausgegangen. Ach ja, 8x wurde die Gewinnpartie wiederholt. Wenn jetzt die Partien 1 bis 9 identisch verlaufen sind, was sagt uns das? Sind die Programme dadurch unterschiedlich in ihrer relativen Stärke? ;)

Nicht nur rein statistisch die Sache beleuchten, sondern auch aus kommerzieller Sicht eines Herstellers. Nach dem oben aufgeführten Prinzip könnte man Listen sehr leicht manipulieren. Ich möchte aber nicht nur die Zufallsbreite des Eröffnungsbuches erfassen, sondern eben auch die schachlichen Qualitäten eines Programms. Erinnerst du dich noch an einige Geräte, die bei ihrem Erscheinen in der SSDF einen fantastischen Elo-Einstiegswert hingelegt haben? Später aber in die Niederungen der Durchschnitts-Elos abrutschten? Ein Schelm, wer Böses...

Zitieren:

Aber Dubletten zu ignorieren verfälscht das Ergebnis.

Ja schon, aber sie nicht zu ignorieren ebenfalls.

Gruß
Micha

Zitieren:

Zitat von Chessguru (Beitrag 56163)

Das Match ist also 9:1 ausgegangen. Ach ja, 8x wurde die Gewinnpartie wiederholt. Wenn jetzt die Partien 1 bis 9 identisch verlaufen sind, was sagt uns das? Sind die Programme dadurch unterschiedlich in ihrer relativen Stärke? ;)

Ja, sind sie. ;)
A würde schließlich zu 90% diese eine Gewinnpartie spielen.

Was die Sorge vor "gekochten" Büchern angeht, so kann man so einem Programm nur ein gutes Eröffnungsbuch attestieren wenn gegen verschiedene Gegner Erfolge erzielt werden. Mehr Partien gegen einen "geknackten" Gegner bringen keinen Erkenntnis mehr.

Du willst die schachlichen Qualitäten wissen? Dann teste sie durch passende Testpositionen.
Du willst ihre Erfolgswahrscheinlichkeit wissen? Dann spiele Partien.
Du willst wissen, wie gut spielt das Gerät ohne Eröffnungsbibliothek? Dann spiele Partien aus vorgegebenen Stellungen und hoffe auf eine repräsentative Auswahl dieser Stellungen. ;)

Zitieren:

Zitat von Solwac (Beitrag 56162)

Für Details solltest Du dem Link folgen.

Aber grob erklärt gibt es vier Unterschiede:

- Anzug und Unentschieden werden berücksichtigt. Weiß und Schwarz werden also unterschiedlich behandelt, genau wie Sieg und Niederlage einen Ticken anders als zwei Unentschieden sind.

Hi,
die ersten drei Unterschiede finde ich noch nachvollziehbar bei Auswertungen von Comp-Comp Partien, aber die unterschiedliche Wertung von Sieg, Niederlage und Unentschieden bei der ELO-Berechnung sollte mMn nicht mit einfließen.

Zitieren:

Zitat von Chessguru (Beitrag 56159)

...Besonders interessant, die Werte der Novag Super Expert Geräte, die ebenfalls, wie bei der SSDF deutlich niedriger (im Vergleich) liegen als bei unseren Listen (Auswertung per EloStat). Womit auch die Theorie eines Ufo-Forschers widerlegt wäre, dass die Novag Ergebnisse in unseren Listen allesamt geschönt wären... ;)
....
Gruß
Micha

Hallo Micha, da hast Du also höchstpersönlich diverse Novag-Werte mit dem von Dir verwendeten Berechnungsalgorithmus in der bisherigen Wiki-Liste geschönt! ;) //* was alles raus kommt, das ist ja fast so spannend, wie die 2006-er Fußball-WM-Vergabe *//
Außerdem, Vorsicht, von "allesamt geschönt" habe ich nie gesprochen. Constellation 3.6, Super Constellation sind m.E. sehr realistisch eingestuft.

Doubletten erlauben oder nicht ? Das war jetzt das Thema.

A) Im Sinne eines erwartbaren (Turnier-)Ergebnis gegen Computer muss ich solche natürlich erlauben. Denn wenn ein und vielleicht sogar derselbe Gegner immer wieder auf die gleiche Eröffnungsfalle herein fällt, dann ist es eben so. Da bin ich auf der Seite von Solwac.

B) Wenn ich die praktische Spielstärke, beispielsweise gegen Menschen (solche soll es ja auch noch geben, die sich selbst ans Brett setzen ;) ) ermitteln will, sind Doubletten natürlich nicht hilfreich. Schon allein, weil man sich nicht zweimal mit dem gleichen Trick übertölpeln lässt.
Da bin ich auf der Seite von Micha.

Selbst versuche ich auch, Doubletten zu vermeiden. Gehe also den Weg (B). Wobei bei beispielsweise zehn Partien auch zwei Mal "Spanisch" dabei sein darf, wenn die Varianten frühzeitig sich unterscheiden.

Tatsächlich schwierig wird es dann, wenn man 20 oder mehr Partien spielen lässt. Was soll man tun ?
(a) auf Gedeih und Verderb Vielfalt reinbringen, was bei manchen Geräten (z.B. Mephisto Roma) verdammt schwierig ist, und den Rechner dann auch vielleicht benachteiligt, oder
(b) mit vielen zueinander ähnlichen Partien "leben", was langweilig ist.

Gruß
Wolfgang

Zitieren:

Zitat von Fluppio (Beitrag 56165)

Warum nicht, wenn es doch die Verteilung besser beschreibt?

Zitieren:

Zitat von Solwac (Beitrag 56164)

Ja, sind sie. ;)
A würde schließlich zu 90% diese eine Gewinnpartie spielen.

Aber das klappt idR ja nur gegen diesen einen Gegner, deshalb finde ich das für den Zweck der Ermittlung einer zuverlässigen ELO zumindest fragwürdig.
Wenn ein 1700-er Programm gegen ein 2000-er Programm nur aufgrund eines Buchfehlers oder einer Killervariante etliche Dubletten gewinnt (MM V ohne HG550 ist da sehr anfällig; habe da eigene Erfahrungen), dann verfälscht das mMn die ELO durchaus. Und die Partien gegen andere Gegner können das nicht mehr korrigieren, sondern bestenfalls etwas begradigen; der "Fehler" bleibt.

Zitieren:

Was die Sorge vor "gekochten" Büchern angeht, so kann man so einem Programm nur ein gutes Eröffnungsbuch attestieren wenn gegen verschiedene Gegner Erfolge erzielt werden. Mehr Partien gegen einen "geknackten" Gegner bringen keinen Erkenntnis mehr.

Wenn ich Dich richtig verstehe, wäre also nur eine bestimmte Anzahl an Dubletten vertretbar? Und wie hoch dürfte diese Zahl dann sein?
Sorry, aber das fände ich dann ziemlich inkonsequent: Wenn Dubletten erlaubt sind, dann müssen alle zählen...

Meine Meinung kurzgefasst:
Für ein Turnier müssen Dubletten natürlich zählen (der Turnierleiter/Bediener kann ja nicht bei jeder Partie einen Dublettencheck machen), aber für die ELO-Auswertung dürfen sie nicht herangezogen werden...

viele Grüße
Robert

Zitieren:

Zitat von Robert (Beitrag 56182)

Aber das klappt idR ja nur gegen diesen einen Gegner, deshalb finde ich das für den Zweck der Ermittlung einer zuverlässigen ELO zumindest fragwürdig.

Warum?

Elo sagt nichts über die schachliche Qualität aus, nur über den Erfolg in Partien. Ob die Siege durch überlegenes Wissen, eine tiefere Suche oder ein überlegenes Buch zustande kommen, da gibt es keinen Unterschied.

Zitieren:

Zitat von Robert (Beitrag 56182)

Wenn ein 1700-er Programm gegen ein 2000-er Programm nur aufgrund eines Buchfehlers oder einer Killervariante etliche Dubletten gewinnt (MM V ohne HG550 ist da sehr anfällig; habe da eigene Erfahrungen), dann verfälscht das mMn die ELO durchaus. Und die Partien gegen andere Gegner können das nicht mehr korrigieren, sondern bestenfalls etwas begradigen; der "Fehler" bleibt.

Da ist kein Fehler, der bleiben kann. Das eine Duell ergibt ein Ergebnis abweichend von der Erwartung aufgrund der anderen Duelle, mehr nicht. Die Streuung der Ergebnisse ist also größer, aber das ist halt so. Werden jetzt weitere Gegner in die Wertung einbezogen, dann trägt das eine Einzelduell immer weniger zum Gesamtergebnis bei.

Zitieren:

Zitat von Robert (Beitrag 56182)

Nein, alle Dubletten müssen zählen.

Eine Dublette gibt aber schachlich keine neuen Erkenntnisse, die entstehende Partie ist in ihrem Ergebnis ja bekannt. Stell Dir vor, zwei Programme haben kein Buch. Dann gibt genau zwei verschiedene Partien (P1-P2 und P2-P1). Nach diesen zwei Partien ist das Kräfteverhältnis im direkten abschließend geklärt. Eine dritte, vierte, hundertste Partie wird keine neuen Erkenntnisse liefern. Eine numerische Auswertung wird aber dieses Duell mit steigender Anzahl von Partien immer stärker wichten. Da liegt das Problem.

Bei älteren Programmen mit kleinem Buch tritt meist folgender Fall ein:
Zuerst bekommt man verschiedene Partien. Irgendwann wiederholen sich die ersten Partien, so könnten bei einem Wettkampf über 20 Partien z.B. 2 identische Partien auftreten. Werden jetzt mehr Partien gespielt, dann gibt es irgendwann keine neuen Partien mehr, alle möglichen verschiedenen Partien wurden gespielt, alle Kombinationen der aktiv gespielten Züge aus dem Buch sind dran gewesen.
Werden jetzt noch weitere Partien gespielt, so wird nur noch der Fehler bei der Bestimmung der Ausspielwahrscheinlichkeiten kleiner.

Zitieren:

Zitat von Robert (Beitrag 56182)

Meine Meinung kurzgefasst:
Für ein Turnier müssen Dubletten natürlich zählen (der Turnierleiter/Bediener kann ja nicht bei jeder Partie einen Dublettencheck machen), aber für die ELO-Auswertung dürfen sie nicht herangezogen werden...

Damit erhält man eine falsche Einschätzung.

Ich habe den Designer 2000 (= Excellence 3 MHz mit größerer Biblio)
einige Partie auf Turnierstufe spielen lassen:

Des 2000 - Turbostar KSO 4,5:1,5
6 enge Partien, am Ende hat meistens der Fidelity die Nase vorn.

Des 2000 - Krypton Challenger 7,5:12,5
Ein überraschend klares Ergebnis

Supermondial - Krypton Challenge 11:9

Gruß Eckehard

Ich habe den Supermondial gegen den Par Ex 16 MHz auf Turnierstufe spielen lassen (40/120), allerdings bekam der Par nur 2 Min/Zug, was etwa 10,6 MHz entsprechen sollte.
Supermondial (1891) - Par Ex (ca. 1980) 1,5:8,5.
Außer einer schönen Angriffspartie gelang dem SuMo nicht viel.

Mit einer Min pro Zug sollte der Par Ex etwa mit 5,3 MHz spielen.
Supermondial - Par Ex (1880) 3,5:6,5
Immer noch ein deutliches und für mich überraschendes Ergebnis.
Die Partien dauerten hier deutlich länger, es war deutlich zäher für den Par.

Vor einigen Jahren ließ ich den Turbostar gegen den SuMo auf Turnierstufe spielen. Das Ergebnis war mit 16,5:7,5 eindeutig für den SuMo.
Eins der Probleme des Turbos war die mangelnde Ausnutzung der Zeit.
Ich habe es daher jetzt mit 3Min/Zug, probiert, doch hier lief es genau
wie mit 40/120: viele Sofortantworten, viel Zeit blieb ungenutzt.
Mit der nächsthöheren Stufe (6Min/Zug) überschritt der Scisys erwartungsgemäß die Zeit, allerdings um weniger als eine halbe h!
Von den programmierbaren Stufen erwies sich 30/120 als die Stufe,
auf der die Zeit am besten genutzt wird.
Am Ende gewann der SuMo 18:12, jetzt gegen den Turbostar KSO.

Gruß Eckehard