|
|||||||||||
AW: Und jetzt der BT-2630-test
Die sieben neuen aufgaben enthalten einen fehler, der aber leider sehr eklatant ist.
In aufgabe 15a führt eine schlichte zugumstellung zum gleichen ergebnis:
2b1q3/p7/1p1p2kb/nPpN3p/P1P1P2P/6P1/5R1K/5Q2 w - - Engine: Naum 4.1 (1024 MB) von Aleksandar Naumov 17 6:34 +2.44 1.Tf2-f6+ Kg6-g7 2.e4-e5 d6xe5 3.Tf6-d6 De8-f7 4.Df1xf7+ Kg7xf7 5.Td6xh6 Sa5xc4 6.Th6xh5 Lc8-e6 17 6:34 +2.44 1.e4-e5 d6xe5 2.Tf2-f6+ Kg6-g7 3.Tf6-d6 17 8:54 +0.01 1.Df1-d3 De8-e5 2.Dd3-f3 Lc8-e6 3.Sd5-f4+ Kg6-h7 4.Sf4xe6 De5xe6 5.Df3xh5 Kh7-g7 6.Dh5-d5 De6xd5 |
|
||||||||||||
AW: Mögliche fehler im BT-2450-test
Hallo Horst,
ich finde es klasse, dass Du diesen beliebten Uralt-Test mal ordentlich unter die Lupe nimmst. Vor gefühlten 200 Jahren habe ich das mit 'nem P-I (oder war es ein P-II?) schon mal gemacht, aber die Dinger waren viel zu langsam und die Engines nicht ganz so brutal wie die heutigen. Deshalb habe ich die Geschichte damals auch sein lassen und nicht weiter verfolgt. Möglicherweise wird jede Teststellung früher oder später widerlegt. Aber es sind bei Dir doch schon ein paar viele Auffälligkeiten zu Tage getreten, weshalb man die Sache durchaus mal diskutieren könnte. Einfach wird das vermutlich nicht... Also was die Zugumstellung angeht: Bei sowas müssen beide Lösungszüge gelten! Bei den Nebenlösungen wird es schwieriger: Natürlich ist für unsereins ein Matt in 9 (siehe Aufgabe 14) nicht schlechter als ein Matt in 7, denn für uns zählt das Endergebnis - und das lautet "Matt!". Doch bei einem Compi liegen die Maßstäbe etwas anders. Er ist ja -eigentlich- darauf programmiert, seinem Gegener möglichst effizient den Garaus zu machen. Das bedeutet aber auch, dass er das kürzeste Matt zu finden hat. Nicht anders ist es vermutlich bei den Lösungen, wo das Matt noch nicht zu sehen ist, die Gesamtsituation aber in Richtung Sieg forciert wird, wie z.B. bei Aufgabe 12. Das dem aber nicht immer so sein muss, zeigt Aufgabe 29. Die PC-Engine sagt: "gleichwertig" und wenn nahezu alle guten Engines sowas erzählen, was dann? Man könnte immer noch sagen "ein Mensch würde dies oder das bevorzugen, weil..." - doch der BT-Test ist nicht für Menschen, sondern für Compis gedacht. Hier sollten dann auch beide Lösungen gelten. Und das "Extrem" von Aufgabe 27 steigert diese Problematik gar noch weiter, wenn die PC-Engines etwas (vermeintlich?) Besseres finden als der Mensch. Die Sache ist schwierig, denn zunächst gilt es sicher zu beweisen, dass die Nebenlösung (oder was auch immer) wirklich sicher ist. Ist das der Fall, dann bleiben m.E. nur zwei Möglichkeiten: 1.: man nimmt beide (oder noch mehr) Lösungen als "richtig" (wobei es wieder delikat wird, wenn der Compi erst Lösung A findet und die dann zugunsten B verwirft ... denn welche Löszungszeit will man da nehmen?) oder 2.: Man schmeisst diese Aufgaben raus und ersetzt sie durch etwas, was in etwa dem gleichen Schwierigkeitsgrad entspricht (wer kann das objektiv beurteilen?) und wirklich nur eine einzige Lösung aufweist (was dann in 20 Jahren auch wieder widerlegt wird). Nun denn - heiße Diskussion erwünscht... ![]() Gruß, Wilfried |
|
||||||||||||
AW: Mögliche fehler im BT-2450-test
Hallo Horst,
die grundsätzliche Idee im genannten Test bestand ja darin, den jeweils besten Zug zu finden. Natürlich zeigen sich in jeder Stellung weitere gute Fortsetzungen, aber das Grundanliegen war etwas anders formuliert. Somit sollte eine Variante aus meiner Sicht erst dann ersetzt werden, wenn eine stärkere Zugfolge gefunden wird. Aufgabe 12 scheint mindestens eine akzeptable nebenlösung zu haben:
12: BT2450-12 - Qe4, Source unkown 1994 Analysis by Deep Shredder 12 UCI: 1. -+ (-28.36): 1...De6-e4 2.Tb3xe3 De4xh1+ 3.Ke1-d2 Dh1-d5+ 4.Kd2-c1 Dd5xc5+ 5.Te3-c3 Dc5-g1+ 6.Kc1-c2 Tg3-g2 2. -+ (-11.73): 1...De6-f5 2.Tb3xb7+ Kf7-g6 3.Tb7-d7 Df5xd7 4.Dh1-e4+ f6-f5 5.De4xe3 Tg3xe3 6.Te2xe3 h3-h2 3. -+ (-6.55): 1...De6-g4 2.Tb3xe3 Tg3-g1+ 3.Dh1xg1 Dg4xg1+ 4.Ke1-d2 h3-h2 5.f4-f5 h2-h1D 6.Te3-e7+ Kf7-f8 4. -+ (-6.54): 1...b7-b6 2.Ke1-d1 De6-g4 3.Tb3-a3 Tg3-g1+ 4.Dh1xg1 Dg4xg1+ 5.Kd1-c2 h3-h2 6.Ta3xa7+ Kf7-e6 5. -+ (-4.99): 1...b7-b5 2.Dh1-h2 De6-e4 3.Tb3xe3 Tg3xe3 4.Te2xe3 De4xe3+ 5.Ke1-f1 Kf7-e6 6.Dh2-c2 f6-f5 6. -+ (-2.75): 1...Kf7-f8 2.Tb3-d3 De6-g4 3.Td3xe3 Tg3-g1+ 4.Ke1-f2 Tg1xh1 5.Te3-e8+ Kf8-g7 6.Te2-e7+ Kg7-g6 1...De4 ist mit Abstand der stärkste und schönste Zug. Schwarz bietet seine Dame als Opfer dar, was Weiß zur sofortigen Aufgabe zwingt. Klasse. Zitieren:
Bei aufgabe 14 gibt es drei gewinnzüge, die in 7, 8 und 10 zügen zum matt führen:
Zitieren:
Nun zur aufgabe 27: 1.Lb4 scheint 1.e6 ebenbürtig zu sein, denn der vorstoß e6 ist auch später noch möglich:
27: BT2450-27 - e6, Rubenstein - Keller 1994 Analysis by HIARCS 13.2 MP: 1. +- (3.54): 1.Ld6-b4 Kg8-h8 2.e5-e6 Td7-d5 3.Df5-f7 Td5xh5+ 4.Kh2-g3 Td8-g8 5.Lb4-c3 Lc4-b5 6.e6-e7 Th5-h1 2. +- (1.88): 1.e5-e6 Td7xd6 2.Df5-f7+ Kg8-h8 3.e6-e7 Td6-d2+ 4.Kh2-g3 b6-b5 5.e7xd8D+ Td2xd8 6.Df7xa7 Td8-f8 3. +/- (1.30): 1.Kh2-g3 Kg8-h8 2.Kg3-h4 b6-b5 3.Df5xe4 Td8-c8 4.De4-f5 Ich habe gerade gesehen, dass häufig fehlerhaft Rubenstein als weißer Spieler genannt wird, auch in unserer Wiki (in der Zwischenzeit geändert). Laut CSS war es aber Rubinstein. Wobei mich diese Partie interessieren würde, nur leider finde ich sie nicht, egal wo ich auch suche. Hier würde ich dir zustimmen. 1.Lb4 ist ebenbürtig, wobei ich 1.e6 als logischer bzw. zwingender ansehe. Für eine Engine aber ohne Belang, denn für diese ist nicht der Weg das Ziel, es zählt nur das Ergebnis. Zitieren:
Die letzte auffälligkeit betrifft aufgabe 29, übrigens die einzige der vier, die im BT-2630 gegen eine andere aufgabe ausgetauscht wurde.
Hier existiert auch eine akzeptable nebenlösung:
Die BT-Tests waren nachweislich nicht die schlechtesten Indikatoren für die Bestimmung der Spielstärke von Schachcomputern. Allerdings bevorzuge ich das praktische Spiel, um einen Eindruck der Spielstärke zu gewinnen, denn ein Faktor wurde bei diesen Tests völlig außer Acht gelassen, die Einbeziehung der Eröffnungsbibliothek. Gruß, Micha |
|
|||||||||||
AW: Mögliche fehler im BT-2450-test
bedenke bitte, dass einige programmierer ihre programme so eingestellt haben, dass sie sofort nach beendigung der aktuellen tiefe ziehen, wenn sie ein x-beliebiges matt gefunden haben. Hier auf die schnelle ein beispiel von Fritz 6, der gar nicht weiter erkundet, ob das matt in 8 (statt 7) zügen noch verbesserungsfähig ist: 14: BT2630 - Test: 14, 2/94-26 Bednorz/Tönissen 1994 3r1rk1/1p3pnp/p3pBp1/1qPpP3/1P1P2R1/P2Q3R/6PP/6K1 w - - 0 1 Analysis by Fritz 6: 1.Dd3xb5 a6xb5 2.Lf6xd8 Tf8xd8 3.Tg4-h4 h7-h5 4.Th4-f4 Td8-a8 5.Tf4-f6 +- (2.94) Tiefe: 5/13 00:00:00 5kN +- (3.00) Tiefe: 8/16 00:00:00 71kN 1.Th3xh7 Td8-d6 2.Th7xg7+ +- (3.03) Tiefe: 8/25 00:00:00 217kN +- (#8) Tiefe: 10/25 00:00:00 888kN Ist das nun besser oder gleichwertig mit 1.Dd2 (#8)? Bei einigen älteren schachcomputern führte dieses frühzeitige ziehen gelegentlich zu seeschlangen im endspiel, weil immer wieder in bruchteilen von sekunden ein matt in x schneller gefunden und gespielt wurde als der kürzeste weg zum sieg. Dafür habe ich im moment leider kein beispiel parat. Ich meine mich zu erinnern, dass der TurboKing dafür anfällig war. Viele grüße Horst |
|
|||||||||||
AW: Mögliche fehler im BT-2450-test
Liebe computerschachfreunde,
ich habe jetzt mal in den ergebnistabellen https://www.schach-computer.info/wiki/index.php/BT-2450 https://www.schach-computer.info/wiki/index.php/BT-2630 nachgesehen, ob bei den angesprochenen aufgaben irgendwelche tendenzen beim lösungsverhalten zu erkennen sind. Dabei habe ich keine statistische erhebung zugrunde gelegt, sondern mir subjektiv die tabellen angesehen. Aufgabe 12 - 1...De4: Bei guten wie schlechten geräten sieht man sehr unterschiedliche lösungsraten, für mich keine tendenz erkennbar. Ob die zugumstellung mit 1.Df5 eine rolle spielt, lässt sich nur mit hilfe der geräte erkunden. Aufgabe 14 - 1.Txh7: Die guten lösen die aufgabe eindeutig besser, bei den dahinterliegenden sind einige wenige treffer eingestreut, jedoch ohne regelmäßigkeit. Extrem unwahrscheinlich erscheint mir, dass die schlechteren geräte die längerzügigen matts erkannt haben, denn selbst die PC-programme brauchen geraume zeit, bis sie 1.Dd2 (#8) und 1.Dc2 (#10) überhaupt finden, während 1.Txh7 (#7) in sekundenbruchteilen gefunden wird.. Aufgabe 27 - 1.e6: Nur sieben geräte, die ziemlich gleichmäßig über das feld verteilt sind, haben überhaupt 1.e6 berechnet. Da wären stichproben wünschenswert, ob die anderen 1.Lb4 bevorzugen. Aufgabe 29 - 1.Ke1: Hier stellt sich die sache auf den kopf! Sechs der spitzengeräte haben 900 s auf dem konto, dahinter kommen fast nur noch lösungen. Da die spitze fast nur aus Lang-programmen besteht, habe ich stichproben betrachtet: Mephisto Portorose 68030 36 MHz : 900 s Mephisto Portorose 68020 12 MHz : 7 s Mephisto Lyon 68030 36 MHz : 900 s Mephisto Lyon 68020 12 MHz : 900 s Mephisto Lyon 68000 12 MHz : 2 s Fidelity Elite V9 68030 32 Mhz : 17 s Fidelity Elite V5 2x 68000 12 Mhz : 37 s Die schnelleren Lang-versionen verwerfen 1.Ke1, die schnellere Elite ist einfach nur schneller, ohne auf einen anderen zug umzuschwenken. Aufgabe 15a - 1.e5: Klare tendenz: Die besseren sind besser, die schlechteren sind schlechter bei dieser aufgabe. Ob die zugumstellung mit 1.Tf6+ eine rolle spielt, lässt sich nur mit hilfe der geräte erkunden. Viele grüße Horst |
|
|||||||||||
AW: Mögliche fehler im BT-2450-test
Gerade der Effekt, welcher in der Aufgabe 29 auftritt ist mir auch schon aufgefallen. Viele angeblich gefundenen Lösungen werden wieder verworfen, wenn man die Computer länger als die obligatorischen 15 Min rechnen lässt. Dies führt dazu, dass langsamere Geräte den Schlüsselzug "finden", während die schnelleren ihn in gleicher Zeit wieder verwerfen (was wie gesagt bei den langsameren Geräten auch passieren würde, nur eben nicht innerhalb der genannten 15 Min). Mit dem Mess-Emulator kann man das recht gut nachvollziehen. Der Dallas 68000 läuft damit auf meinem Rechner mit umgerechnet 330 MHz. Da wird so einiges verworfen, was ihm vorher aufs Guthabenkonto geschrieben wurde (Man muss zur Verteidigung allerdings sagen, dass er dafür auch einige andere Lösungen findet, die er vorher nicht gefunden hätte). Ich werde bei Gelegenheit mal die verschiedenen Emulationen durch den Test jagen und dann mal berichten, was dabei so herauskam.
__________________
Mein Profil beim ICCF (International Correspondence Chess Federation) https://www.iccf.com/player?id=89948&tab=3 |
|
||||||||||||
AW: Mögliche fehler im BT-2450-test
Hallo Horst,
Zitieren:
Ist das nun besser oder gleichwertig mit 1.Dd2 (#8)?
Wurde als Aufgabenstellung aber das Aufspüren des besten Zuges genannt, wäre das Matt in 7 die korrekte Antwort. Denn ein Matt in 7 ist nun mal besser, als ein Matt in 8. Persönlich liegt mir das praktisch Spiel deutlich näher, als die Durchführung von Teststellungen. Diese sind durchaus unterhaltsam und können Rückschlüsse auf die Stärken und Schwächen der Programme geben, aber "was zählt is' auf'm Platz". Daher würde ich mir während einer Partie nicht die Frage stellen, ob ein Matt in 7 oder 8 nun die bessere Fortsetzung wäre, sondern nur die Frage, ist es ein Matt? Gruß, Micha |
|
|||||||||||
AW: Mögliche fehler im BT-2450-test
(...)
Persönlich liegt mir das praktisch Spiel deutlich näher, als die Durchführung von Teststellungen. Diese sind durchaus unterhaltsam und können Rückschlüsse auf die Stärken und Schwächen der Programme geben, aber "was zählt is' auf'm Platz". Daher würde ich mir während einer Partie nicht die Frage stellen, ob ein Matt in 7 oder 8 nun die bessere Fortsetzung wäre, sondern nur die Frage, ist es ein Matt? (...) ganz eindeutig geben komplette partien und turniere einen realistischeren überblick über die stärke von schachprogrammen als einige mehr oder weniger willkürlich herausgegriffene teststellungen. Allerdings haben die tests historisch gesehen vor 20 und 30 jahren eine ganz andere rolle gespielt als heute. Als die begeisterung für schachcomputer auf ihrem höhepunkt war, waren tausende daran interessiert, die spielstärke ihres geräts irgendwie einzuordnen. Was aber war zu tun, wenn man -wie die überwiegende mehrheit - ein einziges gerät besaß? Das gerät vom vorjahr wurde man damals per zeitungsannonce - nix eBay ![]() Internet und die zugehörigen schachserver waren noch utopie, partien in großer anzahl also nicht herstellbar. Gespannt wartete ich auf jede neue ausgabe der SSDF-liste, weil die auf turnierpartien beruhte. Ab und an traf man sich mit einem bekannten, der ebenfalls stolz sein neues gerät präsentierte, und ließ die kisten zwei, drei partien gegeneinander spielen. Hinterher wusste man "bescheid". ![]() Also kamen teststellungen wie gerufen. Ich besitze einen dicken aktenordner, in dem ich seit 1980 stellungen sammelte und akribisch notierte, wie lange jedes einzelne gerät, das ich jemals in die hände bekam, für die lösungen brauchte. Um so glücklicher war ich, als dann aufgabensammlungen veröffentlicht wurden, die einen gesamtüberblick ermöglichten. Der Bednorz-Tönissen-test wurde in heft CSS 5/1991 veröffentlicht, hatte aber schon etliche vorgänger, wie z.b. den Colditztest (Dirk Frickenschmidt: Schach mit dem Computer, Falken-Verlag 1985) oder den Yazgactest (N.H.Yazgac: Schachcomputer - Was sie wirklich können, Joachim Beyer Verlag 1989) sowie mehrere andere. 75 aufgaben beim Yazgactest haben nicht gestört, man hatte ja praktisch ein jahr lang zeit. ![]() Kontrovers wurde die diskussion über stellungstests eigentlich erst, als immer deutlicher wurde, dass die tests fast nur taktische probleme enthielten. Die lösungen positioneller aufgaben sind aber schwer eindeutig definierbar. Insbesondere in den computerschachforen, die ihren schwerpunkt damals schon auf PC-programmen hatten, wurden jahrelang erbitterte grabenkriege pro und contra stellungstests geführt. Ich vertrete die meinung, dass diese tests eine orientierung geben können, nie aber das gesamte spektrum von spielstärke abdecken können. Wer also freude daran hat, möge sie einsetzen. Wer aber zu viel in das ergebnis hinein interpretiert, der ist auf dem holzweg. Auf diesem holzweg habe ich in den damaligen diskussionen allerdings auch manchen achsbruch erlitten, weil ich manchmal zu testgläubig war. Aber man ist ja lernfähig. Viele grüße Horst Geändert von Wandersleben (19.06.2011 um 14:42 Uhr) Grund: SSDF ergänzt |
|
||||||||||||
AW: Mögliche fehler im BT-2450-test
Hallo Horst,
wenn Du so viele Daten über Lösezeiten besitzt, dann doch sicher auch mit dem BT-Test ermittelte? Falls dem so ist, würde ich Dich bitten, die uns vorliegenden Lösezeiten mal mit deinen abzugleichen (natürlich geht das nur, wenn Du das eine oder andere Gerät davon je besessen hast) und auf Abweichungen hinzuweisen. Ein oder zwei Sekunden sind ja wurscht, aber mir sind schon echt krasse Differenzen untergekommen. Wäre klasse, wenn Du was zur Aussagekräftigkeit der Liste beitragen kannst. Natürlich sind neue (d.h. nicht gelistete) Geräte ebenso willkommen... Gruß, Wilfried |
![]() |
Themen-Optionen | |
Ansicht | |
|
|
![]() |
||||
Thema | Erstellt von | Forum | Antworten | Letzter Beitrag |
Test: BT-2450 Designer 2265 | Robert | Teststellungen und Elo Listen / Test positions and Elo lists | 10 | 08.01.2019 17:03 |
Frage: Mephisto Academy + BT-2450 | Bernd | Teststellungen und Elo Listen / Test positions and Elo lists | 5 | 08.03.2012 21:28 |
Test: BT 2450-Test Saitek D++ 6 MHz | Eckehard Kopp | Teststellungen und Elo Listen / Test positions and Elo lists | 2 | 17.08.2008 15:00 |
Test: BT-2450 Ergebnis für: Mephisto Miami | EberlW | Teststellungen und Elo Listen / Test positions and Elo lists | 9 | 15.02.2006 09:05 |
Test: BT 2450 Novag Obsidian | ChuckW | Teststellungen und Elo Listen / Test positions and Elo lists | 5 | 28.11.2005 20:10 |