Hi Kurt,
bei der FCP Ratingliste ließ ich bis zum Matt spielen. Also, nach jedem Spießroutenlauf die Partien ausgewertet nach:
1. Matt 20-59
2. Matt 60-79
3. Matt 80-99
4. Matt 100-300 (Shredder GUI bricht nach 300 Zügen ab).
Die Stats sind im Download der Ratingliste.
Nun verglichen, die Stats einer alten zu einer neu aufgenommen Version. Festgestellt, dass plötzlich Andscacs bei Matt 80-99 stark und bei Matt 100-300 deutlich zulegte. Programmierer angeschrieben was er geändert hat. Antwort war klar, hatte natürlich bestätigt was ich vermutet hatte.
OK, dachte ich mir ...
Alle Stats brachten die gleichen Ergebnisse zu Tage, auch wenn ich Spießroutenläufe habe wiederholen lassen.
Dann anders ...
Ferdinand kontaktiert, er programmierte Tools für "Figuren auf dem Brett bei Mattstellung".
Dann wieder von vorn:
Partien in die Datenbank gebracht, Elo-Auswertung aus der Datenbank gemacht und Bingo ... Abweichungen von in 95% der Fälle nicht mehr als +-25 Elo.
Prima, dachte ich mir ... Möglichkeit 1 ist nicht schlecht, Möglichkeit 2 ist auch OK aber deutlich zeitaufwendiger. Die Kombination muss her ... kam logischer Weise auch nichts anderes dabei heraus. Kombination aus 1 und 2 wieder mit einer programmiertechnischen Lösung erstellen lassen.
Und schon hatte ich das Ergebnis:
Spielstärke im frühen Mittelspiel, im späten Mittelspiel etc..
Und was war auffällig:
Klar, die Engines wie Spark, Junior ... die Taktiker spielten hatten natürlich sehr gute Ergebnisse bei Matt in wenigen Zügen. Spark dann wieder ... eine Katastrophe im Endspiel ... bei den Endspielstatisiken der TOP-50 ... beständig hinten.
Alles stimmte!
x-mal wiederholt, gab nie ein Problem.
Nur, es geht besser!
Viel besser!!
Aber alles ist enorm zeitaufwendig.
Ich bewertete mit Zügen bis zum Matt oder Figuren auf dem Feld bei Matt.
Einzelbewertungen von gespielten Zügen sind besser (Nick Variante).
Bei Arena hatte ich die Blunder Suche entwickelt die Martin dann programmiertechnisch umsetze.
Ziel war es seinerzeit ... die Fehler in einer Partie aufspühren. Dafür gab es Einstellungen die gewählt werden konnten.
Ich machte in Arena Zeite nichts anderes als die Anzahl der Fehler den Zugnummern zuzuteilen.
Daraus veruschte ich festzustellen, welche Engine spielt die meisten Fehler in den jeweiligen Partiephasen.
Das brauchte ich dringend, weil wir Engines einen Charakter gegeben hatten, also einen Spielstil beschrieben haben.
Irgendwo her mussten die Infos kommen.
Der Zuspruch war enrom, auch auf der Schachwelt (Zeitschrift GM Hickl). Die Spielstilbeschreibungen waren erfolgreicher als ich dachte. Schachspieler, Leser der Zeitschrift haben sich wirklich Engines runtergeladen und ausprobiert, waren begeistert. Engines wo denen die vorher nie etwas gehört hatten.
Hier mal die FCP Ratingliste ... Auszug aus einer Statistik, hier zu Züge bis zum Matt nicht höher als 59!
Code:
FCP Rating List
Each one against each other!
----------------------------
Date : December 20th, 2016 (23:30)
Games : 41.000 / 5.798 = 14.141%
Move Number : 020 - 059
Version : 4.49, final!
Elo average : 2904
Elo range : 479.98
Conditions : http://www.amateurschach.de/main/_conditions.htm
Generated with : Ordo 1.2.6 x64 (Ratings for chess and other games)
Ordo_126-x64.exe -a 2904 -p 59.pgn -o ordo126.txt -b columns.txt -N2 -QEWDV -U "0,1,4,5,7,8,9,3,10,2,11,12,14" -s1000
https://sites.google.com/site/gaviotachessengine/ordo
by Miguel A. Ballicora (Argentina)
# Player : Elo Games Score% won draw lost Points Draw% Error OppAvg OppE OppD
---------------------------------------------------------------------------------------------------------------------------
1 Stockfish 8 BMI2 x64 C15 : 3187.71 272 85.1 191 81 0 231.5 29.8 37.08 2868.95 22.21 35.7
2 Houdini 5 Pro x64 C1 : 3140.95 342 80.6 209 133 0 275.5 38.9 29.04 2878.70 21.76 36.5
3 Komodo 10.2 x64 C15 : 3130.64 286 79.7 170 116 0 228.0 40.6 30.83 2877.61 21.90 34.6
4 Fire 5 POP x64 C15 : 3083.97 182 75.5 97 81 4 137.5 44.5 35.83 2879.58 22.44 35.2
5 Andscacs 0.89 BMI2 x64 C15 : 3039.00 242 70.5 110 121 11 170.5 50.0 27.83 2875.50 22.42 35.4
6 Shredder 13 x64 C15 : 3018.89 286 64.9 94 183 9 185.5 64.0 23.45 2902.02 22.69 36.7
7 Fizbo 1.8 BMI2 x64 : 2989.55 311 61.1 91 198 22 190.0 63.7 20.51 2903.98 22.61 37.6
8 GullChess 3.0 BMI2 x64 : 2982.01 281 60.7 80 181 20 170.5 64.4 21.78 2895.61 22.47 37.1
9 Booot 6.1 POP x64 : 2967.71 355 60.7 87 257 11 215.5 72.4 19.44 2886.71 21.87 36.9
10 Critter 1.6a x64 : 2951.14 298 56.7 62 214 22 169.0 71.8 20.21 2897.04 22.43 37.3
---------------------------------------------------------------------------------------------------------------------------
11 Hakkapeliitta TCEC v2 x64 : 2945.24 242 57.9 66 148 28 140.0 61.2 22.93 2888.40 22.28 36.7
12 Fritz 15 x64 : 2941.96 280 55.2 50 209 21 154.5 74.6 20.66 2899.50 21.88 36.0
13 Texel 1.06 x64 : 2939.22 275 55.8 57 193 25 153.5 70.2 20.95 2900.35 22.57 36.7
14 Equinox 3.30 x64 : 2937.47 266 53.4 41 202 23 142.0 75.9 21.07 2914.44 22.40 37.5
15 Protector 1.9.0 x64 : 2922.91 275 53.1 40 212 23 146.0 77.1 19.77 2900.84 22.05 37.2
16 iCE 3.0 v658 POP x64 : 2917.25 283 51.4 50 191 42 145.5 67.5 19.99 2907.42 22.49 36.9
17 Chiron 3 x64 : 2916.92 309 51.3 35 247 27 158.5 79.9 19.33 2911.84 22.36 37.1
18 Nirvanachess 2.3 POP x64 : 2910.24 336 52.1 37 276 23 175.0 82.1 17.79 2899.06 22.17 36.9
19 Hannibal 1.7 x64 : 2904.83 267 50.4 27 215 25 134.5 80.5 20.24 2904.01 22.04 37.2
20 Naum 4.6 x64 : 2900.71 265 50.4 44 179 42 133.5 67.5 20.69 2898.94 22.54 37.4
---------------------------------------------------------------------------------------------------------------------------
21 Pedone 1.5 BMI2 x64 : 2898.59 231 50.2 33 166 32 116.0 71.9 21.42 2899.95 22.19 37.3
22 Spark 1.0 x64 : 2885.16 255 50.2 37 182 36 128.0 71.4 20.72 2886.52 21.89 36.7
23 Junior 13.3.00 x64 : 2879.68 286 47.4 44 183 59 135.5 64.0 20.79 2906.14 22.66 38.0
24 Rodent II 0.9.64 x64 : 2867.93 265 47.5 27 198 40 126.0 74.7 20.28 2887.60 21.53 35.3
25 Vajolet2 2.2 POP x64 : 2859.96 292 44.7 25 211 56 130.5 72.3 20.25 2907.08 22.34 37.8
26 Wasp 1.25 BMI2 x64 : 2859.94 280 46.4 25 210 45 130.0 75.0 20.40 2891.11 21.95 36.0
27 Arasan 19.1 POP x64 : 2857.07 270 42.8 22 187 61 115.5 69.3 21.13 2914.30 22.23 36.0
28 Cheng 4.39 x64 : 2855.08 269 45.2 34 175 60 121.5 65.1 20.02 2894.56 21.94 36.6
29 Sjeng c't 2010 w32 : 2851.35 292 42.5 23 202 67 124.0 69.2 20.19 2910.62 22.49 38.0
30 Spike 1.4 Leiden w32 : 2849.53 304 42.8 23 214 67 130.0 70.4 20.28 2904.54 22.22 37.8
---------------------------------------------------------------------------------------------------------------------------
31 Hiarcs 14 WCSC w32 : 2847.86 323 42.7 39 198 86 138.0 61.3 18.55 2907.00 22.49 36.8
32 Daydreamer 2.0.0 pre2 GNU x64 : 2816.71 355 37.5 11 244 100 133.0 68.7 18.32 2916.83 22.82 37.9
33 Senpai 1.0 SSE42 x64 : 2815.62 330 36.7 17 208 105 121.0 63.0 19.66 2920.30 22.69 36.4
34 Quazar 0.4 x64 : 2812.94 204 36.0 14 119 71 73.5 58.3 25.78 2923.56 23.00 35.7
35 Deuterium 14.3.34.130 POP x64 : 2811.38 342 37.7 21 216 105 129.0 63.2 19.85 2909.63 22.58 38.6
36 Zappa Mexico II x64 : 2790.45 273 33.7 16 152 105 92.0 55.7 22.97 2923.18 22.67 36.4
37 Crafty 25.2 x64 : 2779.25 322 33.1 28 157 137 106.5 48.8 20.53 2917.72 22.94 38.3
38 Nemorino 1.02 POP x64 : 2773.42 256 31.4 11 139 106 80.5 54.3 25.09 2921.67 22.36 35.9
39 Bobcat 7.6 x64 : 2764.56 315 29.5 6 174 135 93.0 55.2 23.10 2928.25 22.29 35.3
40 SmarThink 1.96 SSE4 x64 : 2751.48 261 26.4 7 124 130 69.0 47.5 27.76 2939.55 22.87 35.5
---------------------------------------------------------------------------------------------------------------------------
41 DiscoCheck 5.2.1 x64 : 2707.73 218 22.5 19 60 139 49.0 27.5 33.20 2942.72 23.20 33.1
---------------------------------------------------------------------------------------------------------------------------
White advantage = 38.43 +/- 2.54
Draw rate (equal opponents) = 83.60 % +/- 0.85
Games : 5798 (finished)
White Wins : 1383 (23.9 %)
Black Wins : 737 (12.7 %)
Draws : 3678 (63.4 %)
Unfinished : 0
White Score : 55.6 %
Black Score : 44.4 %
Mittelspielrangliste ...
Wie ich die wirklich x-fach nach jedem neuen Spießroutenlauf zu allen Partiephasen generierte.
Nun schaue mal wo Spark steht ... im Mittelspiel zunächst mal 130 Elo über das tatsächliche Level.
Stärke, prima! Stärke gefunden!!
Aber ... nur eine Stärke gefunden, nur eine einzige die aber ein Abbild auf die komplette Stärke wiederspiegeln "könnte".
Wer viel für sich sieht, sieht auch viel gegen sich.
Sprich, wenn ich viele Partien schnell gewinnen, werde ich viele Partien auch nicht schnell verlieren.
Und so konnte dann aus den vier Ratinglisten zu den vier Partiephasen sehr vieles abgelesen werden.
Das sind Versuche eines Einzelnen die zufriedenstellend aber nicht ausreichend sind.
Geht nicht gibt es nicht.
Es geht alles, man mus nur wollen!!
Aber das müssen mehrere Leute entwickeln. Wenige übersehen, einzelne erst Recht.
Und das war nur ein Ansatzpunkt von x guten Ansatzpunkten.
Gibt noch viel mehr solcher Ideen aber ich muss immer aufpassen es nicht explodieren zu lassen.
Nochmal zu Nick: Züge auswerten ist genial (was kritisch ist kann leicht gefiltert werden).
Gruß
Frank