PG Turnaj 2018 - testy a nastavení
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
Jaké FFT se teď používá na PPS LLR?
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
-
- 42.1052631579 %
- Příspěvky: 830
- Registrován: ned 02 pro, 2007 14:34
- rok narození: 12 čer 1981
- ID CNT statistics: 9215
- Bydliště: Přelouč
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
192k
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG:
PG:
Re: Challenge Series - turnaj na Primegridu 2018
Tož ze zvědavosti jsem projel Prime95, poslední v29.4b7 na i7 8700K, bez HT.
Pak jsem si zkusil to, čemu věřím více, tedy skutečnou LLR aplikaci, kterou se na PG počítá a skutečný test.
A výsledek pro srovnání. První sloupec výsledky z Prime95 (čím víc jader, tím lepší), druhý sloupec čas na jeden timestep a třetí sloupec vypočtený čas celého testu ve vteřinách podle počtu timestepů u zvoleného testu (1071*2^2609316+1, což je poslední prvočíslo v rámci PPS z minulého týdne).
Tedy podle Prime95 vychází 6 jader o nějakých 9 procent rychleji než 5, ale podle "skutečného" testu vychází 5 vs 6 jader relativně na stejno, spíše o procento pomaleji. Beru, že 1% je chyba měření a vliv ostatních procesů, ale 10% už je dost.
S ohledem na to, že chci mít jedno jádro volné na GPU a jiné věci, byla pro mě volba 5 jader jasná i před testy, ale i tak.
Any comments?
Kód: Vybrat vše
[Aug 7 12:37] Timing 192K FFT, 6 cores, 1 worker. Average times: 0.17 ms. Total throughput: 5756.72 iter/sec.
[Aug 7 12:37] Timing 192K FFT, 6 cores, 2 workers. Average times: 0.26, 0.27 ms. Total throughput: 7545.30 iter/sec.
[Aug 7 12:38] Timing 192K FFT, 6 cores, 3 workers. Average times: 0.37, 0.38, 0.37 ms. Total throughput: 8003.77 iter/sec.
[Aug 7 12:38] Timing 192K FFT, 6 cores, 4 workers. Average times: 0.52, 0.51, 0.37, 0.36 ms. Total throughput: 9385.53 iter/sec.
[Aug 7 12:38] Timing 192K FFT, 6 cores, 5 workers. Average times: 0.53, 0.51, 0.51, 0.53, 0.35 ms. Total throughput: 10555.91 iter/sec.
[Aug 7 12:38] Timing 192K FFT, 6 cores, 6 workers. Average times: 0.53, 0.51, 0.51, 0.54, 0.52, 0.52 ms. Total throughput: 11514.46 iter/sec.
A výsledek pro srovnání. První sloupec výsledky z Prime95 (čím víc jader, tím lepší), druhý sloupec čas na jeden timestep a třetí sloupec vypočtený čas celého testu ve vteřinách podle počtu timestepů u zvoleného testu (1071*2^2609316+1, což je poslední prvočíslo v rámci PPS z minulého týdne).
Tedy podle Prime95 vychází 6 jader o nějakých 9 procent rychleji než 5, ale podle "skutečného" testu vychází 5 vs 6 jader relativně na stejno, spíše o procento pomaleji. Beru, že 1% je chyba měření a vliv ostatních procesů, ale 10% už je dost.
S ohledem na to, že chci mít jedno jádro volné na GPU a jiné věci, byla pro mě volba 5 jader jasná i před testy, ale i tak.
Any comments?
Kód: Vybrat vše
Prime95 LLR 192K 2609326 timesteps
threads Iter/s time per 2609,326
bit ms
1 5756 0,514 1 341
2 7545 0,337 879
3 8003 0,222 579
4 9385 0,180 470
5 10556 0,158 412
6 11514 0,160 417
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
A teď ještě totéž s HT a budou to zajímavá data pro porovnání.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
-
- 42.1052631579 %
- Příspěvky: 830
- Registrován: ned 02 pro, 2007 14:34
- rok narození: 12 čer 1981
- ID CNT statistics: 9215
- Bydliště: Přelouč
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
cokoli nad 2 jádra na jednotku je plýtvání efektivitou, i o těch 2 by se tu dalo polemizovat.
prvočísla jsou stejně malá, takže já pojedu vše na -t1 bez HT pro nejvyšší změřený celkový výkon
prvočísla jsou stejně malá, takže já pojedu vše na -t1 bez HT pro nejvyšší změřený celkový výkon
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG:
PG:
Re: Challenge Series - turnaj na Primegridu 2018
HT nebo neHT je pro mě nepodstatné, resp. jedu neHT a měnit to nehodlám (zvláště u virtualizovaných strojů, abych je vypínal a šel k nim fyzicky něco měnit v BIOSu).
Jde mi o rozdíl měření Prime95 vs reálný test reálnou LLR aplikací.
Z jednoho vychází doporučení použít plný počet jader, z druhého nechat jedno volné - pokud chci získat nejrychlejší výpočet.
A mi přijde podstatné či alespoň zajímavé...
EDIT: Možná jsem si odpověděl - LLR jsem jel vždy jen jednu instanci.
Když to zkusím napravit...
1-thread, počet instancí a zhruba rychlost:
1 0,522
2 0,527
3 0,537
4 0,540
5 0,551
6 0,570
2-thread, počet instancí a zhruba rychlost:
1 0,335
2 0,340
3 0,360
3-thread, počet instancí a zhruba rychlost:
1 0,225
2 0,260
Zkusím to přepočítat, tak 6x1t je rychlost 0,095, 5x1t je 0,11, 3x2t je 0,120 a 2x3t 0,13.
V celkové průchodnosti 6x1 thread jasně vychrává.
Jde mi o rozdíl měření Prime95 vs reálný test reálnou LLR aplikací.
Z jednoho vychází doporučení použít plný počet jader, z druhého nechat jedno volné - pokud chci získat nejrychlejší výpočet.
A mi přijde podstatné či alespoň zajímavé...
EDIT: Možná jsem si odpověděl - LLR jsem jel vždy jen jednu instanci.
Když to zkusím napravit...
1-thread, počet instancí a zhruba rychlost:
1 0,522
2 0,527
3 0,537
4 0,540
5 0,551
6 0,570
2-thread, počet instancí a zhruba rychlost:
1 0,335
2 0,340
3 0,360
3-thread, počet instancí a zhruba rychlost:
1 0,225
2 0,260
Zkusím to přepočítat, tak 6x1t je rychlost 0,095, 5x1t je 0,11, 3x2t je 0,120 a 2x3t 0,13.
V celkové průchodnosti 6x1 thread jasně vychrává.
Re: Challenge Series - turnaj na Primegridu 2018
Tak jsem si vyzkoušel "plnou" variantu testu v Prime95
Snažím se číst výsledky podle forestova návodu, ale myslím, že to není zcela jasné.
Snažím se číst výsledky podle forestova návodu, ale myslím, že to není zcela jasné.
To tučné znamená zapojit všechna jádra na výpočet jedné jednotky nebo všechna jádra a každé počítá jednu jednotku?Když pracují 4 jádra na jedné jednotce (první řádek), je "Throughput" (tedy počet operací za sekundu) nejvyšíí. Následují testy na dvou jednotkách, třech a poslední je test práce čtyř jader, každé na jedné jednotce. Hodnota "Throughput" je vždy celková za celý počet zapojených výpočetních vláken. Tedy v tomto případě 4. Nejlepší je tedy zapojit všechna vlákna do výpočtu jedné jednotky. Jak si nastavit app_config pro tuto verzi jsem odkazoval níže.
A tady jak?[Aug 7 16:53] Benchmarking multiple workers to measure the impact of memory bandwidth
[Aug 7 16:53] Timing 192K FFT, 1 core, 1 worker. Average times: 0.51 ms. Total throughput: 1954.71 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 2 cores, 1 worker. Average times: 0.34 ms. Total throughput: 2927.28 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 2 cores, 2 workers. Average times: 0.51, 0.50 ms. Total throughput: 3968.28 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 3 cores, 1 worker. Average times: 0.24 ms. Total throughput: 4125.39 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 3 cores, 2 workers. Average times: 0.51, 0.34 ms. Total throughput: 4883.59 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 3 cores, 3 workers. Average times: 0.52, 0.51, 0.51 ms. Total throughput: 5888.70 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 4 cores, 1 worker. Average times: 0.27 ms. Total throughput: 3652.38 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 4 cores, 2 workers. Average times: 0.67, 0.77 ms. Total throughput: 2789.35 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 4 cores, 3 workers. Average times: 3.62, 0.80, 2.66 ms. Total throughput: 1903.96 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 4 cores, 4 workers. Average times: 9.66, 1.15, 0.54, 38.61 ms. Total throughput: 2843.10 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 5 cores, 1 worker. Average times: 2.24 ms. Total throughput: 447.36 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 5 cores, 2 workers. Average times: 1.99, 2.00 ms. Total throughput: 1002.49 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 5 cores, 3 workers. Average times: 8.59, 1.15, 4.62 ms. Total throughput: 1199.77 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 5 cores, 4 workers. Average times: 19.07, 7.89, 0.53, 28.07 ms. Total throughput: 2092.30 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 5 cores, 5 workers. Average times: 10.54, 7.72, 0.57, 40.24, 39.04 ms. Total throughput: 2029.01 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 6 cores, 1 worker. Average times: 2.67 ms. Total throughput: 374.32 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 6 cores, 2 workers. Average times: 2.14, 2.34 ms. Total throughput: 895.62 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 6 cores, 3 workers. Average times: 4.20, 3.50, 1.58 ms. Total throughput: 1157.05 iter/sec.
[Aug 7 16:56] Timing 192K FFT, 6 cores, 4 workers. Average times: 21.73, 1.64, 4.37, 1.93 ms. Total throughput: 1401.60 iter/sec.
[Aug 7 16:56] Timing 192K FFT, 6 cores, 5 workers. Average times: 21.02, 16.52, 0.53, 68.86, 21.78 ms. Total throughput: 2052.97 iter/sec.
[Aug 7 16:56] Timing 192K FFT, 6 cores, 6 workers. Average times: 2.16, 2.11, 0.53, 2.40, 2.21, 1.47 ms. Total throughput: 4368.11 iter/sec.
-
- 42.1052631579 %
- Příspěvky: 830
- Registrován: ned 02 pro, 2007 14:34
- rok narození: 12 čer 1981
- ID CNT statistics: 9215
- Bydliště: Přelouč
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
máš strašně rozlítané časy iterací jednotlivých workerů v rámci testu. viz:
[Aug 7 16:55] Timing 192K FFT, 5 cores, 5 workers. Average times: 10.54, 7.72, 0.57, 40.24, 39.04 ms. Total throughput: 2029.01 iter/sec
neběželo ti něco na pozadí. doporučuji přetestovat. paměť máš jakou?
jinak tohle znamená 3 jednotky, každá na svém 1 jádru.
jinak jak jsem čekal tak u mě nejlépe vychází 12 jader po 1 jednotce každé. vychází to stejně jak v reálném benchmarku na PG, tak v Prime95
všimni si jednotlivých iterací, jak jsou jedna jako druhá
paralelních 12WU po 1 jádru je téměř 12x rychlejší než samotná 1WU na 1 jádru, což značí že v tomto případě nejsem téměř limitovám (pamětí, cache atd..)
[Aug 7 16:55] Timing 192K FFT, 5 cores, 5 workers. Average times: 10.54, 7.72, 0.57, 40.24, 39.04 ms. Total throughput: 2029.01 iter/sec
neběželo ti něco na pozadí. doporučuji přetestovat. paměť máš jakou?
jinak tohle znamená 3 jednotky, každá na svém 1 jádru.
to že ti paralelní 3 jednotky každá na svém jádru vychází lépe než 6 jednotek po 1 jádru značí asi nějaký limit - paměti/cache?
jinak jak jsem čekal tak u mě nejlépe vychází 12 jader po 1 jednotce každé. vychází to stejně jak v reálném benchmarku na PG, tak v Prime95
všimni si jednotlivých iterací, jak jsou jedna jako druhá

paralelních 12WU po 1 jádru je téměř 12x rychlejší než samotná 1WU na 1 jádru, což značí že v tomto případě nejsem téměř limitovám (pamětí, cache atd..)
Kód: Vybrat vše
Prime95 64-bit version 29.4, RdtscTiming=1
Timings for 192K FFT length (1 core, 1 worker): 0.63 ms. Throughput: 1582.00 iter/sec.
Timings for 192K FFT length (2 cores, 1 worker): 0.56 ms. Throughput: 1773.05 iter/sec.
Timings for 192K FFT length (2 cores, 2 workers): 0.63, 0.63 ms. Throughput: 3169.20 iter/sec.
Timings for 192K FFT length (3 cores, 1 worker): 0.41 ms. Throughput: 2435.51 iter/sec.
Timings for 192K FFT length (3 cores, 2 workers): 0.63, 0.55 ms. Throughput: 3390.71 iter/sec.
Timings for 192K FFT length (3 cores, 3 workers): 0.63, 0.63, 0.63 ms. Throughput: 4743.07 iter/sec.
Timings for 192K FFT length (4 cores, 1 worker): 0.34 ms. Throughput: 2956.91 iter/sec.
Timings for 192K FFT length (4 cores, 2 workers): 0.57, 0.55 ms. Throughput: 3582.92 iter/sec.
Timings for 192K FFT length (4 cores, 3 workers): 0.63, 0.63, 0.55 ms. Throughput: 4979.11 iter/sec.
Timings for 192K FFT length (4 cores, 4 workers): 0.63, 0.63, 0.63, 0.63 ms. Throughput: 6343.85 iter/sec.
Timings for 192K FFT length (5 cores, 1 worker): 0.30 ms. Throughput: 3310.99 iter/sec.
Timings for 192K FFT length (5 cores, 2 workers): 0.57, 0.41 ms. Throughput: 4223.31 iter/sec.
Timings for 192K FFT length (5 cores, 3 workers): 0.63, 0.56, 0.56 ms. Throughput: 5168.28 iter/sec.
Timings for 192K FFT length (5 cores, 4 workers): 0.63, 0.63, 0.63, 0.56 ms. Throughput: 6555.05 iter/sec.
Timings for 192K FFT length (5 cores, 5 workers): 0.63, 0.63, 0.63, 0.63, 0.63 ms. Throughput: 7920.47 iter/sec.
Timings for 192K FFT length (6 cores, 1 worker): 0.28 ms. Throughput: 3614.61 iter/sec.
Timings for 192K FFT length (6 cores, 2 workers): 0.41, 0.41 ms. Throughput: 4876.81 iter/sec.
Timings for 192K FFT length (6 cores, 3 workers): 0.57, 0.55, 0.56 ms. Throughput: 5355.23 iter/sec.
Timings for 192K FFT length (6 cores, 4 workers): 0.63, 0.63, 0.56, 0.56 ms. Throughput: 6761.58 iter/sec.
Timings for 192K FFT length (6 cores, 5 workers): 0.63, 0.63, 0.63, 0.63, 0.56 ms. Throughput: 8132.08 iter/sec.
Timings for 192K FFT length (6 cores, 6 workers): 0.63, 0.63, 0.63, 0.63, 0.63, 0.63 ms. Throughput: 9510.78 iter/sec.
Timings for 192K FFT length (7 cores, 1 worker): 0.21 ms. Throughput: 4757.80 iter/sec.
Timings for 192K FFT length (7 cores, 2 workers): 0.42, 0.34 ms. Throughput: 5377.15 iter/sec.
Timings for 192K FFT length (7 cores, 3 workers): 0.56, 0.55, 0.40 ms. Throughput: 6054.22 iter/sec.
Timings for 192K FFT length (7 cores, 4 workers): 0.63, 0.56, 0.56, 0.56 ms. Throughput: 6945.38 iter/sec.
Timings for 192K FFT length (7 cores, 5 workers): 0.64, 0.65, 0.64, 0.57, 0.57 ms. Throughput: 8177.12 iter/sec.
Timings for 192K FFT length (7 cores, 6 workers): 0.63, 0.63, 0.63, 0.63, 0.63, 0.56 ms. Throughput: 9706.17 iter/sec.
Timings for 192K FFT length (7 cores, 7 workers): 0.63, 0.64, 0.64, 0.63, 0.63, 0.63, 0.63 ms. Throughput: 11040.29 iter/sec.
Timings for 192K FFT length (8 cores, 1 worker): 0.20 ms. Throughput: 4914.99 iter/sec.
Timings for 192K FFT length (8 cores, 2 workers): 0.34, 0.34 ms. Throughput: 5847.31 iter/sec.
Timings for 192K FFT length (8 cores, 3 workers): 0.58, 0.40, 0.41 ms. Throughput: 6642.47 iter/sec.
Timings for 192K FFT length (8 cores, 4 workers): 0.57, 0.56, 0.56, 0.56 ms. Throughput: 7128.04 iter/sec.
Timings for 192K FFT length (8 cores, 5 workers): 0.63, 0.63, 0.56, 0.55, 0.56 ms. Throughput: 8542.16 iter/sec.
Timings for 192K FFT length (8 cores, 6 workers): 0.63, 0.64, 0.63, 0.63, 0.56, 0.56 ms. Throughput: 9894.42 iter/sec.
Timings for 192K FFT length (8 cores, 7 workers): 0.63, 0.64, 0.63, 0.63, 0.63, 0.63, 0.56 ms. Throughput: 11271.74 iter/sec.
Timings for 192K FFT length (8 cores, 8 workers): 0.64, 0.64, 0.64, 0.63, 0.63, 0.63, 0.63, 0.63 ms. Throughput: 12611.09 iter/sec.
Timings for 192K FFT length (9 cores, 1 worker): 0.20 ms. Throughput: 5005.43 iter/sec.
Timings for 192K FFT length (9 cores, 2 workers): 0.34, 0.30 ms. Throughput: 6256.28 iter/sec.
Timings for 192K FFT length (9 cores, 3 workers): 0.41, 0.41, 0.41 ms. Throughput: 7307.78 iter/sec.
Timings for 192K FFT length (9 cores, 4 workers): 0.57, 0.55, 0.56, 0.41 ms. Throughput: 7783.73 iter/sec.
Timings for 192K FFT length (9 cores, 5 workers): 0.64, 0.57, 0.56, 0.56, 0.57 ms. Throughput: 8671.88 iter/sec.
Timings for 192K FFT length (9 cores, 6 workers): 0.64, 0.64, 0.63, 0.56, 0.56, 0.57 ms. Throughput: 10028.90 iter/sec.
Timings for 192K FFT length (9 cores, 7 workers): 0.64, 0.64, 0.64, 0.63, 0.63, 0.56, 0.56 ms. Throughput: 11435.84 iter/sec.
Timings for 192K FFT length (9 cores, 8 workers): 0.64, 0.64, 0.64, 0.63, 0.63, 0.64, 0.63, 0.56 ms. Throughput: 12783.40 iter/sec.
Timings for 192K FFT length (9 cores, 9 workers): 0.64, 0.64, 0.64, 0.63, 0.63, 0.63, 0.63, 0.63, 0.64 ms. Throughput: 14178.62 iter/sec.
Timings for 192K FFT length (10 cores, 1 worker): 0.20 ms. Throughput: 5016.34 iter/sec.
Timings for 192K FFT length (10 cores, 2 workers): 0.31, 0.30 ms. Throughput: 6548.96 iter/sec.
Timings for 192K FFT length (10 cores, 3 workers): 0.42, 0.41, 0.34 ms. Throughput: 7763.40 iter/sec.
Timings for 192K FFT length (10 cores, 4 workers): 0.57, 0.56, 0.41, 0.42 ms. Throughput: 8397.37 iter/sec.
Timings for 192K FFT length (10 cores, 5 workers): 0.57, 0.56, 0.57, 0.56, 0.56 ms. Throughput: 8856.60 iter/sec.
Timings for 192K FFT length (10 cores, 6 workers): 0.64, 0.64, 0.56, 0.56, 0.56, 0.56 ms. Throughput: 10281.85 iter/sec.
Timings for 192K FFT length (10 cores, 7 workers): 0.64, 0.64, 0.64, 0.64, 0.56, 0.56, 0.56 ms. Throughput: 11627.79 iter/sec.
Timings for 192K FFT length (10 cores, 8 workers): 0.64, 0.64, 0.64, 0.64, 0.63, 0.63, 0.56, 0.57 ms. Throughput: 12945.52 iter/sec.
Timings for 192K FFT length (10 cores, 9 workers): 0.64, 0.65, 0.64, 0.64, 0.63, 0.63, 0.63, 0.63, 0.56 ms. Throughput: 14347.43 iter/sec.
Timings for 192K FFT length (10 cores, 10 workers): 0.64, 0.65, 0.65, 0.64, 0.63, 0.64, 0.63, 0.63, 0.64, 0.63 ms. Throughput: 15665.54 iter/sec.
Timings for 192K FFT length (11 cores, 1 worker): 0.21 ms. Throughput: 4767.22 iter/sec.
Timings for 192K FFT length (11 cores, 2 workers): 0.31, 0.28 ms. Throughput: 6878.97 iter/sec.
Timings for 192K FFT length (11 cores, 3 workers): 0.42, 0.34, 0.34 ms. Throughput: 8273.35 iter/sec.
Timings for 192K FFT length (11 cores, 4 workers): 0.58, 0.41, 0.42, 0.41 ms. Throughput: 8964.97 iter/sec.
[Tue Aug 07 18:09:31 2018]
Timings for 192K FFT length (11 cores, 5 workers): 0.58, 0.57, 0.57, 0.57, 0.42 ms. Throughput: 9418.36 iter/sec.
Timings for 192K FFT length (11 cores, 6 workers): 0.64, 0.57, 0.57, 0.57, 0.56, 0.56 ms. Throughput: 10379.32 iter/sec.
Timings for 192K FFT length (11 cores, 7 workers): 0.65, 0.65, 0.64, 0.57, 0.57, 0.57, 0.56 ms. Throughput: 11692.70 iter/sec.
Timings for 192K FFT length (11 cores, 8 workers): 0.65, 0.65, 0.65, 0.64, 0.64, 0.56, 0.56, 0.56 ms. Throughput: 13101.63 iter/sec.
Timings for 192K FFT length (11 cores, 9 workers): 0.65, 0.65, 0.65, 0.64, 0.64, 0.64, 0.64, 0.58, 0.56 ms. Throughput: 14387.94 iter/sec.
Timings for 192K FFT length (11 cores, 10 workers): 0.65, 0.65, 0.64, 0.64, 0.64, 0.64, 0.64, 0.63, 0.64, 0.56 ms. Throughput: 15811.11 iter/sec.
Timings for 192K FFT length (11 cores, 11 workers): 0.65, 0.66, 0.65, 0.64, 0.64, 0.64, 0.64, 0.63, 0.64, 0.64, 0.63 ms. Throughput: 17114.71 iter/sec.
Timings for 192K FFT length (12 cores, 1 worker): 0.21 ms. Throughput: 4722.48 iter/sec.
Timings for 192K FFT length (12 cores, 2 workers): 0.31, 0.28 ms. Throughput: 6776.01 iter/sec.
Timings for 192K FFT length (12 cores, 3 workers): 0.35, 0.34, 0.35 ms. Throughput: 8599.07 iter/sec.
Timings for 192K FFT length (12 cores, 4 workers): 0.43, 0.42, 0.42, 0.42 ms. Throughput: 9502.19 iter/sec.
Timings for 192K FFT length (12 cores, 5 workers): 0.58, 0.57, 0.57, 0.42, 0.43 ms. Throughput: 9925.72 iter/sec.
Timings for 192K FFT length (12 cores, 6 workers): 0.61, 0.59, 0.60, 0.61, 0.59, 0.62 ms. Throughput: 9981.83 iter/sec.
Timings for 192K FFT length (12 cores, 7 workers): 0.64, 0.67, 0.57, 0.57, 0.57, 0.56, 0.60 ms. Throughput: 11749.77 iter/sec.
Timings for 192K FFT length (12 cores, 8 workers): 0.65, 0.66, 0.66, 0.65, 0.57, 0.57, 0.58, 0.58 ms. Throughput: 13072.99 iter/sec.
Timings for 192K FFT length (12 cores, 9 workers): 0.65, 0.66, 0.66, 0.65, 0.65, 0.65, 0.57, 0.57, 0.60 ms. Throughput: 14332.14 iter/sec.
Timings for 192K FFT length (12 cores, 10 workers): 0.65, 0.67, 0.66, 0.65, 0.65, 0.65, 0.64, 0.63, 0.57, 0.59 ms. Throughput: 15741.53 iter/sec.
Timings for 192K FFT length (12 cores, 11 workers): 0.66, 0.67, 0.67, 0.65, 0.65, 0.66, 0.64, 0.64, 0.66, 0.65, 0.59 ms. Throughput: 16985.41 iter/sec.
Timings for 192K FFT length (12 cores, 12 workers): 0.66, 0.67, 0.68, 0.66, 0.65, 0.66, 0.65, 0.64, 0.67, 0.65, 0.65, 0.66 ms. Throughput: 18191.68 iter/sec.
Naposledy upravil(a) LookAS dne úte 07 srp, 2018 18:29, celkem upraveno 1 x.
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG:
PG:
- forest
- Admin webu a fóra CNT
- Příspěvky: 19564
- Registrován: pát 27 říj, 2006 10:19
- rok narození: 03 bře 1977
- ID CNT statistics: 71
- Bydliště: Újezd u Brna
Re: Challenge Series - turnaj na Primegridu 2018
Podle uvedených výsledků z Prime95 by vycházelo nejlépe zapojit každé jádro (bez HT) do jedné jednotky. Mně to ale s HT na stejném CPU vychází úplně jinak. Ještě to tedy jednou pořádně otestuji.
-
- 42.1052631579 %
- Příspěvky: 830
- Registrován: ned 02 pro, 2007 14:34
- rok narození: 12 čer 1981
- ID CNT statistics: 9215
- Bydliště: Přelouč
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
rychlý test s HT, u těchto malých FFT je to u mě neefektivní.
Kód: Vybrat vše
Timings for 192K FFT length (1 core, 1 worker): 0.63 ms. Throughput: 1586.07 iter/sec.
Timings for 192K FFT length (1 core hyperthreaded, 1 worker): 0.66 ms. Throughput: 1512.24 iter/sec.
Timings for 192K FFT length (12 cores, 1 worker): 0.21 ms. Throughput: 4753.03 iter/sec.
Timings for 192K FFT length (12 cores, 12 workers): 0.65, 0.66, 0.67, 0.65, 0.65, 0.65, 0.65, 0.64, 0.65, 0.64, 0.64, 0.67 ms. Throughput: 18346.07 iter/sec.
Timings for 192K FFT length (12 cores hyperthreaded, 1 worker): 0.64 ms. Throughput: 1565.67 iter/sec.
Timings for 192K FFT length (12 cores hyperthreaded, 12 workers): 0.72, 0.68, 0.69, 0.66, 0.70, 0.67, 0.69, 0.66, 0.68, 0.67, 0.70, 0.69 ms. Throughput: 17573.03 iter/sec.
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG:
PG:
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
U mě taky. Posílám jen to co má smysl:
Timings for 192K FFT length (44 cores, 40 workers): 1.05, 1.04, 1.03, 1.03, 1.03, 1.03, 1.03, 1.03, 1.02, 1.03, 1.03, 1.03, 1.03, 1.03, 1.03, 1.04, 1.03, 1.03, 0.78, 0.80, 1.06, 1.08, 1.06, 1.08, 1.05, 1.06, 1.05, 1.06, 1.06, 1.05, 1.06, 1.05, 1.05, 1.05, 1.06, 1.06, 1.06, 1.06, 0.82, 0.84 ms. Throughput: 39366.10 iter/sec.
Timings for 192K FFT length (44 cores, 41 workers): 1.10, 1.07, 1.07, 1.06, 1.06, 1.06, 1.07, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 0.83, 1.08, 1.10, 1.08, 1.09, 1.07, 1.07, 1.08, 1.08, 1.08, 1.08, 1.08, 1.07, 1.09, 1.07, 1.10, 1.08, 1.08, 1.07, 0.81, 0.85 ms. Throughput: 39073.46 iter/sec.
Timings for 192K FFT length (44 cores, 42 workers): 1.09, 1.07, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.07, 1.07, 1.07, 1.07, 1.06, 0.84, 1.09, 1.10, 1.10, 1.10, 1.09, 1.09, 1.09, 1.09, 1.09, 1.09, 1.09, 1.13, 1.09, 1.08, 1.09, 1.09, 1.09, 1.08, 1.08, 1.08, 0.85 ms. Throughput: 39494.03 iter/sec.
Timings for 192K FFT length (44 cores, 43 workers): 1.10, 1.09, 1.07, 1.07, 1.07, 1.07, 1.07, 1.08, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.08, 1.07, 1.09, 1.10, 1.09, 1.11, 1.08, 1.08, 1.09, 1.08, 1.08, 1.08, 1.09, 1.08, 1.08, 1.08, 1.09, 1.09, 1.10, 1.08, 1.08, 1.08, 0.86 ms. Throughput: 40057.76 iter/sec.
Timings for 192K FFT length (44 cores, 44 workers): 1.11, 1.08, 1.08, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.09, 1.07, 1.07, 1.08, 1.08, 1.08, 1.07, 1.07, 1.07, 1.08, 1.11, 1.12, 1.10, 1.11, 1.09, 1.09, 1.10, 1.09, 1.09, 1.09, 1.09, 1.13, 1.09, 1.09, 1.09, 1.10, 1.09, 1.09, 1.09, 1.09, 1.10, 1.10 ms. Throughput: 40513.68 iter/sec.
Jak to vychází na Czech Humanově kalkulačce a jak na Bivojovi? Posílejte jenom to co má smysl, u moc jádrových strojů je ten výpis dlouhý jak týden před výplatou.
Jinak toto je testováno bez HT ale s HT zapnutým v BIOSu, nemůžu kvůli výpočtům PC teď restartovat, ale zásadní rozdíl nečekám.
Timings for 192K FFT length (44 cores, 40 workers): 1.05, 1.04, 1.03, 1.03, 1.03, 1.03, 1.03, 1.03, 1.02, 1.03, 1.03, 1.03, 1.03, 1.03, 1.03, 1.04, 1.03, 1.03, 0.78, 0.80, 1.06, 1.08, 1.06, 1.08, 1.05, 1.06, 1.05, 1.06, 1.06, 1.05, 1.06, 1.05, 1.05, 1.05, 1.06, 1.06, 1.06, 1.06, 0.82, 0.84 ms. Throughput: 39366.10 iter/sec.
Timings for 192K FFT length (44 cores, 41 workers): 1.10, 1.07, 1.07, 1.06, 1.06, 1.06, 1.07, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 0.83, 1.08, 1.10, 1.08, 1.09, 1.07, 1.07, 1.08, 1.08, 1.08, 1.08, 1.08, 1.07, 1.09, 1.07, 1.10, 1.08, 1.08, 1.07, 0.81, 0.85 ms. Throughput: 39073.46 iter/sec.
Timings for 192K FFT length (44 cores, 42 workers): 1.09, 1.07, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.07, 1.07, 1.07, 1.07, 1.06, 0.84, 1.09, 1.10, 1.10, 1.10, 1.09, 1.09, 1.09, 1.09, 1.09, 1.09, 1.09, 1.13, 1.09, 1.08, 1.09, 1.09, 1.09, 1.08, 1.08, 1.08, 0.85 ms. Throughput: 39494.03 iter/sec.
Timings for 192K FFT length (44 cores, 43 workers): 1.10, 1.09, 1.07, 1.07, 1.07, 1.07, 1.07, 1.08, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.08, 1.07, 1.09, 1.10, 1.09, 1.11, 1.08, 1.08, 1.09, 1.08, 1.08, 1.08, 1.09, 1.08, 1.08, 1.08, 1.09, 1.09, 1.10, 1.08, 1.08, 1.08, 0.86 ms. Throughput: 40057.76 iter/sec.
Timings for 192K FFT length (44 cores, 44 workers): 1.11, 1.08, 1.08, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.09, 1.07, 1.07, 1.08, 1.08, 1.08, 1.07, 1.07, 1.07, 1.08, 1.11, 1.12, 1.10, 1.11, 1.09, 1.09, 1.10, 1.09, 1.09, 1.09, 1.09, 1.13, 1.09, 1.09, 1.09, 1.10, 1.09, 1.09, 1.09, 1.09, 1.10, 1.10 ms. Throughput: 40513.68 iter/sec.
Jak to vychází na Czech Humanově kalkulačce a jak na Bivojovi? Posílejte jenom to co má smysl, u moc jádrových strojů je ten výpis dlouhý jak týden před výplatou.
Jinak toto je testováno bez HT ale s HT zapnutým v BIOSu, nemůžu kvůli výpočtům PC teď restartovat, ale zásadní rozdíl nečekám.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
- Czech Human
- 52.6315789474 %
- Příspěvky: 1372
- Registrován: sob 30 bře, 2013 14:16
- rok narození: 0- 0-1981
- ID CNT statistics: 19867
- Bydliště: Praha
Re: Challenge Series - turnaj na Primegridu 2018
Jak to vychází nevím, protože se ke své kalkulačce nemůžu vzdáleně připojit a mám ji teď dost z ruky 

Vzhůru pro body na linuxu
.
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz


Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
Tak jsem se dokopal, HT v BIOSU vypnul a hádejte co se stalo, i při stejném nastavení, tj. nevyužití HT threadů, jenom 44c/44W jsou ty výsledky HORŚÍ. To mě poser stehno Blaženo ...
Max výsledek je:
Throughput: 38998.60 iter/sec
Ať mi někdo vysvětlí proč, když HT zapnu ale nevyužiju, jsou výsledky lepší než když HT v BOISu vypnu. To nedává smysl ... Na PC se v tu dobu nedělo naprosto nic. Využití CPU nula nic.
Zkusím opět spočítat 44 reálných jednotek v BOINCu a porovnám si výsledné časy.
Max výsledek je:
Throughput: 38998.60 iter/sec
Ať mi někdo vysvětlí proč, když HT zapnu ale nevyužiju, jsou výsledky lepší než když HT v BOISu vypnu. To nedává smysl ... Na PC se v tu dobu nedělo naprosto nic. Využití CPU nula nic.
Zkusím opět spočítat 44 reálných jednotek v BOINCu a porovnám si výsledné časy.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
-
- 42.1052631579 %
- Příspěvky: 830
- Registrován: ned 02 pro, 2007 14:34
- rok narození: 12 čer 1981
- ID CNT statistics: 9215
- Bydliště: Přelouč
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
zřejme ty volný HT vlákna stačí na udržení systému při životě a neukusuje to tolik výkon jako z fyzických jader.
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG:
PG:
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
Tak jsem ještě zkusil ručně zabít všechny procesy, které pro běž Win nepotřebuju a pustil test znovu. Výsledek Throughput: 41179.27 iter/sec. Tj. fakt je to lepší bez HT v BIOSu, i když velmi těsně a je třeba si dát bacha na to co běží za skryté procesy, i když se tváří že nic nedělají. Dal jsem test na 15 sekund abych potlačil rzné krátkodobé zatížení. lepší z toho nevymáčknu. každopádně to vyšlo bez HT a co jádro to jednotka a žádné volné. Tj. to co vyšlo Forestovi jestli jsem jeho post dobře četl.
Naposledy upravil(a) Dzordzik dne úte 07 srp, 2018 19:43, celkem upraveno 1 x.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
Re: Challenge Series - turnaj na Primegridu 2018
Zkouším teď doma na jiném stroji, co to udělá. Také i7 8700K, ale trochu jinak paměti 4x4GB DDR4-2400 (na tom druhém je 32GB nevím_teď_čeho)
Časy už nejsou tak rozlítané, asi mi tam v práci opravdu zrovna běželo něco dalšího na pozadí.
Časy už nejsou tak rozlítané, asi mi tam v práci opravdu zrovna běželo něco dalšího na pozadí.
Kód: Vybrat vše
[Aug 7 19:36] Timing 192K FFT, 1 core, 1 worker. Average times: 0.50 ms. Total throughput: 1994.98 iter/sec.
[Aug 7 19:36] Timing 192K FFT, 2 cores, 2 workers. Average times: 0.51, 0.50 ms. Total throughput: 3975.53 iter/sec.
[Aug 7 19:37] Timing 192K FFT, 3 cores, 3 workers. Average times: 0.52, 0.51, 0.51 ms. Total throughput: 5879.61 iter/sec.
[Aug 7 19:37] Timing 192K FFT, 4 cores, 4 workers. Average times: 0.52, 0.51, 0.51, 0.52 ms. Total throughput: 7797.36 iter/sec.
[Aug 7 19:38] Timing 192K FFT, 5 cores, 5 workers. Average times: 0.55, 0.51, 0.51, 0.52, 0.51 ms. Total throughput: 9614.16 iter/sec.
[Aug 7 19:38] Timing 192K FFT, 6 cores, 1 worker. Average times: 0.19 ms. Total throughput: 5379.12 iter/sec.
[Aug 7 19:38] Timing 192K FFT, 6 cores, 2 workers. Average times: 0.27, 0.27 ms. Total throughput: 7411.12 iter/sec.
[Aug 7 19:39] Timing 192K FFT, 6 cores, 3 workers. Average times: 0.38, 0.38, 0.37 ms. Total throughput: 7965.12 iter/sec.
[Aug 7 19:39] Timing 192K FFT, 6 cores, 4 workers. Average times: 0.54, 0.52, 0.37, 0.37 ms. Total throughput: 9203.50 iter/sec.
[Aug 7 19:39] Timing 192K FFT, 6 cores, 5 workers. Average times: 0.54, 0.53, 0.51, 0.54, 0.36 ms. Total throughput: 10357.05 iter/sec.
[Aug 7 19:39] Timing 192K FFT, 6 cores, 6 workers. Average times: 0.55, 0.53, 0.52, 0.54, 0.52, 0.52 ms. Total throughput: 11348.96 iter/sec.
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
Takže u tebe taky stejně, pustit co jádro to jednotka. Sedí to ale s tvým testem v reálu? To je to co má smysl teď zkusit ...
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
Re: Challenge Series - turnaj na Primegridu 2018
Ano, viz dřívější post.
Zkusím to přepočítat, tak 6x1t je rychlost 0,095, 5x1t je 0,11, 3x2t je 0,120 a 2x3t 0,13.
V celkové průchodnosti 6x1 thread jasně vychrává.
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
Takže test přes Prime95 vlastně nelhal a sedí to, je tak?
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
- overtonesinger
- 26.3157894737 %
- Příspěvky: 240
- Registrován: stř 02 lis, 2011 22:59
- rok narození: 03 pro 1979
- ID CNT statistics: 17065
- Bydliště: Praha
- Kontaktovat uživatele:
Re: Challenge Series - turnaj na Primegridu 2018
Já mám na to teorii!: Nejspíš zapnutí HT v BiOSu dovolí každému fyzickému jádru využít DVAKRÁT TOLIK registrů pro thready, takže při přepínání mezi dvěma thready vlastně NEMUSÍ VŮBEC NIKDY při střídání threadů ukládat celý stav procesoru + nahrávat tam stav dalšího threadu k pokračování... prostě nechá natrvalo uložený THREAD0 v logickém "HT-core 0" a THREAD1 v "HT-core 1" a jen mezi nima přepne......
(TEDY, výsledkem je: REŽIJE změny threadu v CPU CORE ======== NULA TAKTů!!!)
(TEDY, výsledkem je: REŽIJE změny threadu v CPU CORE ======== NULA TAKTů!!!)

Dzordzik píše: ↑úte 07 srp, 2018 19:33 Tak jsem se dokopal, HT v BIOSU vypnul a hádejte co se stalo, i při stejném nastavení, tj. nevyužití HT threadů, jenom 44c/44W jsou ty výsledky HORŚÍ. To mě poser stehno Blaženo ...
Max výsledek je:
Throughput: 38998.60 iter/sec
Ať mi někdo vysvětlí proč, když HT zapnu ale nevyužiju, jsou výsledky lepší než když HT v BOISu vypnu. To nedává smysl ... Na PC se v tu dobu nedělo naprosto nic. Využití CPU nula nic.
Zkusím opět spočítat 44 reálných jednotek v BOINCu a porovnám si výsledné časy.
statistiky boinc: https://statistiky.czechnationalteam.cz ... user=17065
BRISINGR-II_v4.0: AMD Ryzen 5800X3D + NZXT Kraken X62(mod.: 2x NF-A14 2000 iPPC!), ASUS ROG STRIX X570-F, EVGA RTX 3090 FTW3 Ultra 24GB GDDR6X, dual rank 2x16GB G.Skill DDR4-3600 CL16-18-18-38-58-1T @1.41V, SSD_1: NVMe(4.0) SOLIDIGM P41 Plus 2TB, SSD_2: NVMe(3.0) INTEL SSDPEKNU512GZ (experimental!), SSD_3 SATA: ADATA SU800 256GB (O.S.) ; HDD: 6TB Seagate SkyHawk 256MB smartCache ; Seasonic Focus+ Platinum 850W ; be quiet! BASE 601 Window
BRISINGR-II_v4.0: AMD Ryzen 5800X3D + NZXT Kraken X62(mod.: 2x NF-A14 2000 iPPC!), ASUS ROG STRIX X570-F, EVGA RTX 3090 FTW3 Ultra 24GB GDDR6X, dual rank 2x16GB G.Skill DDR4-3600 CL16-18-18-38-58-1T @1.41V, SSD_1: NVMe(4.0) SOLIDIGM P41 Plus 2TB, SSD_2: NVMe(3.0) INTEL SSDPEKNU512GZ (experimental!), SSD_3 SATA: ADATA SU800 256GB (O.S.) ; HDD: 6TB Seagate SkyHawk 256MB smartCache ; Seasonic Focus+ Platinum 850W ; be quiet! BASE 601 Window
