PG Turnaj 2018 - testy a nastavení

PrimeGrid Challenge
Odpovědět
Zpráva
Autor
Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#1 Příspěvek od Dzordzik »

Jaké FFT se teď používá na PPS LLR?
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

LookAS
42.1052631579 %
42.1052631579 %
Příspěvky: 830
Registrován: ned 02 pro, 2007 14:34
rok narození: 12 čer 1981
ID CNT statistics: 9215
Bydliště: Přelouč
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#2 Příspěvek od LookAS »

192k
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG: Obrázek

Honza
63.1578947368 %
63.1578947368 %
Příspěvky: 3239
Registrován: pát 03 lis, 2006 10:46

Re: Challenge Series - turnaj na Primegridu 2018

#3 Příspěvek od Honza »

Tož ze zvědavosti jsem projel Prime95, poslední v29.4b7 na i7 8700K, bez HT.

Kód: Vybrat vše

[Aug 7 12:37] Timing 192K FFT, 6 cores, 1 worker.  Average times:  0.17 ms.  Total throughput: 5756.72 iter/sec.
[Aug 7 12:37] Timing 192K FFT, 6 cores, 2 workers.  Average times:  0.26,  0.27 ms.  Total throughput: 7545.30 iter/sec.
[Aug 7 12:38] Timing 192K FFT, 6 cores, 3 workers.  Average times:  0.37,  0.38,  0.37 ms.  Total throughput: 8003.77 iter/sec.
[Aug 7 12:38] Timing 192K FFT, 6 cores, 4 workers.  Average times:  0.52,  0.51,  0.37,  0.36 ms.  Total throughput: 9385.53 iter/sec.
[Aug 7 12:38] Timing 192K FFT, 6 cores, 5 workers.  Average times:  0.53,  0.51,  0.51,  0.53,  0.35 ms.  Total throughput: 10555.91 iter/sec.
[Aug 7 12:38] Timing 192K FFT, 6 cores, 6 workers.  Average times:  0.53,  0.51,  0.51,  0.54,  0.52,  0.52 ms.  Total throughput: 11514.46 iter/sec.
Pak jsem si zkusil to, čemu věřím více, tedy skutečnou LLR aplikaci, kterou se na PG počítá a skutečný test.
A výsledek pro srovnání. První sloupec výsledky z Prime95 (čím víc jader, tím lepší), druhý sloupec čas na jeden timestep a třetí sloupec vypočtený čas celého testu ve vteřinách podle počtu timestepů u zvoleného testu (1071*2^2609316+1, což je poslední prvočíslo v rámci PPS z minulého týdne).

Tedy podle Prime95 vychází 6 jader o nějakých 9 procent rychleji než 5, ale podle "skutečného" testu vychází 5 vs 6 jader relativně na stejno, spíše o procento pomaleji. Beru, že 1% je chyba měření a vliv ostatních procesů, ale 10% už je dost.

S ohledem na to, že chci mít jedno jádro volné na GPU a jiné věci, byla pro mě volba 5 jader jasná i před testy, ale i tak.
Any comments?

Kód: Vybrat vše

	Prime95	LLR 192K	2609326 timesteps
threads	Iter/s	time per 	2609,326
		bit ms
1	5756	0,514		1 341    
2	7545	0,337		879    
3	8003	0,222		579    
4	9385	0,180		470    
5	10556	0,158		412    
6	11514	0,160		417    

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#4 Příspěvek od Dzordzik »

A teď ještě totéž s HT a budou to zajímavá data pro porovnání.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

LookAS
42.1052631579 %
42.1052631579 %
Příspěvky: 830
Registrován: ned 02 pro, 2007 14:34
rok narození: 12 čer 1981
ID CNT statistics: 9215
Bydliště: Přelouč
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#5 Příspěvek od LookAS »

cokoli nad 2 jádra na jednotku je plýtvání efektivitou, i o těch 2 by se tu dalo polemizovat.
prvočísla jsou stejně malá, takže já pojedu vše na -t1 bez HT pro nejvyšší změřený celkový výkon
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG: Obrázek

Honza
63.1578947368 %
63.1578947368 %
Příspěvky: 3239
Registrován: pát 03 lis, 2006 10:46

Re: Challenge Series - turnaj na Primegridu 2018

#6 Příspěvek od Honza »

HT nebo neHT je pro mě nepodstatné, resp. jedu neHT a měnit to nehodlám (zvláště u virtualizovaných strojů, abych je vypínal a šel k nim fyzicky něco měnit v BIOSu).

Jde mi o rozdíl měření Prime95 vs reálný test reálnou LLR aplikací.
Z jednoho vychází doporučení použít plný počet jader, z druhého nechat jedno volné - pokud chci získat nejrychlejší výpočet.
A mi přijde podstatné či alespoň zajímavé...

EDIT: Možná jsem si odpověděl - LLR jsem jel vždy jen jednu instanci.

Když to zkusím napravit...
1-thread, počet instancí a zhruba rychlost:
1 0,522
2 0,527
3 0,537
4 0,540
5 0,551
6 0,570

2-thread, počet instancí a zhruba rychlost:
1 0,335
2 0,340
3 0,360

3-thread, počet instancí a zhruba rychlost:
1 0,225
2 0,260

Zkusím to přepočítat, tak 6x1t je rychlost 0,095, 5x1t je 0,11, 3x2t je 0,120 a 2x3t 0,13.
V celkové průchodnosti 6x1 thread jasně vychrává.

Honza
63.1578947368 %
63.1578947368 %
Příspěvky: 3239
Registrován: pát 03 lis, 2006 10:46

Re: Challenge Series - turnaj na Primegridu 2018

#7 Příspěvek od Honza »

Tak jsem si vyzkoušel "plnou" variantu testu v Prime95

Snažím se číst výsledky podle forestova návodu, ale myslím, že to není zcela jasné.
Když pracují 4 jádra na jedné jednotce (první řádek), je "Throughput" (tedy počet operací za sekundu) nejvyšíí. Následují testy na dvou jednotkách, třech a poslední je test práce čtyř jader, každé na jedné jednotce. Hodnota "Throughput" je vždy celková za celý počet zapojených výpočetních vláken. Tedy v tomto případě 4. Nejlepší je tedy zapojit všechna vlákna do výpočtu jedné jednotky. Jak si nastavit app_config pro tuto verzi jsem odkazoval níže.
To tučné znamená zapojit všechna jádra na výpočet jedné jednotky nebo všechna jádra a každé počítá jednu jednotku?
[Aug 7 16:53] Benchmarking multiple workers to measure the impact of memory bandwidth
[Aug 7 16:53] Timing 192K FFT, 1 core, 1 worker. Average times: 0.51 ms. Total throughput: 1954.71 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 2 cores, 1 worker. Average times: 0.34 ms. Total throughput: 2927.28 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 2 cores, 2 workers. Average times: 0.51, 0.50 ms. Total throughput: 3968.28 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 3 cores, 1 worker. Average times: 0.24 ms. Total throughput: 4125.39 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 3 cores, 2 workers. Average times: 0.51, 0.34 ms. Total throughput: 4883.59 iter/sec.
[Aug 7 16:53] Timing 192K FFT, 3 cores, 3 workers. Average times: 0.52, 0.51, 0.51 ms. Total throughput: 5888.70 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 4 cores, 1 worker. Average times: 0.27 ms. Total throughput: 3652.38 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 4 cores, 2 workers. Average times: 0.67, 0.77 ms. Total throughput: 2789.35 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 4 cores, 3 workers. Average times: 3.62, 0.80, 2.66 ms. Total throughput: 1903.96 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 4 cores, 4 workers. Average times: 9.66, 1.15, 0.54, 38.61 ms. Total throughput: 2843.10 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 5 cores, 1 worker. Average times: 2.24 ms. Total throughput: 447.36 iter/sec.
[Aug 7 16:54] Timing 192K FFT, 5 cores, 2 workers. Average times: 1.99, 2.00 ms. Total throughput: 1002.49 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 5 cores, 3 workers. Average times: 8.59, 1.15, 4.62 ms. Total throughput: 1199.77 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 5 cores, 4 workers. Average times: 19.07, 7.89, 0.53, 28.07 ms. Total throughput: 2092.30 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 5 cores, 5 workers. Average times: 10.54, 7.72, 0.57, 40.24, 39.04 ms. Total throughput: 2029.01 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 6 cores, 1 worker. Average times: 2.67 ms. Total throughput: 374.32 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 6 cores, 2 workers. Average times: 2.14, 2.34 ms. Total throughput: 895.62 iter/sec.
[Aug 7 16:55] Timing 192K FFT, 6 cores, 3 workers. Average times: 4.20, 3.50, 1.58 ms. Total throughput: 1157.05 iter/sec.
[Aug 7 16:56] Timing 192K FFT, 6 cores, 4 workers. Average times: 21.73, 1.64, 4.37, 1.93 ms. Total throughput: 1401.60 iter/sec.
[Aug 7 16:56] Timing 192K FFT, 6 cores, 5 workers. Average times: 21.02, 16.52, 0.53, 68.86, 21.78 ms. Total throughput: 2052.97 iter/sec.
[Aug 7 16:56] Timing 192K FFT, 6 cores, 6 workers. Average times: 2.16, 2.11, 0.53, 2.40, 2.21, 1.47 ms. Total throughput: 4368.11 iter/sec.
A tady jak?

LookAS
42.1052631579 %
42.1052631579 %
Příspěvky: 830
Registrován: ned 02 pro, 2007 14:34
rok narození: 12 čer 1981
ID CNT statistics: 9215
Bydliště: Přelouč
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#8 Příspěvek od LookAS »

máš strašně rozlítané časy iterací jednotlivých workerů v rámci testu. viz:
[Aug 7 16:55] Timing 192K FFT, 5 cores, 5 workers. Average times: 10.54, 7.72, 0.57, 40.24, 39.04 ms. Total throughput: 2029.01 iter/sec

neběželo ti něco na pozadí. doporučuji přetestovat. paměť máš jakou?

jinak tohle znamená 3 jednotky, každá na svém 1 jádru.
Honza píše: úte 07 srp, 2018 17:23
[Aug 7 16:53] Timing 192K FFT, 3 cores, 3 workers. Average times: 0.52, 0.51, 0.51 ms. Total throughput: 5888.70 iter/sec.

A tady jak?
to že ti paralelní 3 jednotky každá na svém jádru vychází lépe než 6 jednotek po 1 jádru značí asi nějaký limit - paměti/cache?



jinak jak jsem čekal tak u mě nejlépe vychází 12 jader po 1 jednotce každé. vychází to stejně jak v reálném benchmarku na PG, tak v Prime95
všimni si jednotlivých iterací, jak jsou jedna jako druhá ;)
paralelních 12WU po 1 jádru je téměř 12x rychlejší než samotná 1WU na 1 jádru, což značí že v tomto případě nejsem téměř limitovám (pamětí, cache atd..)

Kód: Vybrat vše

Prime95 64-bit version 29.4, RdtscTiming=1
Timings for 192K FFT length (1 core, 1 worker):  0.63 ms.  Throughput: 1582.00 iter/sec.
Timings for 192K FFT length (2 cores, 1 worker):  0.56 ms.  Throughput: 1773.05 iter/sec.
Timings for 192K FFT length (2 cores, 2 workers):  0.63,  0.63 ms.  Throughput: 3169.20 iter/sec.
Timings for 192K FFT length (3 cores, 1 worker):  0.41 ms.  Throughput: 2435.51 iter/sec.
Timings for 192K FFT length (3 cores, 2 workers):  0.63,  0.55 ms.  Throughput: 3390.71 iter/sec.
Timings for 192K FFT length (3 cores, 3 workers):  0.63,  0.63,  0.63 ms.  Throughput: 4743.07 iter/sec.
Timings for 192K FFT length (4 cores, 1 worker):  0.34 ms.  Throughput: 2956.91 iter/sec.
Timings for 192K FFT length (4 cores, 2 workers):  0.57,  0.55 ms.  Throughput: 3582.92 iter/sec.
Timings for 192K FFT length (4 cores, 3 workers):  0.63,  0.63,  0.55 ms.  Throughput: 4979.11 iter/sec.
Timings for 192K FFT length (4 cores, 4 workers):  0.63,  0.63,  0.63,  0.63 ms.  Throughput: 6343.85 iter/sec.
Timings for 192K FFT length (5 cores, 1 worker):  0.30 ms.  Throughput: 3310.99 iter/sec.
Timings for 192K FFT length (5 cores, 2 workers):  0.57,  0.41 ms.  Throughput: 4223.31 iter/sec.
Timings for 192K FFT length (5 cores, 3 workers):  0.63,  0.56,  0.56 ms.  Throughput: 5168.28 iter/sec.
Timings for 192K FFT length (5 cores, 4 workers):  0.63,  0.63,  0.63,  0.56 ms.  Throughput: 6555.05 iter/sec.
Timings for 192K FFT length (5 cores, 5 workers):  0.63,  0.63,  0.63,  0.63,  0.63 ms.  Throughput: 7920.47 iter/sec.
Timings for 192K FFT length (6 cores, 1 worker):  0.28 ms.  Throughput: 3614.61 iter/sec.
Timings for 192K FFT length (6 cores, 2 workers):  0.41,  0.41 ms.  Throughput: 4876.81 iter/sec.
Timings for 192K FFT length (6 cores, 3 workers):  0.57,  0.55,  0.56 ms.  Throughput: 5355.23 iter/sec.
Timings for 192K FFT length (6 cores, 4 workers):  0.63,  0.63,  0.56,  0.56 ms.  Throughput: 6761.58 iter/sec.
Timings for 192K FFT length (6 cores, 5 workers):  0.63,  0.63,  0.63,  0.63,  0.56 ms.  Throughput: 8132.08 iter/sec.
Timings for 192K FFT length (6 cores, 6 workers):  0.63,  0.63,  0.63,  0.63,  0.63,  0.63 ms.  Throughput: 9510.78 iter/sec.
Timings for 192K FFT length (7 cores, 1 worker):  0.21 ms.  Throughput: 4757.80 iter/sec.
Timings for 192K FFT length (7 cores, 2 workers):  0.42,  0.34 ms.  Throughput: 5377.15 iter/sec.
Timings for 192K FFT length (7 cores, 3 workers):  0.56,  0.55,  0.40 ms.  Throughput: 6054.22 iter/sec.
Timings for 192K FFT length (7 cores, 4 workers):  0.63,  0.56,  0.56,  0.56 ms.  Throughput: 6945.38 iter/sec.
Timings for 192K FFT length (7 cores, 5 workers):  0.64,  0.65,  0.64,  0.57,  0.57 ms.  Throughput: 8177.12 iter/sec.
Timings for 192K FFT length (7 cores, 6 workers):  0.63,  0.63,  0.63,  0.63,  0.63,  0.56 ms.  Throughput: 9706.17 iter/sec.
Timings for 192K FFT length (7 cores, 7 workers):  0.63,  0.64,  0.64,  0.63,  0.63,  0.63,  0.63 ms.  Throughput: 11040.29 iter/sec.
Timings for 192K FFT length (8 cores, 1 worker):  0.20 ms.  Throughput: 4914.99 iter/sec.
Timings for 192K FFT length (8 cores, 2 workers):  0.34,  0.34 ms.  Throughput: 5847.31 iter/sec.
Timings for 192K FFT length (8 cores, 3 workers):  0.58,  0.40,  0.41 ms.  Throughput: 6642.47 iter/sec.
Timings for 192K FFT length (8 cores, 4 workers):  0.57,  0.56,  0.56,  0.56 ms.  Throughput: 7128.04 iter/sec.
Timings for 192K FFT length (8 cores, 5 workers):  0.63,  0.63,  0.56,  0.55,  0.56 ms.  Throughput: 8542.16 iter/sec.
Timings for 192K FFT length (8 cores, 6 workers):  0.63,  0.64,  0.63,  0.63,  0.56,  0.56 ms.  Throughput: 9894.42 iter/sec.
Timings for 192K FFT length (8 cores, 7 workers):  0.63,  0.64,  0.63,  0.63,  0.63,  0.63,  0.56 ms.  Throughput: 11271.74 iter/sec.
Timings for 192K FFT length (8 cores, 8 workers):  0.64,  0.64,  0.64,  0.63,  0.63,  0.63,  0.63,  0.63 ms.  Throughput: 12611.09 iter/sec.
Timings for 192K FFT length (9 cores, 1 worker):  0.20 ms.  Throughput: 5005.43 iter/sec.
Timings for 192K FFT length (9 cores, 2 workers):  0.34,  0.30 ms.  Throughput: 6256.28 iter/sec.
Timings for 192K FFT length (9 cores, 3 workers):  0.41,  0.41,  0.41 ms.  Throughput: 7307.78 iter/sec.
Timings for 192K FFT length (9 cores, 4 workers):  0.57,  0.55,  0.56,  0.41 ms.  Throughput: 7783.73 iter/sec.
Timings for 192K FFT length (9 cores, 5 workers):  0.64,  0.57,  0.56,  0.56,  0.57 ms.  Throughput: 8671.88 iter/sec.
Timings for 192K FFT length (9 cores, 6 workers):  0.64,  0.64,  0.63,  0.56,  0.56,  0.57 ms.  Throughput: 10028.90 iter/sec.
Timings for 192K FFT length (9 cores, 7 workers):  0.64,  0.64,  0.64,  0.63,  0.63,  0.56,  0.56 ms.  Throughput: 11435.84 iter/sec.
Timings for 192K FFT length (9 cores, 8 workers):  0.64,  0.64,  0.64,  0.63,  0.63,  0.64,  0.63,  0.56 ms.  Throughput: 12783.40 iter/sec.
Timings for 192K FFT length (9 cores, 9 workers):  0.64,  0.64,  0.64,  0.63,  0.63,  0.63,  0.63,  0.63,  0.64 ms.  Throughput: 14178.62 iter/sec.
Timings for 192K FFT length (10 cores, 1 worker):  0.20 ms.  Throughput: 5016.34 iter/sec.
Timings for 192K FFT length (10 cores, 2 workers):  0.31,  0.30 ms.  Throughput: 6548.96 iter/sec.
Timings for 192K FFT length (10 cores, 3 workers):  0.42,  0.41,  0.34 ms.  Throughput: 7763.40 iter/sec.
Timings for 192K FFT length (10 cores, 4 workers):  0.57,  0.56,  0.41,  0.42 ms.  Throughput: 8397.37 iter/sec.
Timings for 192K FFT length (10 cores, 5 workers):  0.57,  0.56,  0.57,  0.56,  0.56 ms.  Throughput: 8856.60 iter/sec.
Timings for 192K FFT length (10 cores, 6 workers):  0.64,  0.64,  0.56,  0.56,  0.56,  0.56 ms.  Throughput: 10281.85 iter/sec.
Timings for 192K FFT length (10 cores, 7 workers):  0.64,  0.64,  0.64,  0.64,  0.56,  0.56,  0.56 ms.  Throughput: 11627.79 iter/sec.
Timings for 192K FFT length (10 cores, 8 workers):  0.64,  0.64,  0.64,  0.64,  0.63,  0.63,  0.56,  0.57 ms.  Throughput: 12945.52 iter/sec.
Timings for 192K FFT length (10 cores, 9 workers):  0.64,  0.65,  0.64,  0.64,  0.63,  0.63,  0.63,  0.63,  0.56 ms.  Throughput: 14347.43 iter/sec.
Timings for 192K FFT length (10 cores, 10 workers):  0.64,  0.65,  0.65,  0.64,  0.63,  0.64,  0.63,  0.63,  0.64,  0.63 ms.  Throughput: 15665.54 iter/sec.
Timings for 192K FFT length (11 cores, 1 worker):  0.21 ms.  Throughput: 4767.22 iter/sec.
Timings for 192K FFT length (11 cores, 2 workers):  0.31,  0.28 ms.  Throughput: 6878.97 iter/sec.
Timings for 192K FFT length (11 cores, 3 workers):  0.42,  0.34,  0.34 ms.  Throughput: 8273.35 iter/sec.
Timings for 192K FFT length (11 cores, 4 workers):  0.58,  0.41,  0.42,  0.41 ms.  Throughput: 8964.97 iter/sec.
[Tue Aug 07 18:09:31 2018]
Timings for 192K FFT length (11 cores, 5 workers):  0.58,  0.57,  0.57,  0.57,  0.42 ms.  Throughput: 9418.36 iter/sec.
Timings for 192K FFT length (11 cores, 6 workers):  0.64,  0.57,  0.57,  0.57,  0.56,  0.56 ms.  Throughput: 10379.32 iter/sec.
Timings for 192K FFT length (11 cores, 7 workers):  0.65,  0.65,  0.64,  0.57,  0.57,  0.57,  0.56 ms.  Throughput: 11692.70 iter/sec.
Timings for 192K FFT length (11 cores, 8 workers):  0.65,  0.65,  0.65,  0.64,  0.64,  0.56,  0.56,  0.56 ms.  Throughput: 13101.63 iter/sec.
Timings for 192K FFT length (11 cores, 9 workers):  0.65,  0.65,  0.65,  0.64,  0.64,  0.64,  0.64,  0.58,  0.56 ms.  Throughput: 14387.94 iter/sec.
Timings for 192K FFT length (11 cores, 10 workers):  0.65,  0.65,  0.64,  0.64,  0.64,  0.64,  0.64,  0.63,  0.64,  0.56 ms.  Throughput: 15811.11 iter/sec.
Timings for 192K FFT length (11 cores, 11 workers):  0.65,  0.66,  0.65,  0.64,  0.64,  0.64,  0.64,  0.63,  0.64,  0.64,  0.63 ms.  Throughput: 17114.71 iter/sec.
Timings for 192K FFT length (12 cores, 1 worker):  0.21 ms.  Throughput: 4722.48 iter/sec.
Timings for 192K FFT length (12 cores, 2 workers):  0.31,  0.28 ms.  Throughput: 6776.01 iter/sec.
Timings for 192K FFT length (12 cores, 3 workers):  0.35,  0.34,  0.35 ms.  Throughput: 8599.07 iter/sec.
Timings for 192K FFT length (12 cores, 4 workers):  0.43,  0.42,  0.42,  0.42 ms.  Throughput: 9502.19 iter/sec.
Timings for 192K FFT length (12 cores, 5 workers):  0.58,  0.57,  0.57,  0.42,  0.43 ms.  Throughput: 9925.72 iter/sec.
Timings for 192K FFT length (12 cores, 6 workers):  0.61,  0.59,  0.60,  0.61,  0.59,  0.62 ms.  Throughput: 9981.83 iter/sec.
Timings for 192K FFT length (12 cores, 7 workers):  0.64,  0.67,  0.57,  0.57,  0.57,  0.56,  0.60 ms.  Throughput: 11749.77 iter/sec.
Timings for 192K FFT length (12 cores, 8 workers):  0.65,  0.66,  0.66,  0.65,  0.57,  0.57,  0.58,  0.58 ms.  Throughput: 13072.99 iter/sec.
Timings for 192K FFT length (12 cores, 9 workers):  0.65,  0.66,  0.66,  0.65,  0.65,  0.65,  0.57,  0.57,  0.60 ms.  Throughput: 14332.14 iter/sec.
Timings for 192K FFT length (12 cores, 10 workers):  0.65,  0.67,  0.66,  0.65,  0.65,  0.65,  0.64,  0.63,  0.57,  0.59 ms.  Throughput: 15741.53 iter/sec.
Timings for 192K FFT length (12 cores, 11 workers):  0.66,  0.67,  0.67,  0.65,  0.65,  0.66,  0.64,  0.64,  0.66,  0.65,  0.59 ms.  Throughput: 16985.41 iter/sec.
Timings for 192K FFT length (12 cores, 12 workers):  0.66,  0.67,  0.68,  0.66,  0.65,  0.66,  0.65,  0.64,  0.67,  0.65,  0.65,  0.66 ms.  Throughput: 18191.68 iter/sec.
Naposledy upravil(a) LookAS dne úte 07 srp, 2018 18:29, celkem upraveno 1 x.
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG: Obrázek

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19628
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: Challenge Series - turnaj na Primegridu 2018

#9 Příspěvek od forest »

Podle uvedených výsledků z Prime95 by vycházelo nejlépe zapojit každé jádro (bez HT) do jedné jednotky. Mně to ale s HT na stejném CPU vychází úplně jinak. Ještě to tedy jednou pořádně otestuji.

LookAS
42.1052631579 %
42.1052631579 %
Příspěvky: 830
Registrován: ned 02 pro, 2007 14:34
rok narození: 12 čer 1981
ID CNT statistics: 9215
Bydliště: Přelouč
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#10 Příspěvek od LookAS »

rychlý test s HT, u těchto malých FFT je to u mě neefektivní.

Kód: Vybrat vše

Timings for 192K FFT length (1 core, 1 worker):  0.63 ms.  Throughput: 1586.07 iter/sec.
Timings for 192K FFT length (1 core hyperthreaded, 1 worker):  0.66 ms.  Throughput: 1512.24 iter/sec.
Timings for 192K FFT length (12 cores, 1 worker):  0.21 ms.  Throughput: 4753.03 iter/sec.
Timings for 192K FFT length (12 cores, 12 workers):  0.65,  0.66,  0.67,  0.65,  0.65,  0.65,  0.65,  0.64,  0.65,  0.64,  0.64,  0.67 ms.  Throughput: 18346.07 iter/sec.
Timings for 192K FFT length (12 cores hyperthreaded, 1 worker):  0.64 ms.  Throughput: 1565.67 iter/sec.
Timings for 192K FFT length (12 cores hyperthreaded, 12 workers):  0.72,  0.68,  0.69,  0.66,  0.70,  0.67,  0.69,  0.66,  0.68,  0.67,  0.70,  0.69 ms.  Throughput: 17573.03 iter/sec.
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG: Obrázek

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#11 Příspěvek od Dzordzik »

U mě taky. Posílám jen to co má smysl:
Timings for 192K FFT length (44 cores, 40 workers): 1.05, 1.04, 1.03, 1.03, 1.03, 1.03, 1.03, 1.03, 1.02, 1.03, 1.03, 1.03, 1.03, 1.03, 1.03, 1.04, 1.03, 1.03, 0.78, 0.80, 1.06, 1.08, 1.06, 1.08, 1.05, 1.06, 1.05, 1.06, 1.06, 1.05, 1.06, 1.05, 1.05, 1.05, 1.06, 1.06, 1.06, 1.06, 0.82, 0.84 ms. Throughput: 39366.10 iter/sec.
Timings for 192K FFT length (44 cores, 41 workers): 1.10, 1.07, 1.07, 1.06, 1.06, 1.06, 1.07, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 0.83, 1.08, 1.10, 1.08, 1.09, 1.07, 1.07, 1.08, 1.08, 1.08, 1.08, 1.08, 1.07, 1.09, 1.07, 1.10, 1.08, 1.08, 1.07, 0.81, 0.85 ms. Throughput: 39073.46 iter/sec.
Timings for 192K FFT length (44 cores, 42 workers): 1.09, 1.07, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.06, 1.07, 1.07, 1.07, 1.07, 1.06, 0.84, 1.09, 1.10, 1.10, 1.10, 1.09, 1.09, 1.09, 1.09, 1.09, 1.09, 1.09, 1.13, 1.09, 1.08, 1.09, 1.09, 1.09, 1.08, 1.08, 1.08, 0.85 ms. Throughput: 39494.03 iter/sec.
Timings for 192K FFT length (44 cores, 43 workers): 1.10, 1.09, 1.07, 1.07, 1.07, 1.07, 1.07, 1.08, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.08, 1.07, 1.09, 1.10, 1.09, 1.11, 1.08, 1.08, 1.09, 1.08, 1.08, 1.08, 1.09, 1.08, 1.08, 1.08, 1.09, 1.09, 1.10, 1.08, 1.08, 1.08, 0.86 ms. Throughput: 40057.76 iter/sec.
Timings for 192K FFT length (44 cores, 44 workers): 1.11, 1.08, 1.08, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.07, 1.09, 1.07, 1.07, 1.08, 1.08, 1.08, 1.07, 1.07, 1.07, 1.08, 1.11, 1.12, 1.10, 1.11, 1.09, 1.09, 1.10, 1.09, 1.09, 1.09, 1.09, 1.13, 1.09, 1.09, 1.09, 1.10, 1.09, 1.09, 1.09, 1.09, 1.10, 1.10 ms. Throughput: 40513.68 iter/sec.

Jak to vychází na Czech Humanově kalkulačce a jak na Bivojovi? Posílejte jenom to co má smysl, u moc jádrových strojů je ten výpis dlouhý jak týden před výplatou.

Jinak toto je testováno bez HT ale s HT zapnutým v BIOSu, nemůžu kvůli výpočtům PC teď restartovat, ale zásadní rozdíl nečekám.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Uživatelský avatar
Czech Human
52.6315789474 %
52.6315789474 %
Příspěvky: 1372
Registrován: sob 30 bře, 2013 14:16
rok narození: 0- 0-1981
ID CNT statistics: 19867
Bydliště: Praha

Re: Challenge Series - turnaj na Primegridu 2018

#12 Příspěvek od Czech Human »

Jak to vychází nevím, protože se ke své kalkulačce nemůžu vzdáleně připojit a mám ji teď dost z ruky :smt022
Vzhůru pro body na linuxu :-).

Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz

Obrázek

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#13 Příspěvek od Dzordzik »

Tak jsem se dokopal, HT v BIOSU vypnul a hádejte co se stalo, i při stejném nastavení, tj. nevyužití HT threadů, jenom 44c/44W jsou ty výsledky HORŚÍ. To mě poser stehno Blaženo ...

Max výsledek je:
Throughput: 38998.60 iter/sec

Ať mi někdo vysvětlí proč, když HT zapnu ale nevyužiju, jsou výsledky lepší než když HT v BOISu vypnu. To nedává smysl ... Na PC se v tu dobu nedělo naprosto nic. Využití CPU nula nic.

Zkusím opět spočítat 44 reálných jednotek v BOINCu a porovnám si výsledné časy.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

LookAS
42.1052631579 %
42.1052631579 %
Příspěvky: 830
Registrován: ned 02 pro, 2007 14:34
rok narození: 12 čer 1981
ID CNT statistics: 9215
Bydliště: Přelouč
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#14 Příspěvek od LookAS »

zřejme ty volný HT vlákna stačí na udržení systému při životě a neukusuje to tolik výkon jako z fyzických jader.
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG: Obrázek

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#15 Příspěvek od Dzordzik »

Tak jsem ještě zkusil ručně zabít všechny procesy, které pro běž Win nepotřebuju a pustil test znovu. Výsledek Throughput: 41179.27 iter/sec. Tj. fakt je to lepší bez HT v BIOSu, i když velmi těsně a je třeba si dát bacha na to co běží za skryté procesy, i když se tváří že nic nedělají. Dal jsem test na 15 sekund abych potlačil rzné krátkodobé zatížení. lepší z toho nevymáčknu. každopádně to vyšlo bez HT a co jádro to jednotka a žádné volné. Tj. to co vyšlo Forestovi jestli jsem jeho post dobře četl.
Naposledy upravil(a) Dzordzik dne úte 07 srp, 2018 19:43, celkem upraveno 1 x.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Honza
63.1578947368 %
63.1578947368 %
Příspěvky: 3239
Registrován: pát 03 lis, 2006 10:46

Re: Challenge Series - turnaj na Primegridu 2018

#16 Příspěvek od Honza »

Zkouším teď doma na jiném stroji, co to udělá. Také i7 8700K, ale trochu jinak paměti 4x4GB DDR4-2400 (na tom druhém je 32GB nevím_teď_čeho)
Časy už nejsou tak rozlítané, asi mi tam v práci opravdu zrovna běželo něco dalšího na pozadí.

Kód: Vybrat vše

[Aug 7 19:36] Timing 192K FFT, 1 core, 1 worker.  Average times:  0.50 ms.  Total throughput: 1994.98 iter/sec.
[Aug 7 19:36] Timing 192K FFT, 2 cores, 2 workers.  Average times:  0.51,  0.50 ms.  Total throughput: 3975.53 iter/sec.
[Aug 7 19:37] Timing 192K FFT, 3 cores, 3 workers.  Average times:  0.52,  0.51,  0.51 ms.  Total throughput: 5879.61 iter/sec.
[Aug 7 19:37] Timing 192K FFT, 4 cores, 4 workers.  Average times:  0.52,  0.51,  0.51,  0.52 ms.  Total throughput: 7797.36 iter/sec.
[Aug 7 19:38] Timing 192K FFT, 5 cores, 5 workers.  Average times:  0.55,  0.51,  0.51,  0.52,  0.51 ms.  Total throughput: 9614.16 iter/sec.
[Aug 7 19:38] Timing 192K FFT, 6 cores, 1 worker.  Average times:  0.19 ms.  Total throughput: 5379.12 iter/sec.
[Aug 7 19:38] Timing 192K FFT, 6 cores, 2 workers.  Average times:  0.27,  0.27 ms.  Total throughput: 7411.12 iter/sec.
[Aug 7 19:39] Timing 192K FFT, 6 cores, 3 workers.  Average times:  0.38,  0.38,  0.37 ms.  Total throughput: 7965.12 iter/sec.
[Aug 7 19:39] Timing 192K FFT, 6 cores, 4 workers.  Average times:  0.54,  0.52,  0.37,  0.37 ms.  Total throughput: 9203.50 iter/sec.
[Aug 7 19:39] Timing 192K FFT, 6 cores, 5 workers.  Average times:  0.54,  0.53,  0.51,  0.54,  0.36 ms.  Total throughput: 10357.05 iter/sec.
[Aug 7 19:39] Timing 192K FFT, 6 cores, 6 workers.  Average times:  0.55,  0.53,  0.52,  0.54,  0.52,  0.52 ms.  Total throughput: 11348.96 iter/sec.

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#17 Příspěvek od Dzordzik »

Takže u tebe taky stejně, pustit co jádro to jednotka. Sedí to ale s tvým testem v reálu? To je to co má smysl teď zkusit ...
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Honza
63.1578947368 %
63.1578947368 %
Příspěvky: 3239
Registrován: pát 03 lis, 2006 10:46

Re: Challenge Series - turnaj na Primegridu 2018

#18 Příspěvek od Honza »

Dzordzik píše: úte 07 srp, 2018 19:45 Takže u tebe taky stejně, pustit co jádro to jednotka. Sedí to ale s tvým testem v reálu? To je to co má smysl teď zkusit ...
Ano, viz dřívější post.
Zkusím to přepočítat, tak 6x1t je rychlost 0,095, 5x1t je 0,11, 3x2t je 0,120 a 2x3t 0,13.
V celkové průchodnosti 6x1 thread jasně vychrává.

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#19 Příspěvek od Dzordzik »

Takže test přes Prime95 vlastně nelhal a sedí to, je tak?
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Uživatelský avatar
overtonesinger
26.3157894737 %
26.3157894737 %
Příspěvky: 241
Registrován: stř 02 lis, 2011 22:59
rok narození: 03 pro 1979
ID CNT statistics: 17065
Bydliště: Praha
Kontaktovat uživatele:

Re: Challenge Series - turnaj na Primegridu 2018

#20 Příspěvek od overtonesinger »

Já mám na to teorii!: Nejspíš zapnutí HT v BiOSu dovolí každému fyzickému jádru využít DVAKRÁT TOLIK registrů pro thready, takže při přepínání mezi dvěma thready vlastně NEMUSÍ VŮBEC NIKDY při střídání threadů ukládat celý stav procesoru + nahrávat tam stav dalšího threadu k pokračování... prostě nechá natrvalo uložený THREAD0 v logickém "HT-core 0" a THREAD1 v "HT-core 1" a jen mezi nima přepne......

(TEDY, výsledkem je: REŽIJE změny threadu v CPU CORE ======== NULA TAKTů!!!)

22rrr
Dzordzik píše: úte 07 srp, 2018 19:33 Tak jsem se dokopal, HT v BIOSU vypnul a hádejte co se stalo, i při stejném nastavení, tj. nevyužití HT threadů, jenom 44c/44W jsou ty výsledky HORŚÍ. To mě poser stehno Blaženo ...

Max výsledek je:
Throughput: 38998.60 iter/sec

Ať mi někdo vysvětlí proč, když HT zapnu ale nevyužiju, jsou výsledky lepší než když HT v BOISu vypnu. To nedává smysl ... Na PC se v tu dobu nedělo naprosto nic. Využití CPU nula nic.

Zkusím opět spočítat 44 reálných jednotek v BOINCu a porovnám si výsledné časy.
statistiky boinc: https://statistiky.czechnationalteam.cz ... user=17065

BRISINGR-II_v4.0: AMD Ryzen 5800X3D + NZXT Kraken X62(mod.: 2x NF-A14 2000 iPPC!), ASUS ROG STRIX X570-F, EVGA RTX 3090 FTW3 Ultra 24GB GDDR6X, dual rank 2x16GB G.Skill DDR4-3600 CL16-18-18-38-58-1T @1.41V, SSD_1: NVMe(4.0) SOLIDIGM P41 Plus 2TB, SSD_2: *prazdny_slot*, SSD_3 SATA: ADATA SU800 256GB (O.S.) ; HDD: 6TB Seagate SkyHawk 256MB smartCache ; Seasonic Focus+ Platinum 850W ; be quiet! BASE 601 Window 45bb

Odpovědět

Zpět na „Prime Grid“