PG Turnaj 2024 - testy a nastavení

PrimeGrid Challenge
Zpráva
Autor
Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19653
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: PG Turnaj 2024 - testy a nastavení

#21 Příspěvek od forest »

Děkuji zatím alespoň za to teoretické ověření aktuálního stavu.

Minulý rok bylo na tomto projektu dost složité najít optimální nastavení pro turnaj a bylo nakonec pro AMD 5950X naprosto nestandartní, oproti ostatním PG podprojektúm:
forest píše: sob 28 říj, 2023 23:08 Vychází mně v testech nejlépe využít pouze fyzická jádra (tedy u týmových strojů CPU AMD 5950X je to 16 z 32) na dvě jednotky počítané naráz. Tedy 2 WU, na každou nastavených 8 vláken.
Tedy určitě bez HT jednotek a půjde jen o test, zda bude výhodnější počítat jednu, nebo dvě jednotky naráz. Dám určitě vědět.

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19653
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: PG Turnaj 2024 - testy a nastavení

#22 Příspěvek od forest »

Vyšlo mně při testech na AMD 5950X nejlépe stejné nastavení, jak na podzim 2023, viz. minulý post.

Osobně půjdu dříve spát a ten start všech strojů si pohlídám 45cc

Uživatelský avatar
overtonesinger
26.3157894737 %
26.3157894737 %
Příspěvky: 244
Registrován: stř 02 lis, 2011 22:59
rok narození: 03 pro 1979
ID CNT statistics: 17065
Bydliště: Praha
Kontaktovat uživatele:

Re: PG Turnaj 2024 - testy a nastavení

#23 Příspěvek od overtonesinger »

Tady je ten návod na rozhození (CPU Affinitou) dvou jednotek na DVA CPU čiplety toho AMD Ryzen 5950X - pomocí čerstvě nainstalované zkušební verze PROCES LASSO :

U 16-tijádra AMD VŽDY platí:
Jeden čiplet obsahuje POUZE jádra č. 0 až 15, a DRUHÝ jádra č. 16 až 31.
NIKDY to není na přeskáčku! ...... Takže se na to lze absolutně spolehnout.

1. v TaskManageru ukazuji, co je náš CÍL:
Mít stále na jedné WU "CPU Affinity" nastavenou na sudá jádra 0 až 14 ; a na druhé WU mít "CPU Affinity" nastavenou na sudá jádra 16 až 30 ;

2. Instalace PROCES LASSO, pak nastavení Load Balanceru pro ty naše dva stejnojmenné procesy (BOINC Primegrid WU).

3. Znovu-spuštění BOINC a kontrola CPU Afinity u těch našich WU, zda ji PROCES LASSO nastavilo správně.
A jak je vidět, je to OK! Náš cíl je splněn - i když se spustí další a další WU....... vždy se jim ihned automaticky nastaví ta správná afinita, takže jedna WU poběží na prvním čipletu(osmici fyz.jader) a druhá WU na druhém čipletu(osmici fyz.jader).
Takže ten BOTTLENECK ("oslí můstek" spojující čiplety) se nebude při běhu našich dvou WU vůbec používat. 45kk 45kk
https://youtu.be/CLZ1KKpOuoI?si=LF4hLncj7IJsdYD5
statistiky boinc: https://statistiky.czechnationalteam.cz ... user=17065

BRISINGR-II_v4.0: AMD Ryzen 5800X3D + NZXT Kraken X62(mod.: 2x NF-A14 2000 iPPC!), ASUS ROG STRIX X570-F, EVGA RTX 3090 FTW3 Ultra 24GB GDDR6X, dual rank 2x16GB G.Skill DDR4-3600 CL16-18-18-38-58-1T @1.41V, SSD_1: NVMe(4.0) SOLIDIGM P41 Plus 2TB, SSD_2: *prazdny_slot*, SSD_3 SATA: ADATA SU800 256GB (O.S.) ; HDD: 6TB Seagate SkyHawk 256MB smartCache ; Seasonic Focus+ Platinum 850W ; be quiet! BASE 601 Window 45bb

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19653
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: PG Turnaj 2024 - testy a nastavení

#24 Příspěvek od forest »

Moc díky za návod a hlavně i to video na jeho konci 33iii

Při minulém nasazení, byly jednotky na stroji, který má adoptovaný overtonesinger zpracovávané o 15-20% rychleji. Díky tomuto postupu můžeme výrazně navýšit výkon na stávajících strojích. Tedy s nulovou investicí a bez navýšení spotřeby.

Prosím o vyzkoušení i na dalších CPU, abychom zjistili, zda to má pozitivní vliv pouze na některou generaci CPU od AMD, nebo na něj máme odkazovat v upoutávce na každé kolo PG turnaje jako na univerzální nástroj. Tedy minimálně pro slepence od AMD 45cc

Uživatelský avatar
RoKro
52.6315789474 %
52.6315789474 %
Příspěvky: 1439
Registrován: pon 31 srp, 2009 08:57
rok narození: 29 črc 1970
ID CNT statistics: 10234
Bydliště: Beroun
Kontaktovat uživatele:

Re: PG Turnaj 2024 - testy a nastavení

#25 Příspěvek od RoKro »

Vliv to asi má na všechny AMD dvoučiplety, minulý rok jsem to tu popisoval ve vztahu ke svému Ryzenu 7900 a dával jsem sem (asi trochu složitější) návod, jak si to nastavit.
Obrázek

Honza
63.1578947368 %
63.1578947368 %
Příspěvky: 3261
Registrován: pát 03 lis, 2006 10:46

Re: PG Turnaj 2024 - testy a nastavení

#26 Příspěvek od Honza »

Myslím, že je to dle mého očekávání.
A ještě důležitější to bude pro dual-CPU sestavy.

Jen nevím, jaký přínos nebo škodu přináší zapnutý HT/SMT v BIOSu...protože snadnosti nastavení pro uživatele ani scheduleru OS to nepřidá.
Honza píše: úte 12 bře, 2024 22:01 Naopak bych čekal, že jsou to prostě velké jednotky, až 24MB cache na FFT, takže kdo nebude mít patřičné CPU na jednu jednotku, bude více omezen rychlostí RAM.
A pokud CCD, tak affinity.
A pokud X3D, tak jednu jednotku na první s velkou cache, druhou na druhý se standardní cache.
Pro CPU <=8 jader bych předpokládal jednu jednotku na plný počet fyzických jader - kvůli tomu, aby se vždy stihla dopočítat neskončilo 4 rozpočítaných, takže je to více o načasování, než maximálním průtoku.

Uživatelský avatar
overtonesinger
26.3157894737 %
26.3157894737 %
Příspěvky: 244
Registrován: stř 02 lis, 2011 22:59
rok narození: 03 pro 1979
ID CNT statistics: 17065
Bydliště: Praha
Kontaktovat uživatele:

Re: PG Turnaj 2024 - testy a nastavení

#27 Příspěvek od overtonesinger »

Moje zkušenost z Intel sestav je, že zapnutí HT (až na vzácné výjimky, např. *prastarý* dvoujádrový XEON) výkonu pomáhá (stejně jako mu pomáhá i ZAP. VTx a VTd). Nejspíš proto, že to zapne SPOUSTU dalších registrů v CPU! A zvýší to i jakousi celkovou efektivitu využití instrukční (i datové) keše (sníží to i režii jinak příliš častého "přepínání" procesů na jádrech: procesy BOINC WU nejsou tak často vytlačovány z CPU jader systémovými procesy, páč mají svou vlastní separátní "frontu" instrukcí = vlákno, takže i pre-fetch dat z RAM funguje celkově ještě lépe - a systémové procesy využívají "IDLE" cykly těch zbylých/lichých vláken, takže často vůbec nezdržují výpočení procesy... narozdíl od situace bez HT, kde výpočty běží na všech např. 8 z osmi jader ---- a furt je odtamtud někdo vytlačuje = pokaždé si musí někam uložit STAV všech registrů......... takže tam je vysoká režije ;) ) 45bb



............ u AMD CPU to bohužel tak jednoznačné není...

U každé generace je to jinak + pro každou kombinaci rychlosti_RAM & velikosti_CACHE se to též liší.
Často na to má vliv i TYP keše......................
(Např ta 3D V-cache je brutálně rychlejší než klasická L3, páč je mnohem blíže všem osmi CPU jádrům - leží totiž těsně nad a pod nimi, jenže kvůli tomu se hrozně těžko chladí!........ Ale svojí rychlostí se tak trošku blíží spíš L2 keši, která je ale přímo v jádru......... čili L2 není sdílená mezi všemi jádry! 45cc 45cc 45cc 45cc 45cc 45cc 45cc 45cc )

Honza píše: stř 20 bře, 2024 09:57 Myslím, že je to dle mého očekávání.
A ještě důležitější to bude pro dual-CPU sestavy.

Jen nevím, jaký přínos nebo škodu přináší zapnutý HT/SMT v BIOSu...protože snadnosti nastavení pro uživatele ani scheduleru OS to nepřidá.
Honza píše: úte 12 bře, 2024 22:01 Naopak bych čekal, že jsou to prostě velké jednotky, až 24MB cache na FFT, takže kdo nebude mít patřičné CPU na jednu jednotku, bude více omezen rychlostí RAM.
A pokud CCD, tak affinity.
A pokud X3D, tak jednu jednotku na první s velkou cache, druhou na druhý se standardní cache.
Pro CPU <=8 jader bych předpokládal jednu jednotku na plný počet fyzických jader - kvůli tomu, aby se vždy stihla dopočítat neskončilo 4 rozpočítaných, takže je to více o načasování, než maximálním průtoku.
statistiky boinc: https://statistiky.czechnationalteam.cz ... user=17065

BRISINGR-II_v4.0: AMD Ryzen 5800X3D + NZXT Kraken X62(mod.: 2x NF-A14 2000 iPPC!), ASUS ROG STRIX X570-F, EVGA RTX 3090 FTW3 Ultra 24GB GDDR6X, dual rank 2x16GB G.Skill DDR4-3600 CL16-18-18-38-58-1T @1.41V, SSD_1: NVMe(4.0) SOLIDIGM P41 Plus 2TB, SSD_2: *prazdny_slot*, SSD_3 SATA: ADATA SU800 256GB (O.S.) ; HDD: 6TB Seagate SkyHawk 256MB smartCache ; Seasonic Focus+ Platinum 850W ; be quiet! BASE 601 Window 45bb

Uživatelský avatar
overtonesinger
26.3157894737 %
26.3157894737 %
Příspěvky: 244
Registrován: stř 02 lis, 2011 22:59
rok narození: 03 pro 1979
ID CNT statistics: 17065
Bydliště: Praha
Kontaktovat uživatele:

Re: PG Turnaj 2024 - testy a nastavení

#28 Příspěvek od overtonesinger »

Ano.
Až na vyjímky jako je Ryzen 1800X, co má 2 CCX (tenkrát ještě CCX obsahoval jen 4 jádra).
Honza píše: úte 12 bře, 2024 22:01 Pro CPU <=8 jader bych předpokládal jednu jednotku na plný počet fyzických jader - kvůli tomu, aby se vždy stihla dopočítat neskončilo 4 rozpočítaných, takže je to více o načasování, než maximálním průtoku.
statistiky boinc: https://statistiky.czechnationalteam.cz ... user=17065

BRISINGR-II_v4.0: AMD Ryzen 5800X3D + NZXT Kraken X62(mod.: 2x NF-A14 2000 iPPC!), ASUS ROG STRIX X570-F, EVGA RTX 3090 FTW3 Ultra 24GB GDDR6X, dual rank 2x16GB G.Skill DDR4-3600 CL16-18-18-38-58-1T @1.41V, SSD_1: NVMe(4.0) SOLIDIGM P41 Plus 2TB, SSD_2: *prazdny_slot*, SSD_3 SATA: ADATA SU800 256GB (O.S.) ; HDD: 6TB Seagate SkyHawk 256MB smartCache ; Seasonic Focus+ Platinum 850W ; be quiet! BASE 601 Window 45bb

technik007.cz
10.5263157895 %
10.5263157895 %
Příspěvky: 88
Registrován: stř 10 kvě, 2023 15:46
rok narození: 01 led 1981
ID CNT statistics: 15985
Bydliště: ostrov na zemekouli

Re: PG Turnaj 2024 - testy a nastavení

#29 Příspěvek od technik007.cz »

overtonesinger píše: stř 20 bře, 2024 18:48 Často na to má vliv i TYP keše......................
(Např ta 3D V-cache je brutálně rychlejší než klasická L3, páč je mnohem blíže všem osmi CPU jádrům - leží totiž těsně nad a pod nimi, jenže kvůli tomu se hrozně těžko chladí!........ Ale svojí rychlostí se tak trošku blíží spíš L2 keši, která je ale přímo v jádru......... čili L2 není sdílená mezi všemi jádry! 45cc 45cc 45cc 45cc 45cc 45cc 45cc 45cc )
To je trochu popletene. V tomto pripade u procesoru Ryzen je rychlejsi cache L3 nez V-cache. A to prave protoze ta je prave na CCD a tudiz je nejblize. Pristup do V-cache je penalizovany extra malou latenci navic, ale protoze je velka, tak dokaze uchovat vice dat nez L3 a usetrit cas, kdyz je potreba sahnout do RAM. Proto se jevi jako rychlejsi.

Take se obecne se tvrdi, ze procesory V-cache jsou rychlejsi. Ale to je taky omyl. V pripade ze dana aplikace si vystaci s L3, tak Ryzeny bez V-cache maji povoleny vetsi teploty a PPT, takze dosahuji vyssich frekvenci a proto vypocty na nich muzou byt i rychlejsi.

Fastest CPUs ww.primegrid.com | GFLOPs/computer
AMD Ryzen 9 7950X 16-Core Processor [Family 25 Model 97 Stepping 2] 228.45
AMD Ryzen 9 7950X3D 16-Core Processor [Family 25 Model 97 Stepping 2] 199.03

AMD Ryzen 7 5800X 8-Core Processor [Family 25 Model 33 Stepping 0] 100.96
AMD Ryzen 7 5800X3D 8-Core Processor [Family 25 Model 33 Stepping 2] 88.23

Honza
63.1578947368 %
63.1578947368 %
Příspěvky: 3261
Registrován: pát 03 lis, 2006 10:46

Re: PG Turnaj 2024 - testy a nastavení

#30 Příspěvek od Honza »

A právě z uvedených důvodů je dobré vědět, kolik cache je na daný projekt/task potřeba, což je podle velikosti FFT.
Nárok na cache ani její velikost u CPU neovlivníme, ale ovlivníme počet běžících jednotek a případně afinitu.

Na mém dosluhujícím 2x16 CPU jsem změnil počítání ze 4x7 (které pro jiné tasky vyhovuje) na 2x15.
Očekávám stažení času třeba z 28 hodin při x4 na 8,5 hodin při x2 tasků, resp. ze 7 na 4 a kousek za task (při zachování správné afinity).
I když třeba 15 threadů nemusí ideálně škálovat, tak cache rozhoduje.

U výpočtů na PG platí, že dokud se vejde task do cache, je vyhráno - podobně jako dokud se vejde DB do RAM (a nesahá se na disk), je výkonnostně vyhráno.

technik007.cz
10.5263157895 %
10.5263157895 %
Příspěvky: 88
Registrován: stř 10 kvě, 2023 15:46
rok narození: 01 led 1981
ID CNT statistics: 15985
Bydliště: ostrov na zemekouli

Re: PG Turnaj 2024 - testy a nastavení

#31 Příspěvek od technik007.cz »

Mam narychlo usity script, ktery nastavuje afinitu na linuxu pro 16-ti jadro s HT.
tj. napriklad pro 5950X

#!/bin/bash
# pro porozumeni cislovani nejdrive vypis jader a jejich sourozencu HT
# for i in {0..15}; do cat /sys/devices/system/cpu/cpu${i}/topology/thread_siblings_list; done
# vyfiltrovani tasku a extrahovani pid
j=1; for i in `ps ax | grep primegrid | grep RNl | cut -d' ' -f2`;
# zapsani dvou pid do pole
do kralici[${j}]=${i} ; ((j++)); done ;
# zobrazeni pid
for k in 1 2; do echo ${kralici[${k}]}; done
# nastaveni afinity pro 2 tasky a pro jejich deti
taskset -cpa 0-7 ${kralici[1]}; taskset -cpa 8-15 ${kralici[2]};

technik007.cz
10.5263157895 %
10.5263157895 %
Příspěvky: 88
Registrován: stř 10 kvě, 2023 15:46
rok narození: 01 led 1981
ID CNT statistics: 15985
Bydliště: ostrov na zemekouli

Re: PG Turnaj 2024 - testy a nastavení

#32 Příspěvek od technik007.cz »

Dalsi zapas v turnaji bude zajimavejsi, protoze je na delsi o 2 dny a jednotky jsou kratsi.
Tudiz se budou moct zapojit slabsi stroje.

Nevite nahodou, jak omezit pocitani urcite aplikace, kdyz si v primegrid settings nastavim treba 2 ruzne app pro cpu?
Kdyby to slo pres app_config.xml bylo by to super.

Honza
63.1578947368 %
63.1578947368 %
Příspěvky: 3261
Registrován: pát 03 lis, 2006 10:46

Re: PG Turnaj 2024 - testy a nastavení

#33 Příspěvek od Honza »

technik007.cz píše: pon 25 bře, 2024 13:15 Nevite nahodou, jak omezit pocitani urcite aplikace, kdyz si v primegrid settings nastavim treba 2 ruzne app pro cpu?
Kdyby to slo pres app_config.xml bylo by to super.
V čem má spočívat to omezení?
Třeba v tom, že ze 16 jader se má polovina využít na jednu appku a druhá pro jinou?
Přijde mi ovladatelnější si udělat dvě instance BOINCu a každou omezit na % CPU.

Nebo třeba jen jednu jednotku z jedné appky a zbytek jet druhou appku?
Opět dvě instance.

Nebo ještě jinak?

Honza
63.1578947368 %
63.1578947368 %
Příspěvky: 3261
Registrován: pát 03 lis, 2006 10:46

Re: PG Turnaj 2024 - testy a nastavení

#34 Příspěvek od Honza »

TRP má "průměrnou" dobu výpočtu 51 hodin...ale předchozí ESP je ~3x větší.

Slušný CPU (AMD AVX-512) to při 7 vláknech dá za 2-3 hodiny, takže to není takový masakr, jak by se mohlo zdát.

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19653
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: PG Turnaj 2024 - testy a nastavení

#35 Příspěvek od forest »

Postuji vhodného kandidáta pro testy "364903*2^15158655-1".

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19653
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: PG Turnaj 2024 - testy a nastavení

#36 Příspěvek od forest »

Nastavení pro AMD 5950X mě vychází nejlépe na 2x8 jader.

technik007.cz
10.5263157895 %
10.5263157895 %
Příspěvky: 88
Registrován: stř 10 kvě, 2023 15:46
rok narození: 01 led 1981
ID CNT statistics: 15985
Bydliště: ostrov na zemekouli

Re: PG Turnaj 2024 - testy a nastavení

#37 Příspěvek od technik007.cz »

U AMD 5950X jsou pri zapnuti afinity na fyzicke jadra zajimave dve veci.
Spotreba mirne klesne, ale vykon mirne naroste.
Pokud se pocitaji tasky 2*16, tak pri zapnuti afinity na fyzicke jadra to jede taky o neco rychleji trebaze 1 jadro pocita 2 vlakna. V htop se to jevi ze HT sourozenci jsou neobsazeni.

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19653
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: PG Turnaj 2024 - testy a nastavení

#38 Příspěvek od forest »

Díky za upozornění 33iii
Ještě jsem si s tím testováním před startem pohrál a nakonec vyšlo opravdu lépe 2x16.

technik007.cz
10.5263157895 %
10.5263157895 %
Příspěvky: 88
Registrován: stř 10 kvě, 2023 15:46
rok narození: 01 led 1981
ID CNT statistics: 15985
Bydliště: ostrov na zemekouli

Re: PG Turnaj 2024 - testy a nastavení

#39 Příspěvek od technik007.cz »

Aby jsme si rozumneli, na jednotkach 2*16 behem testu pred turnajem, jsem jenom testoval vliv afinity .

V turnaji jsem pak presel na 2*8 a mam pocit ze jsou to trosku rychlejsi, protoze par jednotek se spocitalo pod 11000s. Ale aby to nebylo tak jednoduche, tak me ovlivnuje vykon i teplota v mistnosti, protoze cpu ted dosahuje max teploty 90C. Jednotky zpracovane v noci tak muzou dosahnout lepsich casu z duvodu chladnejsiho okolniho vzduchu.

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19653
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: PG Turnaj 2024 - testy a nastavení

#40 Příspěvek od forest »

Ještě že se od zítra ještě více ochladí 45hh

Odpovědět

Zpět na „Prime Grid“