PG Turnaj 2024 - testy a nastavení
- RoKro
- 52.6315789474 %
- Příspěvky: 1468
- Registrován: pon 31 srp, 2009 08:57
- rok narození: 29 črc 1970
- ID CNT statistics: 10234
- Bydliště: Beroun
- Kontaktovat uživatele:
Re: PG Turnaj 2024 - testy a nastavení
Anebo to vyzkoušet, zapnout balancer a podívat se, jak ty úlohy rozhodil. Po turnaji. Třeba nám to ale Honza rovnou potvrdí, že to tak dělá.
Re: PG Turnaj 2024 - testy a nastavení
Ale vždyť už jsem psal: Celé to pokryje Process Lasso, nejsnadněji třeba instance balancer, kam dám proces prst_boinc_win64*.exe a je mi jedno, jaká to je verze, kolik cores zrovna daný stroj má.
A pak je mi jedno, jestli na 2x16-core jede 4x8 PRST verze 286 nebo 2x16 PRST verze 386 nebo 8x4 verse PRST 486 nebo 16x2 verze PRST 777 nebo 32x1 PRST verze 999 - instance balancer to rozdělí rovným dílem.
Ano, pochopitelně to mám vyzkoušené a dělám to tak.
Pozor si na to dejte jen při testování - pokud BOINCu dáte Snooze a zůstanou vám úlohy v paměti, při puštění testovacího balíčku to budou další instance té aplikace a affinita se opět přerozdělí podle jejich celkového počtu.
Aktuální verze Process Lasso rozumí jednotlivým CCD, takže pro fajnšmekry můžete snadno dát třeba process MPC-HC a CCD0, které má 3D cache a zase něco jiného na CCD1, která má vyšší frekvence.
Kdo chce jít dál, může si dělat různé CPU Sets (třeba podle maximální frekvence konkrétních jader) a těm přiřazovat procesy.
Process Lasso umí i složitější pravidla přes regulární výrazy, montovat do toho pod kterým uživatelem to běží (krotit systémové procesy) nebo to zvelebovat přes parent process - třeba vše co je puštěno z TotalCMD nebo...ano, co pouští boinc.exe
Loni jsme Process Lasso také diskutovali, instance balancer tam také padnul.
A pak je mi jedno, jestli na 2x16-core jede 4x8 PRST verze 286 nebo 2x16 PRST verze 386 nebo 8x4 verse PRST 486 nebo 16x2 verze PRST 777 nebo 32x1 PRST verze 999 - instance balancer to rozdělí rovným dílem.
Ano, pochopitelně to mám vyzkoušené a dělám to tak.
Pozor si na to dejte jen při testování - pokud BOINCu dáte Snooze a zůstanou vám úlohy v paměti, při puštění testovacího balíčku to budou další instance té aplikace a affinita se opět přerozdělí podle jejich celkového počtu.
Aktuální verze Process Lasso rozumí jednotlivým CCD, takže pro fajnšmekry můžete snadno dát třeba process MPC-HC a CCD0, které má 3D cache a zase něco jiného na CCD1, která má vyšší frekvence.
Kdo chce jít dál, může si dělat různé CPU Sets (třeba podle maximální frekvence konkrétních jader) a těm přiřazovat procesy.
Process Lasso umí i složitější pravidla přes regulární výrazy, montovat do toho pod kterým uživatelem to běží (krotit systémové procesy) nebo to zvelebovat přes parent process - třeba vše co je puštěno z TotalCMD nebo...ano, co pouští boinc.exe
Loni jsme Process Lasso také diskutovali, instance balancer tam také padnul.
Re: PG Turnaj 2024 - testy a nastavení
Jo, po turnaji je pozdě - kromě toho, že se to mělo řešit před turnajem, tak se potencionálně zbytečně přijde o výkon během turnaje, kdy je nejvíce potřeba.
Předpokládal jsem, že si toto ladíte, když si pouštíte můj testovací balíček.
Podle mě jedině tak lze dobře optimalizovat výkon - zjišťuji optimální počet threadů a tasků za (snadného) použití affinity.
Alespoň tak to dělám, přijde mi to rychlé a efektivní - proto jsem balíček dělal a Process Lasso doporučoval horem dolem.
Předpokládal jsem, že si toto ladíte, když si pouštíte můj testovací balíček.
Podle mě jedině tak lze dobře optimalizovat výkon - zjišťuji optimální počet threadů a tasků za (snadného) použití affinity.
Alespoň tak to dělám, přijde mi to rychlé a efektivní - proto jsem balíček dělal a Process Lasso doporučoval horem dolem.
- RoKro
- 52.6315789474 %
- Příspěvky: 1468
- Registrován: pon 31 srp, 2009 08:57
- rok narození: 29 črc 1970
- ID CNT statistics: 10234
- Bydliště: Beroun
- Kontaktovat uživatele:
Re: PG Turnaj 2024 - testy a nastavení
V klídku, Honzo, já to možná nepopsal úplně pochopitelně, takhle na dálku a na etapy a písemně snadno může dojít k menšímu nedorozumění.
Ano, Process Lasso na základě tvého tipu už asi rok používám, v podstatě od pořízení té 7900. Jen to používám jinak, asi zbytečně složitě, ale výkonem neplýtvám, právě pomocí PL mám přiřazeno počítání jednotky z jednoho boinc klienta na jádra jednoho čipletu a počítání jednotky z druhého boinc klienta na jádra druhého čipletu. (Dokonce jsem k tomu sesmolil i návod a dal ho tady k dispozici ostatním.) A podobné pravidlo jsem si do PL vložil pro testovací balíček, který jsem měl taky rozkopírovaný do dvou složek a pouštěl to, zase asi zbytečně složitě, nadvakrát. Ale cíle jsem tím dosáhl.
Vím, že jsi ten instance balancer zmiňoval už dřív, ale já z toho nepochopil, že při rozdělování zátěže umí PL brát v úvahu i jednotlivá CCD, nečekal jsem, že ten automat je takhle chytrej.
Tím "po turnaji" jsem myslel, že teď nebudu do ničeho hrabat a nechám to počítat s afinitou na čiplety pořešenou mým starým složitějším způsobem a tu variantu s instance balancerem vyzkouším později.
Tvých rad i tipů si vážím a neignoruji je, ostatně proto se taky přímo na tebe občas obracím (jen ne vždy pochopím všechno do detailu, když pro tebe je to třeba jasné a jen naznačíš a pro mě je to něco nového).
Ano, Process Lasso na základě tvého tipu už asi rok používám, v podstatě od pořízení té 7900. Jen to používám jinak, asi zbytečně složitě, ale výkonem neplýtvám, právě pomocí PL mám přiřazeno počítání jednotky z jednoho boinc klienta na jádra jednoho čipletu a počítání jednotky z druhého boinc klienta na jádra druhého čipletu. (Dokonce jsem k tomu sesmolil i návod a dal ho tady k dispozici ostatním.) A podobné pravidlo jsem si do PL vložil pro testovací balíček, který jsem měl taky rozkopírovaný do dvou složek a pouštěl to, zase asi zbytečně složitě, nadvakrát. Ale cíle jsem tím dosáhl.
Vím, že jsi ten instance balancer zmiňoval už dřív, ale já z toho nepochopil, že při rozdělování zátěže umí PL brát v úvahu i jednotlivá CCD, nečekal jsem, že ten automat je takhle chytrej.
Tím "po turnaji" jsem myslel, že teď nebudu do ničeho hrabat a nechám to počítat s afinitou na čiplety pořešenou mým starým složitějším způsobem a tu variantu s instance balancerem vyzkouším později.
Tvých rad i tipů si vážím a neignoruji je, ostatně proto se taky přímo na tebe občas obracím (jen ne vždy pochopím všechno do detailu, když pro tebe je to třeba jasné a jen naznačíš a pro mě je to něco nového).
- RoKro
- 52.6315789474 %
- Příspěvky: 1468
- Registrován: pon 31 srp, 2009 08:57
- rok narození: 29 črc 1970
- ID CNT statistics: 10234
- Bydliště: Beroun
- Kontaktovat uživatele:
Re: PG Turnaj 2024 - testy a nastavení
Nenapadá vás, proč by cpu 11700K počítal víc než dvakrát tak dlouho co cpu 12700K? Oba osm jader (E jádra mám u 12700K vypnutá), oba AVX-512, oba mají slušné ramky, oba k dispozici 100% procesorového času a u obou je ostatní zátěž na podobné úrovni. Ten rozdíl mi přijde příliš.
Re: PG Turnaj 2024 - testy a nastavení
Sázel bych na rozdíl v cache.
11700K má L1 64K per core, 12700K 80K per core.
11700K má L2 512K per core, kdežto 12700K má 12MB shared.
11700K má na úrovni L3 16MB, kdežto 12700K prý 25MB.
11700K má necelých 30MB, kdežto 12700K má řekněme 38MB.
Ani by mě nepřekvapilo, kdyby byl i rozdíl podle toho, jaká jednotka se počítá - jak jsem na začátku zmiňoval, CGW má relativně velký rozdíl ve velikost FFT a tedy i nároky na CPU cache.
Zrovna tyto dva procesory zrovna na tomto projektu jsou na hraně / za hranou a rozdíl per core nebo share (což asi při MT dělá služný rozdíl).
Dovolil bych se předpovědět, že u PPSE by ten rozdíl nebyl takový.
(tento CPU nemám, ani nemám jak ověřit).
11700K má L1 64K per core, 12700K 80K per core.
11700K má L2 512K per core, kdežto 12700K má 12MB shared.
11700K má na úrovni L3 16MB, kdežto 12700K prý 25MB.
11700K má necelých 30MB, kdežto 12700K má řekněme 38MB.
Ani by mě nepřekvapilo, kdyby byl i rozdíl podle toho, jaká jednotka se počítá - jak jsem na začátku zmiňoval, CGW má relativně velký rozdíl ve velikost FFT a tedy i nároky na CPU cache.
Zrovna tyto dva procesory zrovna na tomto projektu jsou na hraně / za hranou a rozdíl per core nebo share (což asi při MT dělá služný rozdíl).
Dovolil bych se předpovědět, že u PPSE by ten rozdíl nebyl takový.
(tento CPU nemám, ani nemám jak ověřit).
- RoKro
- 52.6315789474 %
- Příspěvky: 1468
- Registrován: pon 31 srp, 2009 08:57
- rok narození: 29 črc 1970
- ID CNT statistics: 10234
- Bydliště: Beroun
- Kontaktovat uživatele:
Re: PG Turnaj 2024 - testy a nastavení
Hmm, dík, to by mohlo být ono. Koukal jsem schválně i na konkrétní jednotky se stejným FFT. Není to jen záležitost tohoto turnajového kola, už jsem si toho všiml dříve u kol na jiných podprojektech. No nic, stejně bude vyměněn za Ryzen 9000
-
- 21.0526315789 %
- Příspěvky: 172
- Registrován: stř 10 kvě, 2023 15:46
- rok narození: 01 led 1981
- ID CNT statistics: 15985
- Bydliště: ostrovy
Re: PG Turnaj 2024 - testy a nastavení
Anebo prostě ten 11700K má slabší implementaci AVX512, protože moje APU 7940HS má velikosti keší stejné jak tento slabší CPU. Ale že by se tak moc propadal za ostatníma Zen čtverkama s 32MB L2 se říct nedá. Táhne ho dolů nízké TDP 45W / PPT 65W /.
Statistiky za 24h: nejlepší jednotku má za 23375s a nejhorší jednotku za 28210s.
Ale je možné že se to zlomí protože ta poslední má 3136K FFT a ta rychlejší FFT 2688K.
7950x dává průměrně jednotku za 19-23tis s.
Statistiky za 24h: nejlepší jednotku má za 23375s a nejhorší jednotku za 28210s.
Ale je možné že se to zlomí protože ta poslední má 3136K FFT a ta rychlejší FFT 2688K.
7950x dává průměrně jednotku za 19-23tis s.
-
- 5.26315789474 %
- Příspěvky: 35
- Registrován: stř 24 lis, 2021 16:47
- rok narození: 16 zář 1990
- ID CNT statistics: 2496
- Bydliště: Praha
Re: PG Turnaj 2024 - testy a nastavení
16MB L3 už je na GCW málo a pokud cache nestačí, tak výpočet začne být limitovaný RAMkou, protože ta data je třeba odněkud brát.
u 11700K to znamená propad z 300GB/s -> 50GB/s a zhoršení latence 12ns -> 50ns. Pro porovnání L3 u 9950x má propustnost 1600GB/s (~7ns).
primegrid aplikace jsou obecně na cache/latence opravdu citlivé, takže i těch pár chybějících MB L3 cache může být slušný zabiják výkonu. Pro turnaj se každá jednotka počítá, ale mimo něj bych raději vybral jinou aplikaci, která se do cache vejde.
u 11700K to znamená propad z 300GB/s -> 50GB/s a zhoršení latence 12ns -> 50ns. Pro porovnání L3 u 9950x má propustnost 1600GB/s (~7ns).
primegrid aplikace jsou obecně na cache/latence opravdu citlivé, takže i těch pár chybějících MB L3 cache může být slušný zabiják výkonu. Pro turnaj se každá jednotka počítá, ale mimo něj bych raději vybral jinou aplikaci, která se do cache vejde.
-
- 21.0526315789 %
- Příspěvky: 172
- Registrován: stř 10 kvě, 2023 15:46
- rok narození: 01 led 1981
- ID CNT statistics: 15985
- Bydliště: ostrovy
Re: PG Turnaj 2024 - testy a nastavení
Tak propad 20% vykonu mezi tou 1. a 2. konkretnich jednotku neni tragedie, protoze zatim je to APU 7940HS i tak porad rychlejsi a efektivnejsi nez predesla achitektura Zen3. A nechava za sebou i CPU predeslych generaci se stejne velkyma cachema. Ze by dusledek sparovani s DDR5?
Technicky vzato to APU ma mene cache, aby dalo prostor iGPU 780M, ktere je na bazi RNDA3. Na tom se uz daji hrat hry, ale i pocitat GPU projekty v dost rozumnejsich casech nez na IntelHD, casove to byly hodiny vs dny.
Kdybych chtel zustat v mobilnim a efektivni sektoru, tak pak dalsi moznost je jit do 7945HX3D s 128 MB L3 nebo 7945HX s 64MB L3. Jenomze tento CPU je jenom v hlucnych laptopech a ma pomalou grafiku RNDA2. To druhe muzu ignorovat, kdyz tento CPU je parovan s mobilni grafikou. Dal jsem si tu praci a nasel jsem ho v jednom miniPC, ono jich vic snad opravdu neni, AtomMan G7 PT se jmenuje, ale tam jsem se nedobral k feedbacku ohledne hlucnosti. Pak je tento CPU onboard na MINISFORUM BD790i ITX Motherboard. Zajimava deska s primo napajenym CPU a heatsinkem. Novejsi CPU Zen5 zatim nejsou dostupne v tomto sektoru krome drahe novinky Beelink SER9 AMD Ryzen™ AI 9 HX 370 Processor 12C/24T. Tam je zajimave to, ze ten CPU je stale monolit, idkyz s nakombinovanymi Zen5/5c jadry. Takze bych nemusel resit afinitu a CCD, jenom vypl SMT. Pro vsechny tyto plati ze jsou efektivnejsi, tudiz mene generovaneho tepla a domaci pohody, ale za to se musi zaplatit vice, bohuzel.
A proc mobilni a efektivni sektor? Pokud mate pocitac doma, tak odpoved na tu otazku v lete prijde sama. A o projekt primegrid nemusime mit strach, protoze to je nekonecny projekt. Ten tady bude, ikdyz ja tady nebudu. Ale abych ja tady nebyl, protoze tady je on (prilis velke horko), to bych byl nerad.
Technicky vzato to APU ma mene cache, aby dalo prostor iGPU 780M, ktere je na bazi RNDA3. Na tom se uz daji hrat hry, ale i pocitat GPU projekty v dost rozumnejsich casech nez na IntelHD, casove to byly hodiny vs dny.
Kdybych chtel zustat v mobilnim a efektivni sektoru, tak pak dalsi moznost je jit do 7945HX3D s 128 MB L3 nebo 7945HX s 64MB L3. Jenomze tento CPU je jenom v hlucnych laptopech a ma pomalou grafiku RNDA2. To druhe muzu ignorovat, kdyz tento CPU je parovan s mobilni grafikou. Dal jsem si tu praci a nasel jsem ho v jednom miniPC, ono jich vic snad opravdu neni, AtomMan G7 PT se jmenuje, ale tam jsem se nedobral k feedbacku ohledne hlucnosti. Pak je tento CPU onboard na MINISFORUM BD790i ITX Motherboard. Zajimava deska s primo napajenym CPU a heatsinkem. Novejsi CPU Zen5 zatim nejsou dostupne v tomto sektoru krome drahe novinky Beelink SER9 AMD Ryzen™ AI 9 HX 370 Processor 12C/24T. Tam je zajimave to, ze ten CPU je stale monolit, idkyz s nakombinovanymi Zen5/5c jadry. Takze bych nemusel resit afinitu a CCD, jenom vypl SMT. Pro vsechny tyto plati ze jsou efektivnejsi, tudiz mene generovaneho tepla a domaci pohody, ale za to se musi zaplatit vice, bohuzel.
A proc mobilni a efektivni sektor? Pokud mate pocitac doma, tak odpoved na tu otazku v lete prijde sama. A o projekt primegrid nemusime mit strach, protoze to je nekonecny projekt. Ten tady bude, ikdyz ja tady nebudu. Ale abych ja tady nebyl, protoze tady je on (prilis velke horko), to bych byl nerad.
-
- 21.0526315789 %
- Příspěvky: 172
- Registrován: stř 10 kvě, 2023 15:46
- rok narození: 01 led 1981
- ID CNT statistics: 15985
- Bydliště: ostrovy
Re: PG Turnaj 2024 - testy a nastavení
Jsem si nasel vykon procesoru 5950X a 9950X na teto aplikaci GCW. Asi to nikoho prekvapi nebo uz to asi vite, ale prumerny rozdil je dvojnasobny.
Pak se proslycha, ze nastupujici procesor 9950X3D ma mit organizovanou 3D V-Cache lepe nez predchozi model, cekat ci necekat?
Do toho ma brzo vyjit Strix Point 375 (to je zase pro me), ktery potlaci cenu predchoziho modelu 370, ktery je uz k mani. Ten krome silneho AI akceleratoru ma iGPU na urovni Nvidia 1650. Pro nekoho stale slaby graficky vykon, ale na retro hrani na FullHD idealni. V nouzi lze vyuzit eGPU.
Pockam na Black friday nebo Cyber monday, kdyz uz topna sezona zacala a 5950X tak krasne hreje. A jestli ma nekdo procesor starsi generace lze vyuzit slevy na Zen4, tj. generaci predchozi. A pro ty, ktere upgrade neni priorita a prispivaji do distribuovanych vypoctu na starsim HW, porad po sobe zanechavate nesmazatelnou stopu o dost vice nez ti kdo pouzivaji pocitac jenom na hrani a pri otazce: "Nechtel by ses taky zapojit?" se dostane odpovedi typu: "A kolik mi za to daji?" ..."To jako delate zadarmo?"... "Sorry, ale mam jine priority"... "Mam rodinu (jako kdyby nej mirili samopalem )"
Takze distribuovanym vypoctum zdar !
Pak se proslycha, ze nastupujici procesor 9950X3D ma mit organizovanou 3D V-Cache lepe nez predchozi model, cekat ci necekat?
Do toho ma brzo vyjit Strix Point 375 (to je zase pro me), ktery potlaci cenu predchoziho modelu 370, ktery je uz k mani. Ten krome silneho AI akceleratoru ma iGPU na urovni Nvidia 1650. Pro nekoho stale slaby graficky vykon, ale na retro hrani na FullHD idealni. V nouzi lze vyuzit eGPU.
Pockam na Black friday nebo Cyber monday, kdyz uz topna sezona zacala a 5950X tak krasne hreje. A jestli ma nekdo procesor starsi generace lze vyuzit slevy na Zen4, tj. generaci predchozi. A pro ty, ktere upgrade neni priorita a prispivaji do distribuovanych vypoctu na starsim HW, porad po sobe zanechavate nesmazatelnou stopu o dost vice nez ti kdo pouzivaji pocitac jenom na hrani a pri otazce: "Nechtel by ses taky zapojit?" se dostane odpovedi typu: "A kolik mi za to daji?" ..."To jako delate zadarmo?"... "Sorry, ale mam jine priority"... "Mam rodinu (jako kdyby nej mirili samopalem )"
Takze distribuovanym vypoctum zdar !
Re: PG Turnaj 2024 - testy a nastavení
Zaktualizoval jsem do sekce ke stažení testovací balíček, je v něm novější verze PRST, která je v rámci BOINCu distribuována.
New in version 13.0:
- Deterministic Pocklington and Morrison tests for numbers with many different N-1 or N+1 factors, like N!+1, N!-1, N#+1, N#-1.
Factorials, multifactorials, primorials (and other numbers with lots of factors at low powers) need a specialized version of deterministic tests for acceptable performance. Those specialized versions are implemented with full use of Gerbicz-Li check for both +1 and -1 numbers.
New in version 13.0:
- Deterministic Pocklington and Morrison tests for numbers with many different N-1 or N+1 factors, like N!+1, N!-1, N#+1, N#-1.
Factorials, multifactorials, primorials (and other numbers with lots of factors at low powers) need a specialized version of deterministic tests for acceptable performance. Those specialized versions are implemented with full use of Gerbicz-Li check for both +1 and -1 numbers.