sem snímDzordzik píše:Takže máš denní RAC kolem 74 000 jestli dobře počítám průměrný čas dejme tomu 2300s při 4 tascích najednou.
U mě byl problém pro změnu mezi klávesnicí a židlí. HW jsem vypnul HT ale v cc configu zůstal počet jader 88 a on je emuloval a počítal 88 výpočtů na 44 fyzických jádrech. Proto takovej maglajz. Už jsem se vyfackoval. Zrovna počítám 44 jednotek najednou pomocí SSE3, pak pomocí AVX a nakonec FMA. uvidíme co z toho vyleze za výsledky. Pak to sem postnu jestli je zájem.
Aplikace
-
- 52.6315789474 %
- Příspěvky: 1325
- Registrován: úte 03 úno, 2009 21:23
- rok narození: 03 bře 1984
- ID CNT statistics: 10156
- Bydliště: Opava
Re: Aplikace
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Aplikace
Tak zatím otestováno:
SSE3 (44 tasků při 2805 MHz) - denní RAC 282k.
AVX (44 tasků při 2605 MHz) - denní RAC 432k
FMA budu testovat večer.
SSE3 (44 tasků při 2805 MHz) - denní RAC 282k.
AVX (44 tasků při 2605 MHz) - denní RAC 432k
FMA budu testovat večer.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Aplikace
Chápu, každému z nás jednou nebude hej, dřív nebo později. Pošli mi do SZ co jsem ti psal a pořešíme to ja?eisler jiri píše:dzordzíku je mi jasné, že to myslíš dobře. ale uvědom si, že jsme každý jiný ročník a co je pro tebe halířofka, pro mne občas neskutečný problém. jistě bych toho compíka na balkón donesl, ale pokud bych se k němu sehnul tak se tejden nezvednu 45hh holt jsem si přivodil mnoho komplikací sportem a špatnou životosprávou. ale na 70let to zase není tak hrozné. to mí spolužáci (ty srazy) jsou na tom již z více než z 40% lépe (jsou již za vodou) můj táta to taky zabalil v 63letech :smt102 45kk 45kk 45kk
před deseti lety bych si něco podobného ani nepřipustil.
proč asi myslíš, že jsem se vzdal auta? protože již pro mě nebylo užitečné. jezdit bylo bez problémů, ale odnést nákup do auta :smt102 a gdyž jsem kvůliva čištění vozovek v dubnu musel odstavit asi o šest set metrů dál, tak jsem myslel, že dojít domu se mi nepodaří letos.
jasně, že toto do tohoto vlákna nepatří tak to nenym klidně smázni
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
-
- 52.6315789474 %
- Příspěvky: 1325
- Registrován: úte 03 úno, 2009 21:23
- rok narození: 03 bře 1984
- ID CNT statistics: 10156
- Bydliště: Opava
Re: Aplikace
Takže bych měl mít necelý dvojnásobek výkonu na jádro při avx ty máš 9800, já mám 18500.
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Aplikace
To jo ale máš taky skoro 2násobnou frekvenci.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Aplikace
To jo ale máš taky skoro 2násobnou frekvenci a novější řadu CPU s lepším IPC.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Aplikace
Tak jsem dotestoval Asteroids s takovýmito výsledky:
při 44 souběžně počítaných tascích Asteroids:
SSE3 / 2800 MHz prům. čas na jednotku 6469 a denní RAC 282 072
AVX / 2600 MHz je to 4221 a RAC 432 337
FMA / 2600 MHz 4343 a RAC 420 139.
Takže AVX je u mě nejefektivnější. U FMA je i cca o 1-2 st menší teplota jader. Tak jak tak se to ale drží kolem 50st ať dělám co dělám.
při 44 souběžně počítaných tascích Asteroids:
SSE3 / 2800 MHz prům. čas na jednotku 6469 a denní RAC 282 072
AVX / 2600 MHz je to 4221 a RAC 432 337
FMA / 2600 MHz 4343 a RAC 420 139.
Takže AVX je u mě nejefektivnější. U FMA je i cca o 1-2 st menší teplota jader. Tak jak tak se to ale drží kolem 50st ať dělám co dělám.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
- forest
- Admin webu a fóra CNT
- Příspěvky: 19643
- Registrován: pát 27 říj, 2006 10:19
- rok narození: 03 bře 1977
- ID CNT statistics: 71
- Bydliště: Újezd u Brna
Re: Aplikace
Moc díky za ty výsledky. Na jeden stroj je to neskutečná porce výkonu. Je to jako mít celou farmu v jedné skříni
-
- 57.8947368421 %
- Příspěvky: 2448
- Registrován: ned 12 úno, 2017 00:26
- rok narození: 18 zář 1980
- ID CNT statistics: 503
- Bydliště: Zdounky (u Kroměříže)
- Kontaktovat uživatele:
Re: Aplikace
Mě na tom hlavně řtěší to ticho a teploty pokud jde o CPU. Samozřejmě grafiky jsou jiná káva, ty jak sepnout, tak je veselo. A to tam jsou zatím jenom dvě. naštěstí chlazení je nadimenzované snad dobře, tak doufám že to bude ok až jich bude víc.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W
-
- 78.9473684211 %
- Příspěvky: 7610
- Registrován: úte 13 led, 2009 15:33
- rok narození: 0- 0-1956
- ID CNT statistics: 10124
Re: Aplikace
Ono je to trošku úplně naopak. NV aplikace zase taková bída u GPU se slušným výkonem v DP není, spíše je to standard; Zdenkovi se však podařilo až neuvěřitelně dobře optimalizovat kód pro CPU/AVX2 a to ne nějakými přepínači kompilátoru, ale kód napsal víceméně znova.Czech Human píše: ↑úte 23 říj, 2018 22:21... Škoda jen že asteroidy nemají opencl aplikaci pro AMD a GPU aplikace pro nvidii je výkonem dost bída oproti dnešním 32/64 vláknovým CPU....
Blíží se konsolidační balíček pětikolky; šetřím trojbojem - piji staré víno, jím plesnivé sýry a jezdím v autě bez střechy.
UotD 767x
1x 3x 9x 12x
UotD 767x
1x 3x 9x 12x
- Czech Human
- 52.6315789474 %
- Příspěvky: 1372
- Registrován: sob 30 bře, 2013 14:16
- rok narození: 0- 0-1981
- ID CNT statistics: 19867
- Bydliště: Praha
Re: Aplikace
To asi ano, je to dobrý programátor. Místo SMT se zaměřil na dobré využití jednoho jádra a paralelismus zpracování vzhledem k snesitelnému času na zpracování jedné úlohy dává velmi pěkné výsledky. Ta aplikace je dobře algoritmizovatelná za využití moderních instrukčních sad a kyong to umí a ví přesně co chce. Taky bych rád uměl programovat jako on.
Vzhůru pro body na linuxu .
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
-
- 78.9473684211 %
- Příspěvky: 7610
- Registrován: úte 13 led, 2009 15:33
- rok narození: 0- 0-1956
- ID CNT statistics: 10124
Re: Aplikace
Upřesnění - optimalizaci pro moderní instrukční sady psal Zdeněk Vašků, nikoli kyong.
Blíží se konsolidační balíček pětikolky; šetřím trojbojem - piji staré víno, jím plesnivé sýry a jezdím v autě bez střechy.
UotD 767x
1x 3x 9x 12x
UotD 767x
1x 3x 9x 12x
- Czech Human
- 52.6315789474 %
- Příspěvky: 1372
- Registrován: sob 30 bře, 2013 14:16
- rok narození: 0- 0-1981
- ID CNT statistics: 19867
- Bydliště: Praha
Re: Aplikace
Aha, to jsem nevěděl. Bylo by zajímavé kdyby s ním byl třeba nějaký rozhovor na toto téma pokud už v minulosti neproběhl nebo malý článeček, myslím že nejen já bych si rád přečetl jak se taková aplikace vyvíjí a optimalizuje.
Vzhůru pro body na linuxu .
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
-
- 78.9473684211 %
- Příspěvky: 7610
- Registrován: úte 13 led, 2009 15:33
- rok narození: 0- 0-1956
- ID CNT statistics: 10124
Re: Aplikace
Humane, řekl bych, že jsi byl přímo v centru dění viewtopic.php?f=284&t=2956&start=300#p67770. Asi jsi nezachytil, že vývoje do aplikací s pokročilými instrukcemi jsme byli zapojeni nejméně tři. Zdenek kódoval, já jsem testoval aplikace na rozsáhlé množině CPU, které jsem měl v té době po palcem spolu s dalšími masochisty a kyong upravoval server na stále se měnící nové aplikace. Zejména Zdenek a kyong měli pěkný fofr.
Blíží se konsolidační balíček pětikolky; šetřím trojbojem - piji staré víno, jím plesnivé sýry a jezdím v autě bez střechy.
UotD 767x
1x 3x 9x 12x
UotD 767x
1x 3x 9x 12x
- Czech Human
- 52.6315789474 %
- Příspěvky: 1372
- Registrován: sob 30 bře, 2013 14:16
- rok narození: 0- 0-1981
- ID CNT statistics: 19867
- Bydliště: Praha
Re: Aplikace
Díky za odkaz, já si to zpětně pročtu. Ale já jsem takový zvědavý invalida Karásek - mě by zajímaly technické detaily jako v jakém jazyku to je napsané, případně co přidalo výkonu více a co méně, prostě takové třešničky co se na fóru neřeší, tady se leda porovná čas výpočtu a maximálně OS + architektura na které to běželo . Ale také si uvědomuji že jednak to snadno může být obtížně vysvětlitelné a není to na 5 minut a že Zdenek nemusí být ani moc ochotný se bavit s náhodnými lidmi z internetu o svém know-how . Já se totiž pořád ještě nezbavil touhy vzít i asteroidní GPU aplikaci a přidat ji do testovacího skriptu i když je jen pro nvidii, tak mě zajímaji i věci okolo. Je škoda že není aplikace taky pro AMD, to by mohlo elegantně přidat další výkon navíc (a já bych mohl počítat rychleji coby majite více AMD karet než Nvidia).
Vzhůru pro body na linuxu .
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
-
- 52.6315789474 %
- Příspěvky: 1361
- Registrován: pon 30 dub, 2012 20:55
- ID CNT statistics: 6334
- Bydliště: Brno
Re: Aplikace
Ta třeba:
CPU:
CPU s AVX:
CPU:
Kód: Vybrat vše
coef = sig[np1] * Lpoints[i] / ave;
for (l = 1; l <= ma; l++)
dytemp[jp][l] = coef * (dytemp[jp][l] - ytemp[jp] * dave[l] / ave);
Kód: Vybrat vše
coef = sig[np1] * Lpoints[i] / ave;
avx_coef=_mm256_set1_pd(coef);
avx_ytemp=_mm256_broadcast_sd(&ytemp[jp]);
for (l = 1; l <= ma; l+=4)
{
__m256d avx_dytemp=_mm256_loadu_pd(&dytemp[jp][l]),avx_dave=_mm256_loadu_pd(&dave[l]);
avx_dytemp=_mm256_sub_pd(avx_dytemp,_mm256_div_pd(_mm256_mul_pd(avx_ytemp,avx_dave),avx_ave));
avx_dytemp=_mm256_mul_pd(avx_dytemp,avx_coef);
_mm256_storeu_pd(&dytemp[jp][l],avx_dytemp);
}
- Czech Human
- 52.6315789474 %
- Příspěvky: 1372
- Registrován: sob 30 bře, 2013 14:16
- rok narození: 0- 0-1981
- ID CNT statistics: 19867
- Bydliště: Praha
Re: Aplikace
Díky za rychlou odpověď, je taková příjemně lakonická . Ale pro pochopení rozdílu myslím pěkný příklad, pro AVX je nutné aplikaci výrazně přepsat. Hádám že napsané to je v C++, ale to neznám. Zaujalo mě to zvýšení o 4 místo o 1 v cyklu. Pokud jsem to správně pochopil tak si načte do registru, udělá 2 operace a uloží výsledek do registru a začíná další cyklus. Jinak jsem laik tak jestli píšu něco co tahá programátorské oči tak budu rád za upřesnění a není to úmyslně .
Vzhůru pro body na linuxu .
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
-
- 52.6315789474 %
- Příspěvky: 1361
- Registrován: pon 30 dub, 2012 20:55
- ID CNT statistics: 6334
- Bydliště: Brno
Re: Aplikace
Obecně řečeno, každou aplikaci je nutné přepsat pro SSE, AVX, FMA. Kompilátor to nijak zázračně nezajistí.
- Czech Human
- 52.6315789474 %
- Příspěvky: 1372
- Registrován: sob 30 bře, 2013 14:16
- rok narození: 0- 0-1981
- ID CNT statistics: 19867
- Bydliště: Praha
Re: Aplikace
Jasně no, kompilátor jen přeskládá kód do formy srozumitelné CPU, není to AI entita co zpřehazuje výpočty definované v programu na případně výkonnější instrukce sama od sebe, to by asi programátoři už před nějakou dobou přestali být potřební. Každopádně díky za poskytnutá vysvětlení.
Vzhůru pro body na linuxu .
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
- Czech Human
- 52.6315789474 %
- Příspěvky: 1372
- Registrován: sob 30 bře, 2013 14:16
- rok narození: 0- 0-1981
- ID CNT statistics: 19867
- Bydliště: Praha
Re: Aplikace
Dá se někde nějak podrobněji nastudovat jak je popsán matematický model výpočtu parametrů pro asteroidy aby si to mohl přečíst i externista, nebo se jedná o know how projektu?
Vzhůru pro body na linuxu .
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz
Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz