Chyba při výpočtu Linux

Fórum týkající se ostatních programů a to jak spojených s DC, tak i systémových atd..
Zpráva
Autor
Abby

Chyba při výpočtu Linux

#1 Příspěvek od Abby »

Ahojky, mám problém, je to už pár dnů co se mi objevuje chyba při výpočtu přes Nvidii u projektu SETI. Ale takový Asteroids přes Nvidii normálně počítá. Jedná se o Nvidii 1050 Ti a operační systém Antergos x64 Plasma. Netušíte v čem by mohl být problém? HW je v naprostém pořádku, to jsem otestovala jako první. Výpočty přes CPU jsou v pořádku, SETI přes Intel GPU je v pořádku, Asteroids přes Nvidia GPU je v pořádku a SETI přes Nvidia GPU není v pořádku. Díky za pomoc.

Obrázek

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Chyba při výpočtu Linux

#2 Příspěvek od Dzordzik »

Napoví něco výpis stavu jednotky z webu projektu?
Kterékoli z chybných ...
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Abby

Re: Chyba při výpočtu Linux

#3 Příspěvek od Abby »

Myslíš tohle?

Kód: Vybrat vše

7155649738	3222814681	18 Nov 2018, 14:08:25 UTC	18 Nov 2018, 14:10:51 UTC	Chyba při výpočtu	0.00	0.00	---	SETI@home v8 v8.22 (opencl_nvidia_sah)
x86_64-pc-linux-gnu
Je to jedna, mám jich celkem 41 a radši jsem výpočet SETI přes Nvidii zatím pozastavila. Jinak teď jsem ve Windows, pustila jsem si stažení SETI na Nvidia a právě se úspěšně dokončila druhá takže HW to na 100% není (navíc ve Windows mám Nvidii přetaktovanou, v Linuxu ne protože tam to není potřeba, hry tam nehraju :-) ). A ovladače mám přímo od Nvidie oficiální a aktuální, žádné open.

Abby

Re: Chyba při výpočtu Linux

#4 Příspěvek od Abby »

Nebo myslíš tohle?

Úkol 7155649738
Jméno blc06_2bit_guppi_58405_81634_HIP85575_0015.24341.818.21.44.244.vlar_0
Pracovní jednotka 3222814681
Vytvořen 18 Nov 2018, 9:36:02 UTC
Odesláno 18 Nov 2018, 14:08:25 UTC
Lhůta pro odevzdání 10 Jan 2019, 19:08:07 UTC
Přijato 18 Nov 2018, 14:10:51 UTC
Stav serveru Pozdě
Výsledek Chyba při výpočtu
Stav klienta Chyba při výpočtu
Stav ukončení 193 (0x000000C1) EXIT_SIGNAL
ID počítače 8616161
Čas běhu
Procesorový čas
Stav validace Neplatné
Kredit 0.00
Maximální FLOPS zařízení 321.53 GFLOPS
Verze aplikace SETI@home v8 v8.22 (opencl_nvidia_sah)
x86_64-pc-linux-gnu
Výstup stderr
<core_client_version>7.12.1</core_client_version>
<![CDATA[
<message>
process exited with code 193 (0xc1, -63)</message>
<stderr_txt>
free(): invalid pointer
SIGABRT: abort called
Stack trace (38 frames):
../../projects/setiathome.berkeley.edu/setiathome_8.22_x86_64-pc-linux-gnu__opencl_nvidia_sah(boinc_catch_signal+0x4d)[0x5ffd3d]
/usr/lib/libc.so.6(+0x37e00)[0x7f825dcf6e00]
/usr/lib/libc.so.6(gsignal+0x10f)[0x7f825dcf6d7f]
/usr/lib/libc.so.6(abort+0x125)[0x7f825dce1672]
/usr/lib/libc.so.6(+0x7a878)[0x7f825dd39878]
/usr/lib/libc.so.6(+0x8118a)[0x7f825dd4018a]
/usr/lib/libc.so.6(+0x8297c)[0x7f825dd4197c]
/usr/lib/libstdc++.so.6(_ZNSs6assignERKSs+0xb8)[0x7f82548e83b8]
/opt/intel/opencl/libigdmcl.so(+0x2040ba)[0x7f825131b0ba]
/opt/intel/opencl/libigdmcl.so(+0x1e6cc2)[0x7f82512fdcc2]
/lib64/ld-linux-x86-64.so.2(+0x1054a)[0x7f825e48054a]
/lib64/ld-linux-x86-64.so.2(+0x1064a)[0x7f825e48064a]
/lib64/ld-linux-x86-64.so.2(+0x14533)[0x7f825e484533]
/usr/lib/libc.so.6(_dl_catch_exception+0x77)[0x7f825ddf6f57]
/lib64/ld-linux-x86-64.so.2(+0x13dff)[0x7f825e483dff]
/usr/lib/libdl.so.2(+0x115a)[0x7f825e42815a]
/usr/lib/libc.so.6(_dl_catch_exception+0x77)[0x7f825ddf6f57]
/usr/lib/libc.so.6(_dl_catch_error+0x33)[0x7f825ddf6ff3]
/usr/lib/libdl.so.2(+0x18bf)[0x7f825e4288bf]
/usr/lib/libdl.so.2(dlopen+0x4a)[0x7f825e4281fa]
/opt/intel/opencl/libigdrcl.so(+0x124bd3)[0x7f82530febd3]
/opt/intel/opencl/libigdrcl.so(+0xf4890)[0x7f82530ce890]
/opt/intel/opencl/libigdrcl.so(+0xf4e26)[0x7f82530cee26]
/opt/intel/opencl/libigdrcl.so(+0xe8982)[0x7f82530c2982]
/opt/intel/opencl/libigdrcl.so(+0xd0f3c)[0x7f82530aaf3c]
/opt/intel/opencl/libigdrcl.so(clIcdGetPlatformIDsKHR+0x2b)[0x7f82530960ab]
/opt/intel/opencl/libIntelOpenCL.so(+0x234e4)[0x7f82549c54e4]
/opt/intel/opencl/libIntelOpenCL.so(+0x3f20)[0x7f82549a5f20]
/opt/intel/opencl/libOpenCL.so.1(+0x277e)[0x7f825e00a77e]
/opt/intel/opencl/libOpenCL.so.1(+0x46cf)[0x7f825e00c6cf]
/usr/lib/libpthread.so.0(+0xf4ff)[0x7f825dcad4ff]
/opt/intel/opencl/libOpenCL.so.1(clGetPlatformIDs+0x11)[0x7f825e00ad21]
../../projects/setiathome.berkeley.edu/setiathome_8.22_x86_64-pc-linux-gnu__opencl_nvidia_sah[0x617212]
../../projects/setiathome.berkeley.edu/setiathome_8.22_x86_64-pc-linux-gnu__opencl_nvidia_sah[0x617484]
../../projects/setiathome.berkeley.edu/setiathome_8.22_x86_64-pc-linux-gnu__opencl_nvidia_sah[0x5b998c]
../../projects/setiathome.berkeley.edu/setiathome_8.22_x86_64-pc-linux-gnu__opencl_nvidia_sah[0x410899]
/usr/lib/libc.so.6(__libc_start_main+0xf3)[0x7f825dce3223]
../../projects/setiathome.berkeley.edu/setiathome_8.22_x86_64-pc-linux-gnu__opencl_nvidia_sah[0x40f719]

Exiting...

</stderr_txt>
]]>

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Chyba při výpočtu Linux

#5 Příspěvek od Dzordzik »

Myslel jsem tohle, nicméně z toho co to píše moc moudrý nejsem. Třeba nějaký STI hledač bude moudřejší.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Abby

Re: Chyba při výpočtu Linux

#6 Příspěvek od Abby »

Mě to hlavně ještě před pár dny fungovalo a neaktualizovalo se nic zásadního, ovladače, jádro, boinc zůstaly ve stejné verzi. Sice je Antergos aktualizovaný klidně několikrát denně a je to "rolling" distribuce, ale právě nic zásadního se nezměnilo a z ničeho nic to začalo dělat tohle. A Asteroids normálně počítá přes Nvidii. A současně SETI počítá přes Intel. A zkoušela jsem samozřejmě i googlit a nenacházím nic :-(

Uživatelský avatar
Czech Human
52.6315789474 %
52.6315789474 %
Příspěvky: 1372
Registrován: sob 30 bře, 2013 14:16
rok narození: 0- 0-1981
ID CNT statistics: 19867
Bydliště: Praha

Re: Chyba při výpočtu Linux

#7 Příspěvek od Czech Human »

To je nevýhoda rolling distribucí - je těžké se vracet zpět. Obávám se že nějaká méně viditelná knihovna byla zaktualizovaná na verzi, která je příliš nová oproti očekávané knihovně klientem boinc nebo aplikací. Řešit se to dá obtížně, aktualizovat si aplikaci nebo si to zkompilovat natvrdo se statickými knihovnami ze zdrojových kódů. Možná by pomohlo reinstalovat ovladač GPU - uninstall a nová instalace aby se osvěžily odkazy a restart projektu co dělá potíže aby se aktualizovala aplikace.
Vzhůru pro body na linuxu :-).

Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz

Obrázek

Abby

Re: Chyba při výpočtu Linux

#8 Příspěvek od Abby »

Zkusím to a dám vědět jestli to pomohlo, díky za tip.

Abby

Re: Chyba při výpočtu Linux

#9 Příspěvek od Abby »

Tak reinstalace ovladačů nepomohla, byla by nějaká další rada?

Abby

Re: Chyba při výpočtu Linux

#10 Příspěvek od Abby »

Kvůli jedné hře jsem odinstalovala balíček opencl-nvidia a nainstalovala jsem opencl-nvidia-vulkan a Boinc mi přestal vidět Nvidii jako OpenCL zařízení. Ale začaly se stahovat jednotky pro výpočet přes CUDA. A Asteroids počítá také přes CUDA a proto to asi fungovalo i když SETI bylo nefunkční. Je to velký problém že Boinc nevidí Nvidii jako OpenCL device? Dá se to s tím Vulkanem případně nějak rozběhnout.

Mimochodem, jak je možné že výpočet v Linuxu přes CPU způsobí teplotu CPU 81°C zatímco stejné zatížení ve Windows 10 Enterprise LTSB znamená maximálně 70°C? To jsou výpočty v Linuxu náročnější nebo snad lépe optimalizované že dokážou ten procesor využít lépe než ve Windows? Chlazení a nastavení všeho je totiž úplně stejné a třeba takové kódování v Handbrake zahřeje procesor stejně jako ve Windows (a je hotové o ~10% rychleji).

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Chyba při výpočtu Linux

#11 Příspěvek od Dzordzik »

Těžko říct, může být že ovladač CPU pod LInuxem nějak jinak řídí úsporné režimy CPU a tohle je výsleke. Ostatně efektivitu si porovnáš snadno. Stáhni si jednotku, zazálohuj a pak nechej spočítat pod Win a Linuxem a porovnej časy, teplotu a spotřebu sestavy.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Abby

Re: Chyba při výpočtu Linux

#12 Příspěvek od Abby »

Můžu stejnou jednotku spočítat dvakrát? A jak, stačí ji jen zkopírovat do složky projektu?

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Chyba při výpočtu Linux

#13 Příspěvek od Dzordzik »

pro test ano.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Abby

Re: Chyba při výpočtu Linux

#14 Příspěvek od Abby »

Tak já to zkusím, díky.

Co s tím CUDA/OpenCL? Je to problém? Ono totiž OpenCL jinak je aktivní, jen Boinc kartu jako OpenCL nevidí

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Chyba při výpočtu Linux

#15 Příspěvek od Dzordzik »

Asi záleží co chceš počítat. Pokud to je GPUGrid, tak ten běží na CUDA tak jako tak. U sotatních projektů si z hlavy nejsem jistý. Kdyžtak upřesni. V každém případě by bylo asi ideální použít nástroj na odebrání driverů a nahrát tam rovnou aktuální ovladače, případně pokud máš kartu řady 10xx tak ovladače řady 399 jak se tady psalo nedávno, má např. u PG, což ale asi nepočítáš, o dost vyšší výkon. S těmito drivery musí, pokud je karta OK a nejsou nakopnuté Windowsy vše běžet jak má. Rozhodně bych ale před jejich instalací udělal to odebrání ovladačů pomocí nVidia utility.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Abby

Re: Chyba při výpočtu Linux

#16 Příspěvek od Abby »

Počítám SETI a Asteroid, nic jiného mi na GPU neběží, na CPU mám ještě WCG a to je všechno. GPUGRID bych uvítala taky ale vyžaduje 54 GB diskového prostoru a já mám pro / celkem 40 GB z čehož je cca 8 GB obsazeno a nemám nejmenší tušení jak (a jestli to vůbec jde) ty data mít na /home případně na jiném disku.

Mám 1050 Ti a ovladače mám vždy aktuální, aktualizují se automaticky z repozitáře a aktuální používám proto že mají lepší výkon ve hrách, přidávají různé optimalizace a podporu pro spuštění docela dost čistě Windows her v Linuxu a opravují chyby, teď mám tuším že 416 a něco. Nezlob se ale nebudu dávat staré ovladače ve kterých mají hry o cca 5-15% nižší výkon než v nových a kvůli kterým by mi ani leckteré hry neběžely a já bych musela kvůli hraní spouštět Windows. Nevím jak je to udělané, ale přes Steam mi běží i hry čistě pro DirectX 11 které nemají ani podporu ve wine. A až vyjdou další ovladače tak je opět aktualizuju protože opět zlepší výkon a podporu. Jestli se projekt bude počítat 30 nebo 35 minut je mi celkem jedno, rekordy nehoním a ani s tím nebudu začínat (ostatně kvůli nepochopení mého přístupu jsem přestala na tohle fórum přispívat), důležité je aby to fungovalo a když se teď SETI stahuje pro CUDA tak to funguje. A přes OPENCL jede na Intel GPU. Akorát je mi záhadou proč Boinc nevidí OPENCL u Nvidie když podporu nainstalovanou mám i když ne standardní ale pro Vulkan, ale to by mělo být snad jedno ne? OPENCL je OPENCL, nebo se pletu?

Nástroj pro odebrání driverů žádný neexistuje, resp. je to správce balíčků v GUI případně pacman v konsoli (tedy alespoň o žádném nástroji nevím, správce balíčků mi nic nenašel ani v ofiko repo ani v AURu a wiki Antergos taky mlčí). No a jestli jsou nakopnuté Windows nevím, spíš asi ne protože k tomu není důvod a navíc mám spolehlivé Windows 10 Enterprise LTSB takže mi to necpe každého půl roku aktualizaci a fungují tak jak by měly fungovat klasické Windows 10 ať už Pro nebo Home, mám je každopádně jen na hry a v poslední době je spouští naprosto minimálně, ale je to jedno když řeším Linux konkrétně Antergos (poněkud jednodušší Arch) 😉

Mimochodem s tím GPUGRID, nevíš jak mu změnit umístění souborů? Víc než 20 GB pro / nejspíš v životě nevyužiju takže 40 GB je obrovská rezerva ale nestačí. A ráda bych tento projekt přidala, leč v momentálním stavu to není možné a přidat místo pro / ani nemůžu i kdybych chtěla, není odkud (mám 240 GB SSD a radši si většinu místa nechám pro /home na data) a nenašla jsem způsob jak v Linuxu změnit umístění souborů pro projekty. Ono celkově se stále učím, mám Antergos teprve asi půl roku a teprve před týdnem jsem se odhodlala ho definitivně povýšit na hlavní OS a dostal svoje vlastní SSD (asi šestkrát rychlejší než mají Windows 😀). A je otázka jestli někdy do Linuxu proniknu na lepší než uživatelské úrovni... Zatím tu potřebu ani nemám, jen jsem si vytvořila vlastní manuál na věci které z hlavy nezvládnu a stále ho doplňuji.

Jinak HW je v naprostém pořádku a grafika je dokonce fungl nová protože mi začala blbnout a na reklamaci mi ji vyměnili. A ani není přetaktovaná, nevím totiž jak ji v Linuxu přetaktovat (i když by se to hodilo, mám dobrý kousek a běží stabilně s přidáním 160 MHz na jádro a 880 MHz na paměti bez zvýšení napětí, víc to nejde protože nemá přídavné napájení a s tomhle nastavením má maximální možný odběr z slotu PCI-E, jediný MHz navíc už slot nenakrmí), není tu MSI Afterburner. Možná na to časem přijdu ale zatím to ani moc neřeším, hry běží lépe než ve Windows, nevím proč ale vyhovuje mi to 🙂 A důvody nezkoumám, jsem ráda že to tak je a že jsem se Windows z větší části zbavila 🙂

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Chyba při výpočtu Linux

#17 Příspěvek od Dzordzik »

Já měl za to že jedeš na Win. Pokud jde o Linux, tam ti neporadím, jsem v tom míň než začátečník, bohužel. Pokud ti jede vše co chceš počítat, tak to neřeš a počítej dál. Jinak pokud jde o nepochopení, nemyslím si že by tě někdo nepochopil, naopak, já tě chápu velmi dobře. I já mám na L omezený prostor, a taky jsem omezený v projektech, ale GPUGrid byl jeden z top projektů, takže jsem se podle toho zařídil. Tvoji distribuci neznám, ovladače mi taky jednou z repo v poslední verzi a vše mi funguje jak má. O tom v čem všem mi nevyhovuje Linux se rozepisovat nebudu, není to relevantní k tomu na co ses ptala.
Jinak pro každé fórum a komunitu jsou přínosem všichni lidé, i když mají někdy jiné názory ...
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Uživatelský avatar
Czech Human
52.6315789474 %
52.6315789474 %
Příspěvky: 1372
Registrován: sob 30 bře, 2013 14:16
rok narození: 0- 0-1981
ID CNT statistics: 19867
Bydliště: Praha

Re: Chyba při výpočtu Linux

#18 Příspěvek od Czech Human »

Pro karty Nvidia lze použít příjemný konzolový prográmek nvidia-smi a snadno jim změnit plánované TDP volbou

Kód: Vybrat vše

sudo nvidia-smi -pl X
kdy za X si dosadíte číslo, kupříkladu 75 (W) což je limit pro 1050Ti a též PCI-E sběrnici. Samozřejmě to jde i směrem dolů, tedy můžete i šetřit energii za nižší výkon nebo si snížíte hlučnost.

Kdo hledá starší verze ovladačů, nvidia má pěkný archiv https://www.nvidia.com/object/linux-amd ... chive.html Na hry bude asi lepší novější verze, na výpočty spíše starší verze.

Přetaktovávači snadno zaktivují Powermizer v konzoli příkazem:

Kód: Vybrat vše

sudo nvidia-xconfig --cool-bits=12 
což je šikovné zejména se zvýšením TDP na kartě ač v tomto případě to bude asi lehce bezpředmětné :-). Úpravy frekvencí se pak dělají v nvidiím standardním GUI pro grafickou kartu v záložce Powermizer. http://www.ckode.dk/linux/overclocking- ... -on-linux/ Přetaktovávat bych bez přídavného napájení moc nedoporučoval ale ta možnost tu je. 22rrr
Vzhůru pro body na linuxu :-).

Linuxová verze CNT 2018 balíčku: https://uloz.to/!yhQoPwu9UIel/cnt2018linux-7z
Linuxová verze PG CPU testu na GNF-21 https://uloz.to/!gXPiQ9BD2IF6/pgtest-tar-gz

Obrázek

Uživatelský avatar
vkliber
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 10309
Registrován: čtv 29 bře, 2007 10:41
ID CNT statistics: 1
Bydliště: Brušperk, 48 let
Kontaktovat uživatele:

Re: Chyba při výpočtu Linux

#19 Příspěvek od vkliber »

Abby píše: čtv 22 lis, 2018 01:57 Počítám SETI a Asteroid, nic jiného mi na GPU neběží, na CPU mám ještě WCG a to je všechno. GPUGRID bych uvítala taky ale vyžaduje 54 GB diskového prostoru a já mám pro / celkem 40 GB z čehož je cca 8 GB obsazeno a nemám nejmenší tušení jak (a jestli to vůbec jde) ty data mít na /home případně na jiném disku.
...
BOINC Manager / Možnosti / Výpočetní předvolby / Disk a operační paměť ... nastavíš si kolik má BOINC sežrat z RAM a HDD.
Statistiky CNT | Projekty CNT | Distribuované výpočty CNT | SETI CNT | Einstein CNT
.....::::: Proč se mít nejlépe, když se můžu mít čím dál tím stejně :::::.....
Moje skromná statistika tady , tady , tady nebo grafy.
˙ıɔıqɐɹʞ ʌ ǝןɐ 'ıןʇʎd ʌ ǝɔıɾɐz ǝʇɾndnʞǝu ʎpʞıu ˙˙˙

Abby

Re: Chyba při výpočtu Linux

#20 Příspěvek od Abby »

vkliber díky, ale tohle vím. Problém je že GPUGRID po mě chce asi 56 GB a já mám celkově pro / 40 GB takže tam to místo není 🙂 Jedině že bych použila jiný disk ale to nevím jak...

Czech Human díky za info, to se bude hodit 🙂

Dzordzik původně ano ale už asi půl roku jedu na Antergos (je to takový jednodušší Arch) a jsem spokojená, je to první distribuce která mi opravdu funguje. Jinak Asteroids i SETI mi jedou přes CUDA na Nvidii a opencl na Intelu tak to tak nechám, jen se mi ztratilo opencl pro Nvidii, které ale jinak funguje. Ale asi to nevadí když tu je (asi) lepší CUDA. No a co se týče GPUGRID tak mě nenapadlo že chce tolik místa na disku. Ale asi i kdybych to věděla tak to nechám na současném rozdělení tedy 40 GB pro / a 200 GB pro /home. Nemám místo na rozdávání jen tak.

Odpovědět

Zpět na „Software“