GPUGRID - pád ovladače a ztráta jednotky

Fórum o projektu
Odpovědět
Zpráva
Autor
Zosik
5.26315789474 %
5.26315789474 %
Příspěvky: 10
Registrován: pát 03 črc, 2009 18:31
rok narození: 21 úno 1977

GPUGRID - pád ovladače a ztráta jednotky

#1 Příspěvek od Zosik »

Zapojil jsem se do projektu a zaregistroval jsem dvě komplikace. Používám BM 6.6.36, pro GPU výpočty pak GF9600GT s ovladačem 186.18 Karta počítá neustále a pro vykreslování a běžnou práci pak používám druhou kartu GF7300GT. Vše funguje a až do chvíle, kdy dojde k některému z následujících stavů:
1. pád grafického ovladače - Windows automaticky ovladač obnoví a bez potíží se jede dál, ovšem u BM dojde k ukončení výpočtu na GPU a ztrátě už spočítaných dat a začne se počítat další jednotka, ta původní je nenávratně ztracena, při kontaktu se serverem pak zapíše do logu že chybí asi čtyři soubory. Proč mi jednou za týden spadne ovladač nevím, ale spíš bych chtěl vyřešit ztrátu jednotky nebo její zálohu pro navázání výpočtu, protože k pádu ovladače může dojít kdykoliv
2. BM se spouští při startu PC a někdy se stane (nevím proč) že špatně detekuje CUDA kartu resp. vypíše "No CUDA" a opět dojde ke ztrátě rozpočítané jednotky, stejný stav nastane když se přihlásím k PC vzdálenou plochou, pak proces acemd_6.64_windows_intelx86__cuda.exe spadne a už není možné ho spustit a opět dojde ke ztrátě stejně jako když restartuji BM, ten při restartu přes vzdálenou plochu zaručeně nedekuje CUDA a výpočet se nespustí.

Nejsem si jistý jestli se něčemu co jsem popsal dá předejít. Nesetkal se někdo s něčím podobným ?
MB: ASUS P5Q Pro, CPU: C2Q 9400@2,66 3,2GHz, RAM: 8GB (4x2) Kingston HyperX 5-5-5-15 Video: ASUS Radeon HD6850 + ASUS GF GTX470, HDD: SAMSUNG HD501LJ (500 GB, 7200 RPM, SATA-II) + WDC WD3200YS-01PGB0 (298 GB, IDE), OS: Windows 7 Ultimate x64 SP1

Uživatelský avatar
vkliber
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 10306
Registrován: čtv 29 bře, 2007 10:41
ID CNT statistics: 1
Bydliště: Brušperk, 48 let
Kontaktovat uživatele:

Re: GPUGRID - pád ovladače a ztráta jednotky

#2 Příspěvek od vkliber »

Ahoj a vítej na fóru,
nejsem odborník na výpočty na GPU, jen tě u nás vítám ;-) .
Někdo jiný s tím určitě poradí.
Statistiky CNT | Projekty CNT | Distribuované výpočty CNT | SETI CNT | Einstein CNT
.....::::: Proč se mít nejlépe, když se můžu mít čím dál tím stejně :::::.....
Moje skromná statistika tady , tady , tady nebo grafy.
˙ıɔıqɐɹʞ ʌ ǝןɐ 'ıןʇʎd ʌ ǝɔıɾɐz ǝʇɾndnʞǝu ʎpʞıu ˙˙˙

nenym
78.9473684211 %
78.9473684211 %
Příspěvky: 7610
Registrován: úte 13 led, 2009 15:33
rok narození: 0- 0-1956
ID CNT statistics: 10124

Re: GPUGRID - pád ovladače a ztráta jednotky

#3 Příspěvek od nenym »

Zosik píše: GF9600GT s ovladačem 186.18
Pokud tomu dobře rozumím, máš ASUS. Používej pouze ASUSem podporované ovladače, předejdeš spoustě problémů. Nevím, jaký je aktuální stav teď na Wirouz Vista, ale ještě před týdnem na Win XP x64 byly poslední podporované ovladače 182.xx. Zkoušel jsem 185.xx a velmi rychle jsem couval zpět. Pokud používáš SmartDoctora nebo Rivu, tak máš problémy s ovladači nad 182.xx zaručeny.

Víc ti poradit bohužel nedokážu, může to souviset i s Vistou, ke které jsem zatím nedospěl (rozuměj: necítím se býti natolik vyspělý, abych si něco takového nainstaloval).
Blíží se konsolidační balíček pětikolky; šetřím trojbojem - piji staré víno, jím plesnivé sýry a jezdím v autě bez střechy.
UotD 767x Obrázek
1xObrázek 3xObrázek 9xObrázek 12xObrázek Obrázek
Obrázek

Zosik
5.26315789474 %
5.26315789474 %
Příspěvky: 10
Registrován: pát 03 črc, 2009 18:31
rok narození: 21 úno 1977

Re: GPUGRID - pád ovladače a ztráta jednotky

#4 Příspěvek od Zosik »

Děkuji za názor. Ovladač mohu samozřejmě použít jiný. I to mě napadlo jako příčina, proč ten ovladač padá. GK je konkrétně ASUS EN9600GT Silent. Vzhledem k tomu, že má pasiv, je provozována na výchozích taktech tak, jak je nastavená od výrobce. Teplota podle GPU-Z je v zátěži 70°C. Obecně mě ale tolik netrápí pád ovladače jako takového ale jeho důsledek pro výpočty. To jest že se výpočet neobnoví a nepokračuje dál, ale začne počítat novou připravenou jednotku a tu starou nedokončenou se snaží odeslat jako hotovou, což se mu nepovede, protože není dopočítaná a na serveru gpugrid.net dojde u takového výsledku k "Error while computing".
Myslím že k tomu samému dojde při nesprávné detekci CUDA zařízení při spuštění BM, v tom případě se výpočet opět neobnoví stejně jako při pádu ovladače.
Ovšem při korektním restartu BM nebo PC kdy proběhne vše jak má, se výpočet obnoví a pokračuje dál. Takže mi to spíše připadá (prostou dedukcí) že není ošetřeno průběžné ukládání výpočtů a při pádu pak není z čeho obnovovat výpočet a BM má za to že je jednotka dopočítaná a začne počítat novou a tu předchozí se snaží odeslat, ale neúspěšně, protože nenachází soubory k odeslání.
Nicméně k nějakému ukládání výpočtů dochází, protože když se podívám do složky s uživatelskými daty, resp. složky s průběžnými výpočty (v mém případě BOINC\slots\2\) vidím mnoho souborů z nichž nejnovější se jmenují:
restart.coor
restart.idx
restart.vel
Dokázal by někdo popsat význam těch souborů ? Datum těchto souborů se mění po 10 minutách jak do nich proces výpočtu postupně cosi ukládá. mohl bych jednoduchým skriptem pravidelně zálohovat ten správný soubor, bohužel nevím jaký. prosté zálohování datových souborů zřejmě nebude dostačující, protože při nesprávném obnovení dojde k jejich přepsání novou jednotkou.
MB: ASUS P5Q Pro, CPU: C2Q 9400@2,66 3,2GHz, RAM: 8GB (4x2) Kingston HyperX 5-5-5-15 Video: ASUS Radeon HD6850 + ASUS GF GTX470, HDD: SAMSUNG HD501LJ (500 GB, 7200 RPM, SATA-II) + WDC WD3200YS-01PGB0 (298 GB, IDE), OS: Windows 7 Ultimate x64 SP1

nenym
78.9473684211 %
78.9473684211 %
Příspěvky: 7610
Registrován: úte 13 led, 2009 15:33
rok narození: 0- 0-1956
ID CNT statistics: 10124

Re: GPUGRID - pád ovladače a ztráta jednotky

#5 Příspěvek od nenym »

Přesně to co popisuješ mi dělal GPUGRID s ovladači 185.xx, na dvou strojích mám stejnou kartu.
Blíží se konsolidační balíček pětikolky; šetřím trojbojem - piji staré víno, jím plesnivé sýry a jezdím v autě bez střechy.
UotD 767x Obrázek
1xObrázek 3xObrázek 9xObrázek 12xObrázek Obrázek
Obrázek

Zosik
5.26315789474 %
5.26315789474 %
Příspěvky: 10
Registrován: pát 03 črc, 2009 18:31
rok narození: 21 úno 1977

Re: GPUGRID - pád ovladače a ztráta jednotky

#6 Příspěvek od Zosik »

K projektu jsem se přihlásil v době kdy jsem měl naistalované ovladače 185.85 a u nich se mi to také poprvé stalo. 186.18 jsem instaloval následně a nepomohlo to, naopak. Vyzkouším tedy doporučované 182.xx resp. poslední WHQL verzi 182.50.
Všiml jsem si na Asusu že tam mají ke stažení 182.06, takže vyzkouším i tu.
MB: ASUS P5Q Pro, CPU: C2Q 9400@2,66 3,2GHz, RAM: 8GB (4x2) Kingston HyperX 5-5-5-15 Video: ASUS Radeon HD6850 + ASUS GF GTX470, HDD: SAMSUNG HD501LJ (500 GB, 7200 RPM, SATA-II) + WDC WD3200YS-01PGB0 (298 GB, IDE), OS: Windows 7 Ultimate x64 SP1

nenym
78.9473684211 %
78.9473684211 %
Příspěvky: 7610
Registrován: úte 13 led, 2009 15:33
rok narození: 0- 0-1956
ID CNT statistics: 10124

Re: GPUGRID - pád ovladače a ztráta jednotky

#7 Příspěvek od nenym »

Já jedu na 182.06 bez problémů (na GPU počítám AQUA, Seti MB 6.08 'VLAR' na Seti@home i Seti@beta; GPUGRID tento měsíc vynechávám). Silně doporučuji tu ASUS verzi.
Blíží se konsolidační balíček pětikolky; šetřím trojbojem - piji staré víno, jím plesnivé sýry a jezdím v autě bez střechy.
UotD 767x Obrázek
1xObrázek 3xObrázek 9xObrázek 12xObrázek Obrázek
Obrázek

Uživatelský avatar
Zelvuska
Moderátor
Moderátor
Příspěvky: 563
Registrován: ned 25 bře, 2007 21:21

Re: GPUGRID - pád ovladače a ztráta jednotky

#8 Příspěvek od Zelvuska »

Zosik píše: restart.coor
restart.idx
restart.vel
Kdyby to někoho ještě zajímalo, tak první soubor obsahuje souřadnice a poslední rychlosti částic v simulaci. To prostřední netuším, musel bych někde pohledat. Používá se to v molekulové dynamice pro znovuzahájení minimalizace...

Zosik
5.26315789474 %
5.26315789474 %
Příspěvky: 10
Registrován: pát 03 črc, 2009 18:31
rok narození: 21 úno 1977

Re: GPUGRID - pád ovladače a ztráta jednotky

#9 Příspěvek od Zosik »

Zelvuska píše:
Zosik píše: restart.coor
restart.idx
restart.vel
Kdyby to někoho ještě zajímalo, tak první soubor obsahuje souřadnice a poslední rychlosti částic v simulaci. To prostřední netuším, musel bych někde pohledat. Používá se to v molekulové dynamice pro znovuzahájení minimalizace...
Děkuji. V adresáři s výpočty (v mém případě BOINC\slots\2\) se nachází taky soubor stderr.txt jeho datum vytvoření se shoduje se započetím výpočtu jednotky a je v něm uvedeno následující:

# Using CUDA device 0
# Device 0: "GeForce 9600 GT"
# Clock rate: 1625000 kilohertz
# Total amount of global memory: 536870912 bytes
# Number of multiprocessors: 8
# Number of cores: 64
# Amber: readparm : Reading parm file parameters
# PARM file in AMBER 7 format
# Encounter 10-12 H-bond term
WARNING: parameters.cu, line 568: Found zero 10-12 H-bond term.
WARNING: parameters.cu, line 568: Found zero 10-12 H-bond term.
MDIO ERROR: cannot open file "restart.coor"

Vypadá to jako logovací soubor vždy k té jedné počítané jednotce. Poslední tři řádky mě trochu znervózňují. Jednotka se však stále bez problémů počítá a do souboru restart.coor se zdá že korektně zapisuje.
Stále však nemohu najít ten správný soubor do kterého se ukládá stav právě počítané jednotky aby mohlo dojít k přerušení a následnému pokračování ve výpočtu jednotky.
MB: ASUS P5Q Pro, CPU: C2Q 9400@2,66 3,2GHz, RAM: 8GB (4x2) Kingston HyperX 5-5-5-15 Video: ASUS Radeon HD6850 + ASUS GF GTX470, HDD: SAMSUNG HD501LJ (500 GB, 7200 RPM, SATA-II) + WDC WD3200YS-01PGB0 (298 GB, IDE), OS: Windows 7 Ultimate x64 SP1

Uživatelský avatar
Nalim27
21.0526315789 %
21.0526315789 %
Příspěvky: 156
Registrován: pon 21 led, 2008 21:56
Bydliště: Tak ruzne - chvili tam, pak zase tuhle

Re: GPUGRID - pád ovladače a ztráta jednotky

#10 Příspěvek od Nalim27 »

Mne vypocty take obcas spadnou se stejnym chovanim - a to mam jen jednu GForce 275 a Vindows Vista 32. Ovladac je taky posledni 186.18

Je mam jedno kuriozni chovani - vypocet spadne vzdy, kdyz se na svuj ucet na pocitaci prihlasi syn (pricemz ja zustavam prilogovany a GPU vypocty bezi jen na me). Puvodne jsem si myslel, ze to spadne az kdyz si spusti nejakou 3D hru, ale pak jsem zkousenim zjistil, ze staci, ze se prihlasi a bum .... na mem uctu uz ceka hlaska, ze vypocet byl ukoncen! Pritom na obou uctech nemam zapnute 3D rozhrani Areo.

Co s tim jsem nevymyslel zadne reseni - GPUGrid spadne i kdyz mam nastaveno preruseni vypoctu pri aktivite na PC.
Toto cele spocital (hlavne) muj superpocitac :-) Ryzen 2700X:
Obrázek

nenym
78.9473684211 %
78.9473684211 %
Příspěvky: 7610
Registrován: úte 13 led, 2009 15:33
rok narození: 0- 0-1956
ID CNT statistics: 10124

Re: GPUGRID - pád ovladače a ztráta jednotky

#11 Příspěvek od nenym »

@ Nalim: jestli máš ASUS, downgraduj na jejich 182.06, to by mohlo pomoct.
Blíží se konsolidační balíček pětikolky; šetřím trojbojem - piji staré víno, jím plesnivé sýry a jezdím v autě bez střechy.
UotD 767x Obrázek
1xObrázek 3xObrázek 9xObrázek 12xObrázek Obrázek
Obrázek

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: GPUGRID - pád ovladače a ztráta jednotky

#12 Příspěvek od Dzordzik »

Vím že je tohle staré vlákno, ale podle mě je za tím přetaktování, protože když netaktuji, nestává se mi to, pokud taktuji, tak to občas spadne, málokdy, ale občas ano. Ale co padá téměř pravidelně je pokud ukončím BM. Občas jedna z grafik padne na ovladač. Náhodně, pokaždé jiná a nikdy víc jak jedna z x grafik co mám. Co ale pomáhá je nejdřív ručně pozastavit všechny výpočty, počkat až se opravdu ukončí a pak BM vypnout: pak to nepadne téměř nikdy, což je zvláštní. Kolikrát mi sletí sám od sebe celá BM aniž by měl důvod, často při pauznutí nějakého CPU projektu kde je puštěno hodně tasků najednou. Stává se to občas někomu? Občas Bm sletí tak že najednou zmizí a restartuje celý okenní manažer, takže se musím znovu přihlásit k účtu. Podivné ... A to nemám ještě tu novou verzi. Možná by to řešila.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19635
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: GPUGRID - pád ovladače a ztráta jednotky

#13 Příspěvek od forest »

Ještě jsem se s podobným chováním nesetkal a to ani na týmových strojích. Dělá to jen nějaká kombinace projektů? Nebo jen když jede na grafokách GPUGRID (když jsi to napsal do tohoto vlákna) a s jiným grafickým projektem ne?

Napadá mě jen nedostatek paměti, sledoval jsi při popisovaném tuto oblast?

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: GPUGRID - pád ovladače a ztráta jednotky

#14 Příspěvek od Dzordzik »

Mě to dělá jenom GG, jiné projekty nikdy. Nebo si to aspoň nevybavuju. Pamětí je na každé grafice 11GB, to nemáš šanci zaplnit nijakým projektem při ještě rozumném počtu tasků/GPU. Vypozoroval jsem jenom že když zruším přetakt, tak se to přestane stávat. Ale dělá to jenom BOINC, u jiných programů využívajících GPu se to nestává nikdy, ani u benchmarků, kterou GPU ždímají taky na krev. A co je divné je to, že pokud místo vypnout BOINC dáš nejdřív uspat, pak počkáš a pak jej vypneš, tak je to OK. Pokud jej rovnou vypneš, ovladač padne a nejde to vyřešit jinak než restartem. Poznám to podle toho že pokud by jenom ovladač padl a znovu se nahodil, je to ok a výpočty porkačují dál nebo začnou od znova, ale mě to padne tak, že na monitoru GPu co mám na ploše uvidím u taktů ty nejnižší možné, vytížení nula a otáčky ventilátorů grtafiky jsou -1 otáček. Tento stav jinak než restartem vyřešit nejde.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

LookAS
42.1052631579 %
42.1052631579 %
Příspěvky: 830
Registrován: ned 02 pro, 2007 14:34
rok narození: 12 čer 1981
ID CNT statistics: 9215
Bydliště: Přelouč
Kontaktovat uživatele:

Re: GPUGRID - pád ovladače a ztráta jednotky

#15 Příspěvek od LookAS »

Dzordzik píše:Poznám to podle toho že pokud by jenom ovladač padl a znovu se nahodil, je to ok a výpočty porkačují dál nebo začnou od znova, ale mě to padne tak, že na monitoru GPu co mám na ploše uvidím u taktů ty nejnižší možné, vytížení nula a otáčky ventilátorů grtafiky jsou -1 otáček. Tento stav jinak než restartem vyřešit nejde.
mně když dřív padal nějaký nepovedený driver a dělalo to to samé (takty na minimum, otáčky ventilátoru -1) tak mi pomohlo ve správci zařízení grafiky disablovat a enablovat i bez restartu.
-LookAS- ~ Core i9-7920X + Be quiet! Dark Rock PRO 4, ASRock Taichi, 32GB Corsair 4133MHz , RTX 3070 + RTX A4000, Win 10 x64
PG: Obrázek

Odpovědět

Zpět na „GPUGRID“