Občasná chyba při výpočtu

Diskuse týkající Hardware a to jak všeobecné, tak i přímo o tom co máte právě doma, nebo na čem zpracováváte DC projekty.

Moderátor: Anubis

Zpráva
Autor
Abby

Občasná chyba při výpočtu

#1 Příspěvek od Abby »

Od té doby co mám v PC dvě GPU tak se občas stane, že je chyba při výpočtu, na CPU i na GPU, za ten cca měsíc se to stalo dvakrát u WCG a čtyřikrát u SETI (2x CPU, 2x GPU). CPU je dlouhodobě přetaktovaný na 4600 MHz, paměti běží na XMP profilu 2666 MHz, grafiky přetaktované nejsou. V čem by teoreticky mohl být problém? Teploty nejsou úplně nejnižší, CPU se občas dostane i na 78°C a grafiky se drží na cca 55°C GTX ve spodním slotu a RTX 63°C v primárním slotu. Může to být teplotou? Slabým zdrojem (Seasonic Focus Gold Plus 650 W)? Nebo už po těch cca třech letech co CPU provozuju na této frekvenci dochází k nějaké degradaci? Procesor byl nedávno přepastovaný, chlazení je AiO CoolerMaster 240, v PC jsou tři SSD (M.2 NVMe Crucial P1 1 TB na systém, starý Crucial MX 300 M.2 275 GB na dvě hry a SATA 480 SanDisk na data), všechny jsou teplotně v normálu, M.2 na sobě navíc mají chladič. Case je Fractal Design Define C a celkem pět ventilátorů, dva na vstupu, jeden na výstupu a dva na radiátoru. PC jinak nepadá, všechno je v pořádku, jen se mi prostě za měsíc šestkrát stalo že je chyba při výpočtu. A pokaždé je to po probuzení ze spánku.

Dadu from Silesia
52.6315789474 %
52.6315789474 %
Příspěvky: 1325
Registrován: úte 03 úno, 2009 21:23
rok narození: 03 bře 1984
ID CNT statistics: 10156
Bydliště: Opava

Re: Občasná chyba při výpočtu

#2 Příspěvek od Dadu from Silesia »

Jelikož to je jen párkrát za měsíc tak bych to typoval na OC + normalní a né profi ECC RAM, které mají opravu chyb.
Pokud vím stroje nejsou neomylné pouze udělají víc prace než člověk. Pokud nehraješ přepni si profil na non OC uspoříš za ele a snížíš pravděpodobnost chyb, ale stále tu bude jistá šance.

Abby

Re: Občasná chyba při výpočtu

#3 Příspěvek od Abby »

Ono to ale dřív nedělalo, proto mi to přijde divné.

Dá se OC profil přepnout z Windows bez restartu?

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Občasná chyba při výpočtu

#4 Příspěvek od Dzordzik »

Zkusil bych přímo z BIOSu nebo z boot flashky pustit nějakej hardcore test RAM, který nejede pod Windows, aby otestoval úplně všechno, včetně zápisu. Počítej že to bude trvat hodně dlouho. Pokud jsou teploty komponent vcelku OK, jenom CPU je vysoko, je dost pravděpodobné, že se ti přehřívá i napájecí kaskáda. Zkus změřit např. infra teploměrem teploty komponent na desce, jestli tam něco není vyloženě vysoko. Každopádně zkus jet nějakou dobu bez OC a uvidíš jestli to pomine, pokud ano, pak jsi to přehnala a není to stabilní. To že ti to nepadá ve hrách nic neznamená, tam projde kde co.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Dadu from Silesia
52.6315789474 %
52.6315789474 %
Příspěvky: 1325
Registrován: úte 03 úno, 2009 21:23
rok narození: 03 bře 1984
ID CNT statistics: 10156
Bydliště: Opava

Re: Občasná chyba při výpočtu

#5 Příspěvek od Dadu from Silesia »

Moje Gigabytka má win aplikaci kde si mužu měnit všechno. Restart je nutný pouze pokud šáhnu na napětí.

Abby

Re: Občasná chyba při výpočtu

#6 Příspěvek od Abby »

Já mám ASRock Z270 Fatality Gaming Professional i7, ale nastavení dělám v UEFI, ani nevím jestli pro to je nějaký SW pro Windows :-) Jinak právě napětí mám změněné, mám dané napevno pro OC (nastavení na auto dávalo hrozně vysoké, tak jsem se testy dostala na stabilních 1.215 V) a když jsem měla výchozí nastavení, tak to bylo přes offset a tam bylo dokonce trochu snížené.

Přemýšlím jestli by nemělo smysl nechat udělat delid, snížilo by to teplotu, ale posílat procesor někam poštou se mi nechce a v Praze jsem nikoho nenašla kdo by to dělal (a vzal na sebe zodpovědnost za případné zničení).

Abby

Re: Občasná chyba při výpočtu

#7 Příspěvek od Abby »

Dzordzik píše: stř 24 črc, 2019 16:49 Zkusil bych přímo z BIOSu nebo z boot flashky pustit nějakej hardcore test RAM, který nejede pod Windows, aby otestoval úplně všechno, včetně zápisu. Počítej že to bude trvat hodně dlouho. Pokud jsou teploty komponent vcelku OK, jenom CPU je vysoko, je dost pravděpodobné, že se ti přehřívá i napájecí kaskáda. Zkus změřit např. infra teploměrem teploty komponent na desce, jestli tam něco není vyloženě vysoko. Každopádně zkus jet nějakou dobu bez OC a uvidíš jestli to pomine, pokud ano, pak jsi to přehnala a není to stabilní. To že ti to nepadá ve hrách nic neznamená, tam projde kde co.
Test RAM jsem dělala z boot flashdisku, memtest se to tuším jmenuje, jelo to 12 hodin bez chyby. To samé na CPU OCCT test nejen klasický ale i AVX. Napájecí kaskáda má podle infrateploměru při zátěži 65°C, v klidu je to kolem 35°C, to bych řekla že je celkem v pohodě. Ale právě kvůli těm teplotám si říkám, že by bodl ten delid, kdyby ho někdo dělal v Praze, tak bych do toho šla hned. Snížit frekvenci by asi taky v těchto vedrech nebylo od věci, to je fakt, ale ono těch 400 MHz je v Kingdom Come hodně znát (už dlouho jsem neviděla takhle blbě optimalizovanou hru a to mám Royal Edition co vyšla asi po roce a čtvrt, takže by chyby měly být odstraněny), v podstatě rozdíl mezi 4200 MHz a 4600 MHz je rozdíl mezi plynulým 1080 a 1440.

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Občasná chyba při výpočtu

#8 Příspěvek od Dzordzik »

Ono kolikrát stačí frekvenci snížit o 100 MHz a teplota i odběr klesnou o hodně. Zkus ubírat do té doby dokud to pro tebe bude ještě hratelné. Za mě je úplně jedno jestli tam máš FHD nebo 2K, při hře stejnou na detaily nehledíš ... Vždycky je to něco za něco. Pořád lepší FHD a plné deail y aplynule než se muset omezovat za cenu vyššího rozlišení.

V každém případě bych zkusil OC dát pryč a nechat to tak pár dní jet a sledovat výskyt chyb. Jestli zmizí, tak jsi doma ...
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

nenym
78.9473684211 %
78.9473684211 %
Příspěvky: 7610
Registrován: úte 13 led, 2009 15:33
rok narození: 0- 0-1956
ID CNT statistics: 10124

Re: Občasná chyba při výpočtu

#9 Příspěvek od nenym »

Zakopaný pes vůbec to nemusí být v teplotě či frekvenci. Občas se mi stane totéž při restartu stroje, který neproběhne úplně košer či dokonce proběhne úplně čistě. Všimněte si, že někdy proces boinc zůstává v paměti i několik minut po příkazu k vypnutí z BM či boinccmd, obvykle s nějakým Boinc taskem, který musí něco dodělat, typicky GPUGRID. Pokud v nějakém kriticky rozpočítaném stavu počítač přejde do spánku, stane se možná totéž. Pokud je příčina v tomto, máš dvě možnosti- na občasné havárie rezignovat a vzít je jako nutné zlo, nebo boinc vypínat - možná se i dá najít událost, která odpovídá přechodu stroje do spánku (boinccmd pak boinc vypne) a probuzení se spánku (boinccmd pak boinc zapne). Nevím, zda to jde, nezkoušel jsem.
Blíží se konsolidační balíček pětikolky; šetřím trojbojem - piji staré víno, jím plesnivé sýry a jezdím v autě bez střechy.
UotD 767x Obrázek
1xObrázek 3xObrázek 9xObrázek 12xObrázek Obrázek
Obrázek

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Občasná chyba při výpočtu

#10 Příspěvek od Dzordzik »

Otázka je jestli vůbec časový výskyt těch chyb a pádů počítání odpovídá času přechodu do spánku. To by se asi dalo vysledovat?
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Abby

Re: Občasná chyba při výpočtu

#11 Příspěvek od Abby »

Dzordzik píše: stř 24 črc, 2019 19:05 Ono kolikrát stačí frekvenci snížit o 100 MHz a teplota i odběr klesnou o hodně. Zkus ubírat do té doby dokud to pro tebe bude ještě hratelné. Za mě je úplně jedno jestli tam máš FHD nebo 2K, při hře stejnou na detaily nehledíš ... Vždycky je to něco za něco. Pořád lepší FHD a plné deail y aplynule než se muset omezovat za cenu vyššího rozlišení.

V každém případě bych zkusil OC dát pryč a nechat to tak pár dní jet a sledovat výskyt chyb. Jestli zmizí, tak jsi doma ...
Právě tohle je ta hranice kdy je spotřeba ještě normální, 4700 MHz už spotřeba rapidně stoupne a teplota taky. A ono právě teď mi to běží na 1440p na plné detaily, při 4200 MHz CPU to běží taky na plné, ale jen na 1080p. A vzhledem k tomu, že mám 4k 40" monitor je ten rozdíl vidět. Navíc nehraju střílečky kde je důležitá rychlost, ale hraju hru z místa, kde jsem trávila každé prázdniny a někdy se vysloveně kochám krajinou, protože je to zpracované neuvěřitelně věrně. Ostatně když jsem tam šla do neobjevené oblasti a najednou si říkám, tady to je nějaké známé, támhle za zatáčkou bude jez a byl tam. A na kopci Samopše. Dokonce jsem našla místo kde jsme měli chatu. Takže tady fakt jsou detaily i rozlišení důležité.

Ale to OC zkusím snížit, tak budu chvíli hrát něco jiného než to vrátím zpět, ale nemyslím si, že by to bylo tím, je to fakt tři roky stabilní, spíš si říkám jestli není na hraně ten zdroj, přeci jen dvě grafiky a dělá to od té doby co je takhle mám.
nenym píše: stř 24 črc, 2019 19:38 Zakopaný pes vůbec to nemusí být v teplotě či frekvenci. Občas se mi stane totéž při restartu stroje, který neproběhne úplně košer či dokonce proběhne úplně čistě. Všimněte si, že někdy proces boinc zůstává v paměti i několik minut po příkazu k vypnutí z BM či boinccmd, obvykle s nějakým Boinc taskem, který musí něco dodělat, typicky GPUGRID. Pokud v nějakém kriticky rozpočítaném stavu počítač přejde do spánku, stane se možná totéž. Pokud je příčina v tomto, máš dvě možnosti- na občasné havárie rezignovat a vzít je jako nutné zlo, nebo boinc vypínat - možná se i dá najít událost, která odpovídá přechodu stroje do spánku (boinccmd pak boinc vypne) a probuzení se spánku (boinccmd pak boinc zapne). Nevím, zda to jde, nezkoušel jsem.
To by možná taky mohlo být, protože chybná jednotka je vždy ráno po probuzení PC, takže buď dojde k chybě při uspávání nebo při probouzení, kdoví jak to ty Windows dělají, protože taky se mi pravidelně děje, že mi program k UPS řekne že selhalo spojení a vzápětí bylo obnoveno. Ale že z rozpočítaných jednotek padne obvykle jen jedna je divné, mám teď dvě WCG na CPU a čtyři SETI na dvou GPU, dnes ráno padla jedna WCG, včera nepadla žádná, předevčírem dvě SETI (jedna CPU jedna GPU, to jich bylo ještě celkem osm, dvě na CPU a po třech na každou GPU), předtím se tedy asi 10 dnů nepočítalo kvůli dovolené, ale před dovolenou to bylo za cca 14 dnů celkem asi čtyři jednotky co padly, není to každý den, PC není restartovaný, od návratu z dovolené běží non-stop kromě toho spánku v noci, ale není vypnutý, jen uspaný a někdy tam je chybná jednotka a někdy ne. Vlastně většinou tam není. A před dovolenou jsem měla nastaveno dokonce využití na tři CPU jednotky a 2 jednotky SETI na jednu GPU, takže vytížení bylo větší. A jak říkám, ráno probudím PC, kouknu do Boinc jestli běží a je tam někdy jedna chybná jednotka a někdy ne.

Kde by se dalo (pokud-li) vysledovat, proč se to stává?

edit: před přechodem do spánku se nikdy nepočítá, je to v režimu časové pauzy, protože je noc (od 20:00 do 08:00 je výpočetní klid :-) ).

Abby

Re: Občasná chyba při výpočtu

#12 Příspěvek od Abby »

Dneska se zatím žádná chyba neobjevila, ani hned po probuzení ani potom. Jinak mám celkem 4 chyby na WCG a 4 chyby na SETI za ten měsíc. Zlobí mě to, samozřejmě, je to škoda zbytečné práce, ale fakt by mě zajímalo v čem mohl/může být problém.

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19635
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: Občasná chyba při výpočtu

#13 Příspěvek od forest »

Ten zdroj je určitě jedna z možností a z mého pohledu hodně reálná.
Záleží hodně na tom, jaký zdroj máš. Tedy zda má oddělené tři napájecí 12V větve (máš na jedné jednu GPU, na druhé druhou a na třetí je napájení desky), nebo má jen dvě větve (deska/obě GPU), nebo dokonce máš veškerý 12V odběr napájený jen jednou větví. Pokud jde o zdroj s Cable magementem, může být chyba jen v zapojení a stačilo by k řešení ty napájecí kabely přecvakat každý na jednu větev. Na to je většinou potřeba se kouknout do technického listu zdroje. Na zdroji samotném je ten rozpis jen u těch hodně dobrých. Pokud z něj vedou jen neodpojitelné kabely a máš některé PCI-E ještě volné, opět pomůže technický list, kde se dočteš, zda mají každý svou napájecí větev, nebo jsou nějak sdružené a jak. Pokud jsi využila pro napájení grafik všech PCI-E kabelů co zdroj měl, i tak může mít jeden společnou větev s napájením desky a druhý samostatnou. Pomůže potom žravější grafiku pověsit na samostatnou větev a napájení desky tím ulevit. Pokud jsi musela pro napájení použít nějakých redukcí (a ještě třeba i z Molexů na PCI-E), tedy zdroj neměl dostatečné množství kabelů sám o sobě, tak to už bývají ty nejčastější zdroje problémů.

Co se týče prostého údaje "zdroj 650W", to je nic neříkající parametr. Kolik dává skutečně do 12V větve Ampér? Má těch 12V větví víc? Pokud ano, kolik dává do které (napájení desky/PCI-E)? Kolik Ampér sežere každá GPU se dá dohledat. Celkový odběr stroje změřit také a už se člověk začne orientovat zda je na hraně, nebo má bohatou rezervu, tedy tento možný zdroj daných chybnýchjednotek případně vyloučit.
U zdroje potom jsou ještě dva důležité parametry a těmi jsou efektivita (tady rozdíl v samotné spotřebě a tím, kolik z ní skutečně posílá napájecími linkami komponentům), která bývá v různém zatížení různá (v technickém listu bývá uvedený diagram v jakém zatížení je jaká efektivita) a může se pohybovat od 50% do 96% a dále stáří zdroje. To spousta lidí opomíná zahrnovat do úvah, že s délkou provozu efektivita zdrojů postupně klesá. U pět let starého zdroje už může jít klidně o desítky procent, což ale v podstatě běžný uživatel sám už nezměří.

Napiš nějaké podrobnosti o tom zdroji a můžeme na to kouknout, nebo dle výše uvedeného si ty základní věci zkus zjistit sama. Potom uvidíš, jak moc je pravděpodobné, že právě zdroj může být tou Achillovou patou aktuální sestavy, či nikoliv.

Abby

Re: Občasná chyba při výpočtu

#14 Příspěvek od Abby »

Ten zdroj je Seasonic Focus Plus Gold 650 W, plně modulární, necelý rok starý a výrobce na něj dává záruku 10 let, byl mi doporučený jako vysoce kvalitní.

https://www.czc.cz/seasonic-focus-plus- ... 42/produkt

Podle UPS je maximální spotřeba 360 W, takže je to něco málo nad polovinou, teoreticky by to mělo v pohodě stačit, ale prakticky netuším.

Co se týče GPU, tak RTX má přídavné napájení, jeden šestipin a GTX nemá přídavné napájení, ta jede jen z desky.

Kabely jsem zapojila jen ty co potřebuji, zbytek je v krabici, takže je zapojeno pro mobo a CPU, pro GPU a jeden kabel pro SATA, kam to je zapojené jsem neřešila, dala jsem to podle popisu aby to nepřekáželo a bylo to vedle sebe, pro případné přidání dalšího kabelu, abych na to měla místo :smt102

Jinak PC je i5 7600k, normálně na 4600 MHz ale snížila jsem teď frekvenci na 4200 MHz (turbo je odemknuté na všech jádrech, jinak je CPU na default a napájení je offset -25), mobo ASRock Fatality Z270 Professional Gaming i7, na systém SSD M.2 NVMe 1 TB Crucial P1, na data je SATA SSD SanDisk 480 GB a zbyl mi M.2 SSD Crucial MX300 275 GB tak na něm mám nainstalovaný Fallout 4 a Skyrim. RAM 32 GB (4x8) HyperX Fury 2666 MHz, použitý XMP profil. Z výbavy mobo používám jednu síťovku, bluetooth, mám aktivní wifi a samozřejmě používám zvukovku. V PC jsou tři LED pásky, chladič AiO CoolerMaster se dvěma ventilátory Noctua 120 mm (těmi novými, PWM 1200) a 3x 120 mm na foukání dovnitř a ven. A samozřejmě ty dvě grafiky, RTX 2060 s šestipinem a GTX 1050Ti bez přídavného napájení, obě nepřetaktované (ale uvažuju, že až skončí SETI Wow tak GTX vyndám a RTX přetaktuju kvůli hernímu výkonu, GPUGrid se stejně jen tak nedočkám a nic jiného na GPU vlastně ani počítat nemůžu).

Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 19635
Registrován: pát 27 říj, 2006 10:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Re: Občasná chyba při výpočtu

#15 Příspěvek od forest »

Tak to by zdrojem být nemělo. Rezervu má dostatečnou a na vše 12V jen jednu linku. Tedy i nějaký error při zapojení lze vyloučit. Ten zakopaný smrdutý pes chrápe asi ve Woknech a jejich uspávání, jak psal nenym.

Abby

Re: Občasná chyba při výpočtu

#16 Příspěvek od Abby »

Tak jsem ráda, že i zdroj je v pořádku. Jinak zatím je to bez jediné chyby, tak si říkám jestli za to nemůže i vedro. Protože PC uspávám každou noc, roky a ten problém je poslední měsíc a ještě nepravidelně a docela málo :smt102 Uvidíme až se ochladí a já vrátím zpátky OC co to udělá.

Dzordzik
57.8947368421 %
57.8947368421 %
Příspěvky: 2448
Registrován: ned 12 úno, 2017 00:26
rok narození: 18 zář 1980
ID CNT statistics: 503
Bydliště: Zdounky (u Kroměříže)
Kontaktovat uživatele:

Re: Občasná chyba při výpočtu

#17 Příspěvek od Dzordzik »

Já myslím že to tím být může. Dneska jsem se po 3/4 roce dokopadl vfoukat Alberta a přesto že teplota CPU je cca stejná tak chyb ve validaci ubylo téměř na nulu, prachu tam byly mraky, všude možně. Hodně toho pochytaly filtry, ale ne všechno samozřejmě. takže čistě teplota CPU jádra není všeříkající. Přehřívat se ti můžou paměti, deska, cokoli. Zkus ještě otevřít bočnici a nechat to tak třeba týden a uvidíš jestli to pomůže.
Albert: Dual Xeon E5-2696 V4, Supermicro X10DRG-Q, 64GB DDR4 ECC, 1x GTX 1070, Enermax Platimax 1700W

Abby

Re: Občasná chyba při výpočtu

#18 Příspěvek od Abby »

Já jsem PC čistila před měsícem, když jsem měnila grafiku. Bočnici jsem zkusila sundat a teplota všeho byla o 5-10°C vyšší než když je zavřeno, takže tudy cesta nevede. Navíc se mi nic nepřehřívá, paměti RAM tedy nemají čidlo teploty, ale podle infra teploměru mají maximálně 65°C (a nejsou přetaktované, jedou na XMP profil a dost nízkou frekvenci 2666 MHz), napájecí kaskáda nepřekročí 70°C a navíc je chlazená, pasivy + heatpipe, CPU max 72°C (bez přetaktování, se sníženým napětím), SSD jsou do 50°C, prostě k přehřívání nedochází ani v těchto vedrech.

Jinak už mám jen RTX, nakonec jsem GTX prodala, za celkem slušnou cenu. Zkusím RTX trochu přetaktovat, tedy až klesnou teploty, ale myslím, že paměti by mohly jít pěkně nahoru, počítám 800 MHz minimálně a jádro tak o 150 MHz taky, aspoň pokud nemám výrazně horší kus než byl v recenzi :-)

Jinak mám tři dny nataženo SETI na 10 dnů dopředu a nasimulovala jsem CPU na 20 jader a pak už to řeklo, že mám maximum jednotek na stroj a mám cca 75% spočítáno. Jak to může být zásoba na 10 dnů když to můj nepříliš silný PC s ručně omezeným výkonem spočítá za nějaké 3-4 dny čistého času (počítá maximálně 12 hodin denně, dnes např. začal až v půl jedné po poledni a skončil ve 20:00, dvě jádra na výpočet a 75% procesorového času)? To ta zásoba je jen velmi hrubý odhad?

Dadu from Silesia
52.6315789474 %
52.6315789474 %
Příspěvky: 1325
Registrován: úte 03 úno, 2009 21:23
rok narození: 03 bře 1984
ID CNT statistics: 10156
Bydliště: Opava

Re: Občasná chyba při výpočtu

#19 Příspěvek od Dadu from Silesia »

ne seti má svůj limit na pc.

Abby

Re: Občasná chyba při výpočtu

#20 Příspěvek od Abby »

Njn, tak asi zítra, nejpozději pozítří, budu mít dopočítáno a budu čekat na začátek turnaje :-)

Odpovědět

Zpět na „Hardware“