Základní informace o projektu

Fórum o projektu

Moderátoři: petnek, Zelvuska, nenym

Odpovědět
Zpráva
Autor
Uživatelský avatar
forest
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 16825
Registrován: pát 27 říj, 2006 09:19
rok narození: 03 bře 1977
ID CNT statistics: 71
Bydliště: Újezd u Brna

Základní informace o projektu

#1 Příspěvek od forest » pát 13 dub, 2007 06:21

Základní info o projektu:

Projekt se zabývá systémem vyhledávání na internetu a strukturou webových stránek (web crawler).
Hlavním cílem projektu je vybudovat databázi obsahující závislosti mezi jednotlivými webovými sítěmi, doménami a skupinami webových sítí.
Podružným úkolem projektu je sběr statistických údajů o struktuře webů.
Zpracování probíhá ve dvou fázích. Na úvod se stáhne obsah zadaného webu s patřičnou úrovní hloubky, počtu odkazů a limitu na přenesené množství dat a poté prohledává strukturu.

Aplikace je označená jako non-CPU intensive, takže pracuje na minimální prioritě vedle běžných BOINC aplikací.

Všechny výsledky a data zpracované projektem budou volně k dispozici.


Stránky projektu: http://www.depspid.net/
Ostatní důležité odkazy opět v sekci Projekty na našem webu.

Uživatelský avatar
vkliber
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 9642
Registrován: čtv 29 bře, 2007 09:41
ID CNT statistics: 1
Bydliště: Brušperk, 48 let
Kontaktovat uživatele:

#2 Příspěvek od vkliber » pon 07 kvě, 2007 14:28

Zkusím upřesnit, jak je to s jednotkami na DepSpid (a nejen s nimi) :

U většiny projektů se BOINC klient dotáže serveru (schedulera), jestli není k dispozici nová práce pro daný projekt. Tento dotaz je řízen BOINC managerem, který v tu chvíli přesně ví, který projekt (je-li zpracováváno více) by měl dostat přednost. Pokud je nová práce k dispozici, tak server ji přidělí klientovi, který si ji stáhne a začne zpracovávat. Poté se BOINC manažer odmlčí na nějakou dobu (nastaveno v preferenci : Connect to network about every …), nebo do té doby, než nastane nějaká událost (jiný projekt si vyžádá práci, dopočítá se jednotka, dojde k novému připojení …)
DepSpid je non-cpu-intensive projekt (k vyřešení WU nevyužívá intenzivně procesor).
Toto znamená, že DepSpid úlohy nebudou zpracované jedna po druhé, ale všechny zároveň.
Proto není žádný vztah mezi množstvím požadované práce a počtem přidělených WU.
Pro DepSpid scheduler to znamená, že je mu jedno, jestli klient žádá o práci každou 1, nebo každých 1000000 sekund!

Standardně je nastaveno (by default), že non-cpu-intensive BOINC projekty budou dávat pouze jednu WU jednomu klientovi pro zpracování.
Nicméně, pro DepSpid je tato možnost (zpracovávat současně) plně k dispozici k vyřešení rozmanitých úloh najednou (zároveň), bez nutnosti čekat na zpracovávání předcházejících jednotek a současně tím ušetřit nejvíce času, během kterého musí čekat na odezvy předcházejících fází. Mnoho projektů BOINC probíhá ve fázích a DepSpid není vyjímkou : rozešle jednotky, počká na výsledky, vyhodnotí a pošle nové. A právě možnost provádět až desítky úloh současně na jednom klientovi dává projektu tu výhodu, že už v průběhu nějaké dávky WU (fáze) může rozeslat další WU, které mohou být dopočítány dříve než původní WU a tím už v průběhu fáze korigovat výsledky výpočtu. Touto cestou, může být více práce hotové zároveň.

V projektu si uživatel může nastavit, kolik jednotek může být zpracováváno současně a hodnota je v rozmezí 1 až 20. Tím se má na mysli, kolik jednotek maximálně klient zvládne v jeden okamžik spočítat (omezení viz. dále), nikoli to kolik jednotek má server klientovi posílat. Pro nové uživatele je toto nastavení vždy standardně na 1. Zatímco vyšší hodnota je zřejmě lepší jak pro projekt, tak pro uživatele (kredity), je nutné zvážit následující :

1.) více současných úloh znamenat větší požadovanou propustnost sítě (pozor také na nastavení měsíčního limitu přenesených dat od poskytovatele internetu)
2.) i když jsou jednotky od DepSpid non-cpu-intensive, tak úlohy když běží, vždy spotřebovávají paměť. Dvojnásobná hodnota znamená dvojnásobný nárok na paměť.
Potřebná paměť na jednu jednotku je velmi odlišná od druhu zpracovávané úlohy (na kterou doménu si Spider sedne :D ), ale předpokládá se, že je to přinejmenším 20 MB na WU.
To znamená, že maximální hodnota 20 současných úloh bude znamenat asi 400 MB trvale obsazené paměti.

Závěrem : Omezené faktory pro tento projekt je síťová propustnost a paměťové nároky.

Zkratky : WU … WorkUnit … pracovní jednotka, úloha, prostě to co počítáme.
Statistiky CNT | Projekty CNT | Distribuované výpočty CNT | SETI CNT | Einstein CNT
.....::::: Proč se mít nejlépe, když se můžu mít čím dál tím stejně :::::.....
Moje skromná statistika tady , tady , tady nebo grafy.
˙ıɔıqɐɹʞ ʌ ǝןɐ 'ıןʇʎd ʌ ǝɔıɾɐz ǝʇɾndnʞǝu ʎpʞıu ˙˙˙

Uživatelský avatar
vkliber
Admin webu a fóra CNT
Admin webu a fóra CNT
Příspěvky: 9642
Registrován: čtv 29 bře, 2007 09:41
ID CNT statistics: 1
Bydliště: Brušperk, 48 let
Kontaktovat uživatele:

z

#3 Příspěvek od vkliber » stř 15 srp, 2007 16:10

Horké a zajímavé novinky na projektu DepSpid

V současné době se výpočet jednotky DepSpid skládá ze dvou fází :

Fáze 1 (0-50%) : Tato fáze používá hlavně internetové připojení a velice málo CPU (ve skutečnosti čas vyšší než několik minut během této fáze je podezřelý)
Fáze 2 (50-100%) : Tato fáze používá intenzivně CPU a nepotřebuje internetové připojení.

Aktuální verze aplikace Spider spojuje obě dvě fáze dohromady. Nicméně toto se brzy změní. Cílem je vytvořit dvě různé aplikace, jednu pro každou fázi. To bude mít několik výhod :

1.) BOINC klient bude schopen mnohem lépe spotřebovávat prostředky PC (síť nebo CPU). V současnosti se aplikace ve druhé fázi (kdy intenzivně spotřebovává CPU) tváří jako non-cpu-intensive což může způsobovat řadu problémů.
2.) Jestliže úloha selže ve druhé fázi, je tím zahozena i práce z první fáze. Při oddělení těchto dvou fází do dvou různých aplikací se může výsledek z první fáze nechat znovu spočítat.
3.) Při nynějším způsobu se musí počítat s dlouhým trváním na celou jednotku a je tím pádem obtížné rozhodnout kdy ukončit jednotku (v případě že se chová podezřele), která během první fáze spotřebovává příliš CPU. Pro aplikaci, která bude zpracovávat pouze první fázi to bude snáze nastavitelné a tím se předejde nynějším problémům.
4.) Aplikace použitá pro druhou fázi (spotřebovává CPU) by navíc také mohla být použitá pro další úlohy projektu DepSpid. Tyto úlohy zatím neexistují, ale v brzké době se počítá s jejich vytvořením pro zpacování dalších dat. (Výpočet závislostí v rámci jedné domény bude téměř rovnocený s výpočtem závislostí mezi jednotlivými doménami.)
5.) Aplikace použitá pro druhou fázi (spotřebovává CPU) by také byla snadněji portovatelná na Linux. Nicméně obě aplikace (pro obě fáze) na Linuxu je hudba daleké budoucnosti.
6.) Díky oddělení obou fází do dvou aplikací, budou moci počítat i uživatelé s pomalým síťovým připojením nebo uživatelé, kteří nemají povolení k běhu internetových aplikací (např. v práci).

Současný stav, tak jak je navržený BOINC, nedovolí projektu poslílat non-cpu-intensive a cpu-intensive úlohy zároveň (projekt který je definován jako non-cpu-intensive nemůže používat cpu-intensive jednotky a naopak). Z tohoto důvodu bude nutné vytvořit nový projekt ... nebo spíše minimálně novou URL adresu pro připojení klienta (přinejmenším dokud se nezmění BOINC). Proto vznikne jedna URL pro non-cpu-intensive úlohy a jedna URL pro cpu-intensive úlohy. (Jsou navrhovány http://www.depspid.net?phase=2 nebo http://www.depspid.net/phase2).
to je jediná cesta jak BOINC klient může rozlišit mezi těmito dvěma typy. Uživatelské účty, webové stránky, statistiky, atd ... zůstanou jednotné. Uživatelé budou mít v nastavení na výběr, jestli chcou počítat cpu-intensive fázi nebo network-intensive fázi.

Můj komentář : Bjoern Henke se fakt snaží a celkem mu fandím, toto řešení je zdá se optimální pro všechny :wink: a můžeme jen doufat, že dojde k brzkému naplnění této vize.
Statistiky CNT | Projekty CNT | Distribuované výpočty CNT | SETI CNT | Einstein CNT
.....::::: Proč se mít nejlépe, když se můžu mít čím dál tím stejně :::::.....
Moje skromná statistika tady , tady , tady nebo grafy.
˙ıɔıqɐɹʞ ʌ ǝןɐ 'ıןʇʎd ʌ ǝɔıɾɐz ǝʇɾndnʞǝu ʎpʞıu ˙˙˙

Odpovědět

Zpět na „DepSpid“