Vai ai contenuti. | Spostati sulla navigazione | Spostati sulla ricerca | Vai al menu | Contatti | Accessibilità

logo del sistema bibliotecario dell'ateneo di padova

Secco, Alessandro (2014) How Good Is a Web Page? Data Collection for Experimental Evaluation of Link Analysis Algorithms. [Magistrali biennali]

Full text disponibile come:

[img]PDF
Tesi non accessibile per motivi correlati alla proprietà intellettuale. Visibile a: Repository staff only

1307Kb

Abstract

This thesis describes motivations, techniques and results of a large crawl designed to obtain a suitable snapshot of the web graph. Our goal requires a properly designed crawling system to explore the whole .it domain. As a result, we obtained a fast and stable crawling system, which in a preliminary test collected more than 308 million distinct web pages in 28 days at an average rate of 204 pages per second, using a single high-end PC-class machine.

Item Type:Magistrali biennali
Corsi di Diploma di Laurea:Scuola di Ingegneria > Ingegneria Informatica
Scuola di Ingegneria > Ingegneria Informatica
Additional Information:Embargo permanente per motivi di segretezza e/o di proprietà dei risultati e/o informazioni sensibili
Uncontrolled Keywords:web, crawl, crawling, heritrix, link analysis, information retrieval, algorithms
Subjects:Area 09 - Ingegneria industriale e dell'informazione > ING-INF/05 Sistemi di elaborazione delle informazioni
Codice ID:46723
Relatore:Peserico Stecchini Negri De Salvi, Enoch
Correlatore:Bressan, Marco and Pretto, Luca
Data della tesi:14 October 2014
Biblioteca:Polo di Ingegneria > Biblioteca di Ingegneria dell'Informazione e Ingegneria Elettrica "Giovanni Someda"
Tipo di fruizione per il documento:on-line per i full-text
Tesi sperimentale (Si) o compilativa (No)?:Yes

Solo per lo Staff dell Archivio: Modifica questo record