Vai ai contenuti. | Spostati sulla navigazione | Spostati sulla ricerca | Vai al menu | Contatti | Accessibilità

logo del sistema bibliotecario dell'ateneo di padova

Pengo, Gianluca (2010) Crawling del web italiano: valutazione delle soluzioni e gestione del crawling. [Laurea triennale]

Full text disponibile come:

[img]
Preview
PDF
766Kb

Abstract

Gli algoritmi di link analysis tentano di dedurre la qualità di un documento dalla struttura topologica del grafo che rappresenta il web nella sua interezza o in un suo sottoinsieme. Presso l’Università di Padova si sta svolgendo un progetto di ricerca che tra i suoi obiettivi ha quello di valutare l’efficacia degli algoritmi di link analysis, rispetto alla determinazione della qualità dei documenti. Questa relazione tratta lo studio di fattibilità e la realizzazione di un sistema di crawling per l’ottenimento del grafo del web italiano, che sarà utilizzato poi nel progetto di ricerca. All’interno dello studio di fattibilità sono analizzati e valutati alcuni crawler open source ed è motivata la scelta di utilizzare il crawler Heritrix, tra quelli presentati. Vengono esposte le diverse soluzioni proposte per la creazione del modulo aggiuntivo, che s’integra ad Heritrix, per l’ottenimento del grafo del web. Sono poi trattate le strutture dati utilizzate per la memorizzazione e la loro finalizzazione nella fase di post-crawling, sono riportati i risultati dei test effettuati nelle diverse configurazioni del sistema, utilizzati per il dimensionamento e la configurazione del sistema nel suo complesso. Infine è esposto l’utilizzo di un limitatore di banda, che modifica automaticamente il limite nelle diverse ore del giorno, e un controllore delle connessioni contemporaneamente attive integrato al crawler, per sopperire ai limiti di banda e di connessioni TCP contemporanee imposti dalla rete della struttura in cui si svolge il crawling. Questo lavoro ha portato all’implementazione di un sistema di crawling adatto ad operare in condizioni di limitate risorse hardware e di rete. L’obiettivo perseguito nello sviluppo di questo lavoro è l’esecuzione di un crawling, il più possibile esaustivo del web italiano, nel minor tempo possibile e limitando le risorse necessarie, al fine di ottenere un grafo che rappresenti la struttura topologica del web italiano

Item Type:Laurea triennale
Corsi di Laurea Triennale:Scuola di Ingegneria > Ingegneria informatica
Uncontrolled Keywords:crawling, web, web italiano
Subjects:Area 09 - Ingegneria industriale e dell'informazione > ING-INF/05 Sistemi di elaborazione delle informazioni
Codice ID:26028
Relatore:Pretto, Luca
Data della tesi:30 September 2010
Biblioteca:Polo di Ingegneria > Biblioteca di Ingegneria dell'Informazione e Ingegneria Elettrica "Giovanni Someda"
Tipo di fruizione per il documento:on-line per i full-text

Solo per lo Staff dell Archivio: Modifica questo record