może byÄ alternatywÄ dla relacyjnie zorientowanej bazy danych linków URL. Sowa kluczowe: przeglÄ danie sieci, robot internetowy, Berkeley DB, baza danych URL, ... Every crawling system needs to have a control over traversing URL links ...
Computer Science • Vol. 10 • 2009
Krzysztof Dorosz∗
USAGE OF DEDICATED DATA STRUCTURES FOR URL DATABASES IN A LARGE-SCALE CRAWLING The article discuss usage of Berkeley DB data structures such as hash tables and b-trees for implementation of a high performance URL database. The article presents a formal model for a data structures oriented URL database, which can be used as an alternative for a relational oriented URL database. Keywords: crawling, crawler, large-scale, Berkeley DB, URL database, URL repository, data structures
ZASTOSOWANIE DEDYKOWANYCH STRUKTUR DANYCH W BAZACH ADRESÓW URL CRAWLINGU DUŻEJ SKALI W artykule omówiono zastosowanie struktur danych z pakietu Berkeley DB, takich jak: tablice z haszowaniem i b-drzewa do implementacji wysoko wydajnych baz danych adresów URL. Przedstawiono model formalny bazy danych zorientowanej na struktury pamięci, która może być alternatywą dla relacyjnie zorientowanej bazy danych linków URL. Sowa kluczowe: przeglądanie sieci, robot internetowy, Berkeley DB, baza danych URL, repozytorium URL, struktury danych
1. Introduction Within the beginning of the Internet there was always a need for an automatic browsing its resources for many purposes like: indexing, cataloguing, validating, monitoring, etc. Because of a todays large volume of the World Wide Web the term Internet is often wrongly identified with the single HTTP protocol service. The process of browsing the World Wide Web in automated manner is called crawling very likely by analogy between traversing the WWW using URL anchors1 in the HTML pages to a bug crawling. A crawling process is realised by dedicated software named crawlers or robots. Because of a large scope of possible applications, crawlers can vary with architecture, ∗
Institute of Computer Sciences, AGH University of Science and Technology, Krakow, Poland, [email protected] 1 E.g. tags.