Ergens in een stapel van 3500 kilometer hoog

Zoeken op Internet wordt wel vergeleken met het speuren naar een naald in een hooiberg. Dat is een optimistische vergelijking. In werkelijkheid gaat het om een paar honderd hooibergen en is de kans groot dat de naald niet in een van de hooibergen ligt, maar ergens op een grasland waarvan het hooi nog niet eens is binnengehaald.

Internet telt honderden zoeksystemen en geen daarvan is in staat een complete index te leveren van alle informatie die beschikbaar is. De grootste zoeksystemen, HotBot en Excite, hebben in hun bestanden verwijzingen naar zo'n 55 miljoen pagina's zitten. Dat lijkt veel, maar er zijn naar schatting minstens 150 miljoen webpagina's via het net beschikbaar. Tezamen bevatten ze - weer naar schatting, want niemand weet het zeker - 1,5 terabytes aan informatie, oftewel 1,5 miljard megabytes. Ter illustratie: wie van het net een backup wil maken met gewone floppy's heeft er minstens een miljard nodig, bij elkaar goed voor een stapel van 3500 kilometer.

Bijkomend probleem is dat de informatie op het net voortdurend verandert. Volgens Brewster Kahle, oprichter van Internet Archive, een organisatie die uit historische overwegingen inderdaad een complete backup van het net wil maken, blijft een pagina gemiddeld 75 dagen ongewijzigd op het net staan.

Zoeksystemen staan voor de onmogelijke taak deze digitale jungle in kaart te brengen. Dat doen ze door middel van zogeheten crawlers, programma's die het net op worden gestuurd om informatie te verzamelen. Ze bezoeken dagelijks een paar miljoen pagina's en vergaren razendsnel de gegevens.

Niet iedere crawler gaat daarbij volgens dezelfde methodiek te werk, sommige verzamelen alle beschikbare informatie, andere zoeken alleen naar bepaalde trefwoorden. Bovendien varieert de frequentie waarmee de crawlers eropuit worden gestuurd, hoeveel pagina's ze indexeren en - minstens zo belangrijk - welke pagina's. Sommige crawlers zijn zo geprogrammeerd dat ze de voorkeur geven aan populariteit, wat wil zeggen dat ze drukbezochte sites vaker aandoen dan pagina's waar vrijwel niemand komt. Die verschillen in aanpak leiden tot een lappendeken van indexen waarbij het terugvinden van informatie meer een kwestie lijkt van willekeur dan van systematiek.

Een praktisch voorbeeld: Bij de Rijksuniversiteit Groningen staat op een van de Internetsites een pagina met het adressenbestand van een jongerenwerkgroep voor sterrenkunde. Een van de leden van die werkgroep woont op de Schoterlandseweg. Is het nu mogelijk om via zoeksystemen die bewuste pagina terug te vinden met behulp van het trefwoord 'Schoterlandseweg'?

Een zoekopdracht bij de populairste zoeksystemen, AltaVista, Lycos, WebCrawler, Excite, HotBot en InfoSeek, levert alleen bij de twee laatste het gewenste resultaat op. Voor de andere vier systemen bestaat de pagina niet, alhoewel deze al minstens anderhalf jaar ongewijzigd beschikbaar is. Aan de omvang van de beschikbare indexbestanden ligt het ook niet. De database van Exicte bijvoorbeeld telt bijna twee keer zoveel pagina's als de dertig miljoen van InfoSeek.

Om het nog ingewikkelder te maken ligt het er ook niet aan of het bewuste zoeksysteem op de hoogte is van het bestaan van de pagina. Lycos bijvoorbeeld kan de Schoterlandseweg niet vinden, maar als bij datzelfde systeem gezocht wordt op 'Jongerenwerkgroep voor Sterrenkunde' dan komt de bewuste pagina merkwaardig genoeg wel naar boven. Kennelijk vond de crawler van Lycos het bestaan van de Schoterlandseweg niet interessant. Dat zou een verklaring kunnen zijn voor het feit dat de crawler van Lycos een ruim drie keer zo grote capaciteit heeft als de drie miljoen pagina's die AltaVista dagelijks kan indexeren.

Andere systemen trachten hun taak te verbeteren door zich geografisch te beperken. Ilse en Zoek.nl bijvoorbeeld beperken zich tot sites in Nederland. Of de betrouwbaarheid daardoor wordt vergroot is de vraag. Alleen Ilse weet de genoemde pagina van de jonge sterrenkundigen te vinden. En zelfs dat zegt niet veel, want een zoektocht naar de straatnaam bij AltaVista, met de toegevoegde optie alleen Nederlandstalige pagina's te doorzoeken, levert vijf verwijzingen op (waarvan er een niet meer bestaat), terwijl Ilse blijft steken op drie, waarvan er ook eentje afvalt wegens veroudering. Van in totaal acht gevonden verwijzingen is er slechts één die in beide systemen aanwezig is. Zoeken begint zo wel erg veel te lijken op gokken.

De Internetgebruiker kan het probleem van de gebrekkige indexen deels te boven komen door gebruik te maken van zogeheten meta-zoeksystemen. Dat zijn systemen die niet zelf zoeken, maar de opdracht doorgeven aan een geselecteerd aantal echte zoeksystemen, zodat de gebruiker dat niet zelf hoeft te doen en daarmee veel tijd bespaart. De vergaarde resulaten worden vervolgens onder elkaar getoond. Dergelijke systemen, als bijvoorbeeld SavvySearch, zijn echter omstreden, omdat ze min of meer parasiteren op de kostbare zoeksystemen. Ze laten bijvoorbeeld niet de advertenties zien waarmee de originele zoeksystemen hun expoitatiekosten trachten te financieren en worden dan ook toepasselijk para-sites genoemd.

Naast de systemen die het gehele Internet trachten te indexeren zijn er ook zoekmachines die zich richten op bepaalde onderwerpen. Filez bijvoorbeeld heeft een overzicht van 75 miljoen software-programma's die via trefwoorden kunnen worden gevonden. En wie op zoek is naar actuele informatie uit de Verenigde Staten kan terecht bij NewsWorks dat dagelijks de artikelen van meer dan honderd lokale online kranten indexeert. Beide systemen leveren informatie die nauwelijks of in elk geval lastig met de reguliere zoeksystemen kan worden achterhaald. Om een overzicht te krijgen van beschikbare zoeksystemen kan overigens het beste de gelijknamige rubriek van Yahoo! geraadpleegd worden, een systeem dat sites naar onderwerp rubriceert.

Alhoewel de zoeksystemen op Internet fabelachtige staaltjes van technologie zijn en het voor de leek onbegrijpelijk is dat een systeem in staat is in luttele seconden gegevens te voorschijn te toveren uit indexen waarin tientalen miljoenen pagina's zijn opgeslagen, zijn ze verre van ideaal. En zullen ze dat misschien wel nooit worden.

'Niemand kan zich voldoende hardware veroorloven om het complete web te indexeren en de hele planeet daar toegang tot te geven', verklaarde Louis Monier van AltaVista in juni tegenover het blad New Scientist. De enige remedie om de ergernis over de gefragmenteerde informatie te overkomen is dan ook om het zoeken als zodanig leuk te gaan vinden.

Francisco van Jole

Uit de Volkskrant van 30 augustus 1997

Home