Francisco van Jole

de Volkskrant, 1 april 1995

ZOEKEN IN DE DIGITALE HOOIBERG

Internet, het grootste computernetwerk ter wereld, kampt met een `naald in de hooiberg'-syndroom. Er is zoveel informatie beschikbaar dat het uiterst moeilijk is om specifieke gegevens er tussen uit te vissen. Dat creëert het beeld dat op het net voornamelijk `alles' en vrijwel nooit `iets' is te vinden. Op tal van plaatsen wordt daarom driftig gewerkt aan intelligente, geavanceerde en vooral omvangrijke zoeksystemen. De naar schatting dertig miljoen gebruikers kunnen daarmee aan de hand van trefwoorden razendsnel zoeken in de openbare gegevens die in miljoenen computers verspreid over de hele wereld opgeslagen zijn. Tussen programmeurs lijkt een heuse wedloop te zijn ontstaan. Sommigen nemen daaraan deel omdat ze denken er erg rijk van te kunnen worden: `u vraagt (en betaalt) en wij antwoorden'. Anderen zien het als een wetenschappelijke uitdaging of werken aan efficiënte zoekmethodes om te voorkomen dat het net aan overbelasting ten onder gaat.
Het resultaat van die wedloop is dat de gebruiker een scala aan zoekmiddelen ter beschikking heeft. Dat is niet prettig maar vervelend. Want voordat een speurtocht kan worden ondernomen, moet eerst een keuze uit de zoeksystemen gemaakt worden. Wie niet weet welk systeem wat doet, wordt er hoorndol van. Een aardig staaltje van dergelijke netfrustratie wordt gegenereerd door op zoek te gaan naar gegevens over Sarin, het zenuwgas dat vorige week in de metro van Tokyo werd losgelaten. De eerste zoekpoging levert tien `hits' op, oftewel verwijzingen naar documenten waar Sarin in de titel voorkomt. Dat is niet alleen schrikbarend weinig maar de resultaten zijn ook nog eens hoogst opmerkelijk. Het overgrote deel van de documenten blijkt betrekking te hebben op het Italiaanse bedrijf Sarin Telematica, dat de afgelopen week waarschijnlijk niet echt gelukkig is geweest met de eigen benaming. Een ander `slachtoffer' van de chemische term is Vinod K. Sarin, professor aan de universiteit van Wisconsin. Het meest merkwaardige is echter dat de speurtocht daar blijft steken. Een professor en een telematicabedrijf, dat zijn volgens Internet de twee mogelijke verwijzingen naar sarin. Terwijl de rest van de wereld daar vermoedelijk toch anders over denkt.
De verklaring voor het mysterie is deels te vinden in de naam van het gebruikte zoeksysteem: Veronica. Het is een afkorting waarvan de betekenis duidelijk maakt dat de wereld van Internet weliswaar logisch doch naar gewone menselijke begrippen uiterst ongewoon in elkaar steekt. Veronica staat voor `very easy rodent-oriented net-wide index to computerized archives'. Oftewel: een eenvoudig zoeksysteem gericht op knaagdieren. Dat laatste is niet eens alleen maar een grapje. Veronica maakt namelijk op haar beurt gebruik van een ander systeem dat `gopher' heet en vernoemd is naar een bepaald soort grondeekhoorn. Ook dat is minder balorig dan het lijkt. De `gopher' blijkt het symbool van de Amerikaanse staat Minnesota alwaar aan de universiteit het betreffende systeem is ontwikkeld. Bovendien betekent `gopher' ook zoiets als documentenjongen en dat is nu precies wat het betreffende systeem doet. Het is een verwijssysteem dat verbindingen legt naar computers en de gebruiker in staat stelt met een enkele druk op de knop documenten uit elk op het net aangesloten systeem op te halen. Als je dat allemaal weet is het zoeken met digitale knaagdieren zo logisch als een rekensom maar dat is dan ook de magische code van het net: `als je dat allemaal weet'.

Blijft de vraag hoe het kan dat in nergens het zenuwgas sarin voorkomt. Ook daar is bij nader inzien een eenvoudige verklaring voor te vinden. Een wijdverbreid misverstand is dat Internet als een grote elektronische bibliotheek beschouwd kan worden. Dat is het - nog - niet. Het is eerder een verzameling van bibliotheken. En met Veronica zoeken naar `sarin', is te vergelijken met het speuren naar Pietje Bell in de bibliotheek van een technische universiteit. Gopher is een systeem waarmee voornamelijk min of meer officiële documenten worden gepresenteerd. Bovendien is Veronica ongeveer het slechtste middel om daarbinnen naar actuele informatie te zoeken. De database van Veronica, die alle verwijzingen bevat, wordt slechts één keer per maand vernieuwd. Dat maakt de kans om recente informatie te vinden die naar aanleiding van de aanslag in Japan is toegevoegd te nog kleiner. Veronica bevat niettemin verwijzingen naar zo'n vijftien miljoen documenten en de resultaten van een zoekoperatie worden binnen enkele seconden getoond. Dat klinkt indrukwekkend maar in de praktijk blijkt het systeem erg lui. Veronica gaat namelijk niet zelf op zoek naar informatie. Systeembeheerders die nieuwe takken van gopher installeren moeten dat zelf aan Veronica melden of een brug slaan naar een reeds bestaande tak. Pas dan kijkt Veronica bij de eerstvolgende maandelijkse update welke informatie zich in het nieuwe systeem bevindt. Het legt contact met de jonge loot, struint door de verwijzingen en voegt die toe aan haar eigen database. Met die luiheid diskwalificeert Veronica zichzelf als betrouwbaar zoeksysteem.

Het `gopher'-systeem lijkt zijn langste tijd gehad te hebben en de geavanceerde opvolger ervan heet World Wide Web. Hoewel ook dit systeem slechts een deel beslaat van alle informatie die via Internet gevonden kan worden, groeit het Web langzaam maar zeker tot synoniem van Internet. Is het saai ogende gopher voornamelijk georiënteerd op tekst, met het Web wordt alles wat er aan computertechniek voor handen is uit de kast getrokken. Dus behalve tekst verschijnen er ook plaatjes, geluid en zelfs videobeelden. En dat in een opmaak die nog het meest aan die van een glossy magazine doet denken.
In omvang is het Web nog niet zo groot als gopher maar niettemin levert de speurtocht naar sarin via deze ingang al meer resultaat op: 11 hits. Het gebruikte zoeksysteem heet Lycos en dat verwijst niet naar een knaagdier maar naar de Latijnse benaming voor wolfspinnen. Een merkwaardige keuze overigens omdat het nu juist een van de weinige spinnesoorten is die zijn prooi niet vangt met behulp van een web. Lycos is een van de populairste zoeksystemen van dit moment. De index wordt wekelijks vernieuwd en de database telt verwijzingen naar ruim 2,5 miljoen documenten. Per week wordt het systeem 175.000 keer geraadpleegd. Dat is het maximum aantal aangezien de zeven computers waar Lycos op draait niet meer capaciteit hebben. Het handige van Lycos is dat het systeem ook een waarde toekent aan de gevonden documenten. Er wordt niet alleen gekeken naar de titel maar ook naar hoe vaak de gezochte term voorkomt in de inhoud van het document. Aan de hand daarvan wordt een waarde trefwaarde vastgesteld. Over de kwaliteit van de informatie zegt dat natuurlijk niets. Verder wordt in sommige gevallen een documentfragment getoond. Dat blijkt erg handig en bespaart een hoop speurwerk omdat ook hier weer een groot deel van de verwijzingen leidt naar het Italiaanse telematicabedrijf. Bovendien geeft Lycos een overzicht van beschikbare uitbreidingen van de originele zoekterm zoals sarina en sarinfo. Bovenaan de hitlist staat een verwijzing die blijkt te leiden naar een nieuwsbericht van persbureau Reuter en handelt over politie-acties tegen de sekte Aum Shinri Kyo. Echt veel wijzer over sarin worden we daar niet van. Er is ook een achtergrondartikel gevonden uit de New York Times, gedateerd 21 maart. Helaas handelt dat niet over sarin maar over het hele brede spectrum van chemische wapens dat in terreuraanslagen wordt genoemd. En om de frustratie compleet te maken wordt tot slot nog verwezen naar een interessant ogend discussiestuk dat echter niet opvraagbaar blijkt: `Cannot find article'.
Het opduiken van kranteartikelen is te danken aan de vormgevingsmogelijkheden van het Web. Veel uitgevers zien het systeem als een uitgelezen middel om te experimenteren met elektronische publikaties. Het aantal kranten en tijdschriften dat op een dergelijke manier geraadpleegd kan worden groeit dan ook gestaag. De reden dat Lycos niet meer van dergelijke documenten vindt, is dat de database niet snel genoeg gevoed kan worden. Net als Veronica is Lycos grotendeels afhankelijk van beheerders die zelf melden dat ze een nieuw systeem geinstalleerd hebben. Voor die handicap is wel een oplossing te vinden maar niet iedereen is daar even gelukkig mee.
`In september 1993 meldde mijn Internet-computer dat er een ongewoon groot aantal documenten was opgevraagd. Op drie verschillende tijdstippen bleek met de ongekend hoge snelheid van één document per seconde steeds dezelfde serie bestanden opgehaald. Stuk voor stuk documenten die op de op de een of andere manier met elkaar verbonden waren. Al snel werd duidelijk dat collega's soortgelijke ervaringen hadden: Dit was het werk van een `wanderer' (zwerver)', aldus Martijn Koster, werkzaam bij het Engelse netwerkbedrijf Nexor. `Wanderers' zijn computerprogramma's die als een soort virussen min of meer zelfstandig over Internet `zwerven'. Ze springen van systeem naar systeem en voeren keer op keer hun taak uit. Meestal dienen wanderers een nobel doel: ze vergaren zoveel mogelijk informatie om die vervolgens toegankelijk te maken. De vergaarde informatie wordt vervolgens in een database gestopt. De reden dat ze worden gevreesd is dat ze door hun krankzinnig hoge activiteit in staat zijn computers te overbelasten en netwerken compleet plat te leggen. Ze vragen een document op, zoeken daarin de verwijzingen naar andere documenten, vragen die vervolgens weer op en zo verder tot in het oneindige. Er zijn systeembeheerders die daarom maatregelen nemen om de wanderers buiten de deur te houden. Voor Koster was het bezoek van de wanderer aanleiding om een alternatieve informatievergaring op te zetten: Aliweb Aanvankelijk was het de bedoeling dat auteurs zelf korte omschrijvingen van hun documenten zouden inbrengen maar dit bleek al snel een te zwakke methode. Nadien is Koster overgestapt op een andere vorm van automatiseren. Of dat het probleem echt oplost is de vraag. Het zoeken naar sarin levert bij Aliweb geen enkel resultaat op.
Afgezien van de vraag hoe de databases gevoed moeten worden, is er nog een ander probleem bij het zoeken op het net. De gebruiker die een index raadpleegt moet wel exact weten hoe de zoekterm gespeld wordt. Voor zoiets als sarin is dat niet echt een probleem maar bij andere termen levert dat moeilijkheden op. Berucht is het voorbeeld van de voormalige Sovjet-leider Chroestjow wiens naam op meer dan 2500 verschillende manieren gespeld kan worden. De kans is niet ondenkbaar dat ze ook in al die vormen worden gebruikt. Even snel iets opzoeken is in zo'n geval uitgesloten. Kim Hendrikse uit het Limburgse Ohe en Laak zegt daarvoor een unieke oplossing gevonden te hebben: fuzzy searching. Wie op zoek is naar informatie over de acteur Arnold Schwarzenegger kan in het bewuste systeem, NexTrieve, gerust Swartnogger intypen. Het zoeksysteem constateert uit zichzelf dat de term Schwarzenegger daarbij in de buurt komt. Fuzzy searching, vrij vertaald `vaag zoeken', is geen ontdekking van Hendrikse. Het wordt al langer gebruikt in commerciële database pakketten. Op het net is een dergelijk zoeksysteem echter niet of nauwelijks beschikbaar. `En zeker in niet in een dergelijk geavanceerde vorm.'
Fuzzy search kijkt niet alleen naar het hele woord maar oook naar voorkomende lettercombinaties en mogelijke varianten daarop. De gebruiker kan zelf met behulp van gradaties kiezen hoe `vaag' er gezocht wordt. Niettemin zijn ook daarmee niet alle problemen de wereld uit. Wie meent dat de achternaam van acteur Rutger Hauer gespeld wordt als Houwer en daarmee zoekt, vindt ook met het systeem van Hendrikse niets wat naar hem verwijst. Volgens Hendrikse is de reden daarvoor dat het systeem niet naar fonetische klanken zoekt. `Dat zou het immers afhankelijk maken van een bepaalde taal.' Een verschil met de gebruikelijke zoeksystemen is dat de index van Nextrieve zich niet beperkt tot trefwoorden maar gewoon alle in een tekst voorkomende woorden opneemt. Het resultaat daarvan is dat niet alleen naar woorden gezocht kan worden maar ook naar zinnen en op zo'n manier dat de woorden niet precies in de juiste volgorde hoeven te staan. `Een uitspraak als `to be or not to be' kun je met geen enkel ander zoeksysteem terugvinden omdat het helemaal bestaat uit woorden die niet in een index worden opgenomen.' Aangezien het systeem zich nog in een testfase bevindt en daartoe gebruik maakt van een beperkte database heeft het geen zin om NexTrieve te gebruiken om naar sarin te speuren.
Uiteindelijk blijkt de journalistieke benadering van het vinden van informatie over sarin nog het beste te werken. Het vereist geen zoeksysteem maar logisch redeneren. De meest actuele berichten op Internet zijn te vinden in de nieuwsgroepen. Het is het onderdeel van het net waar permanente discussies plaatsvinden over een schier oneindige hoeveelheid onderwerpen. Die discussies zijn gerubriceerd naar onderwerp. Een daarvan is geheel gewijd aan de chemische wetenschappen. Sarin blijkt daar echter geen onderwerp van gesprek. Waar dan wel? Ergens op dit gigantische netwerk van miljoenen gebruikers moeten toch wel wat mensen van gedachten wisselen over het zenuwgas dat zoveel commotie heeft veroorzaakt. De oplossing blijkt voor de hand liggend: de nieuwsgroep die handelt over het dagelijks leven in Japan. Binnen twee minuten is het antwoord gevonden. In een bijdrage getiteld `Chemistry and Physiology' zet ene Yu Zheng van de Brigham Young University de samenstelling en werking van het gas uiteen, compleet met een schema van de structuur.

Francisco van Jole

NB: Deze tekst bestaat uit ongecorrigeerde kopij en is eigendom van Francisco van Jole. Er is geen enkele garantie dat tekst en publikatiedatum overeenstemmen met de gedrukte versie. Gedrukte artikelen zijn op te vragen bij de documentatiedienst van de Volkskrant. Verdere verspreiding of gebruik niet toegestaan zonder voorafgaande schriftelijke toestemming van de auteur.

Geraadpleegde bronnen

Home