Technische achtergrond


Woogle is een zoekmachine voor Woo-dossiers, documenten vrijgegeven na een verzoek onder de Wet open overheid (Woo). Zo'n dossier bestaat uit een aantal onderdelen:

Woogle werkt op één onderdeel na net als Google: een zoekopdracht wordt aangeleverd, eventueel verfijnd met filters, en vervolgens wordt een lijst met resultaten teruggegeven, gesorteerd op basis van de beste overeenkomst met de zoekopdracht.

Het verschil met Google is dat de Woogle altijd gehele dossiers als resultaat teruggeeft, en dus geen afzonderlijke documenten uit die dossiers. Wel wordt voor elk dossier tien goede overeenkomsten in de dossiers aangegeven. Deze worden gelinkt via de nummers 1-10 onder de beschrijving van ieder dossier in de lijst van resultaten en zijn geordend op basis van de beste overeenkomst met de zoekopdracht. De eerste is dus de door Woogle meest passend geachte pagina om met lezen te starten. Bij het openen van het PDF-bestand in de browser wordt men direct naar die gewenste pagina midden in het PDF-document gebracht.

Full text search

Woogle is een zogenaamde full text search zoekmachine. Dat betekent dat Woogle elk woord dat in elk onderdeel van elk Woo-dossier staat kent, en kan gebruiken om het document na een zoekopdracht te vinden.

Gecombineerde documenten

Het is een gewoonte om alle vrijgegeven documenten niet individueel, maar gecombineerd in één groot PDF-bestand openbaar te maken. Alle ministeries doen dit bijvoorbeeld, maar dit is niet nodig (zie de dossiers uit Waalwijk). Vaak wordt het Woo-verzoek, het besluit en de inventarislijst daar ook aan toegevoegd.

Voor computers is het niet mogelijk om de gecombineerde bestanden te herstellen naar de oorspronkelijke individuele documenten. Zelfs met de meest geavanceerde AI deep learning technieken, gaat dit maar in 4 van de 5 gevallen goed.

Dit is de reden om de gebruiker voor ieder resultaat tien links naar specifieke punten in het resultaat aan te bieden. De gecombineerde documenten zijn vaak honderden, tot duizenden pagina's lang. Omdat ze in veel gevallen ook nog bestaan uit afbeeldingen, kunnen ze enorm groot zijn en kan het laden ervan lang duren.

Leesbare tekst?

Dit dossier uit 2022, vrijgegeven door het Ministerie van Justitie en Veiligheid bevat enkel gecombineerde vrijgegeven documenten, met geen enkel door de computer leesbaar woord. Jammer genoeg is dit voor bijna de helft van de vrijgegeven documenten op Woogle het geval.

Dit blijkt ook als een gebruiker binnen het document probeert te zoeken (Ctrl+F). Als de zoekterm wel aanwezig is in het document, maar niet wordt gevonden, dan is de term niet leesbaar voor de computer. Dit maakt de documenten slecht bruikbaar.

Optische karakter herkenning (OCR)

Om bestanden bruikbaarder te maken past Woogle optische karakter herkenning (OCR) toe op elk bestand. Hierbij worden teksten beschouwd worden als een afbeelding en wordt patroonherkenning toegepast om alle letters en woorden om te zetten naar computer-leesbare tekst. Dit gaat vaak goed, maar niet altijd foutloos. Bij het gebruiken van Woogle kan men op twee typen fouten stuiten:

  1. Een document dat een zoekterm bevat staat niet in de resultaten van Woogle.
  2. Een document dat een zoekterm niet bevat wordt door Woogle wel teruggegeven als resultaat.

In sommige gevallen is een bestand wel leesbaar, maar is niet het oorspronkelijke bestand vrijgegeven. In plaats daarvan is een ingescand document vrijgegeven, dat vervolgens niet (geheel) succesvol leesbaar gemaakt is. Een voorbeeld hiervan uit een vrijgegeven document is:

HetRijkende provincesstaanvooreenbelangrijkeengrootschaligeopgaven hetverlagenvande stikstofdepositiein Natura2000gebieden

In tegenstelling tot veel traditionele zoekmachines past Woogle de karakterherkenning opnieuw toe op documenten. Hierdoor is de kans groter dat de zoekmachine het bestand wel vindt wanneer zoektermen als Natura2000 of stikstofdepositie gebruikt worden.