WooGLe: doorzoek de Woo dossiers van gemeenten, provincies en ministeries.

Woogle: hoe werkt het?

Woogle is een zoekmachine voor Woo-dossiers, documenten vrijgegeven na een verzoek gedaan onder de Wet open overheid (Woo). Zo'n dossier bestaat uit een aantal onderdelen:

Woogle werkt op 1 onderdeel na net als Google: je voert een zoekvraag in, verfijnt die desnoods met filters en zoekt, en je krijgt een lijst met resultaten, met de best passende bovenaan.

Het verschil met Google is dat we hier altijd hele dossiers als resultaten teruggeven, en geen afzondelijke documenten uit die dossiers. Wel geven we voor elk dossier 10 goede startpunten om met lezen te beginnen. Dat zijn de blauwe nummers 1-10 onder de korte beschrijving van een dossier in de hit lijst. Die startpunten zijn niet geordend op hun pagina nummer maar op hun overeenkomst met de zoekvraag. De eerste is dus de door Woogle meest passend geachte pagina om met lezen te starten. Bij het openen van de PDF file in de Chrome browser wordt men direct naar die gewenste pagina midden in het PDF document gebracht.

Full text search

Woogle is een zogenaamde full text search zoekmachine. Dat betekent dat Woogle elk woord dat in elk onderdeel van elk Woo dossier staat kent, en kan gebruiken om het document na een zoekvraag te vinden. Dat is natuurlijk veel krachtiger dan alleen zoeken in een korte titel of beschijving mogelijk te maken. Maar dat heeft een prijs....

Aan elkaar geplakte documenten

Het is een vreemde gewoonte om alle vrijgegeven documenten niet netjes los in een mapje, maar aan elkaar geplakt in één grote PDF file openbaar te maken. Dit hoeft helemaal niet, zie bijvoorbeeld de dossiers uit Waalwijk, maar bijvoorbeeld alle ministeries doen dit wel zo. Vaak wordt het verzoek en het besluit en de inventarislijst daar ook nog voor geplakt.

Voor computers is het niet mogelijk om die aan elkaar geplakte lijst weer correct op te knippen in de oorspronkelijke documenten. Zelfs met de meest geavanceerde AI deep learning technieken, gaat dit maar in 4 van de 5 gevallen goed.

Het enige wat we dus kunnen doen om gebruikers te helpen is om goede "lees-start-paginas" voor te stellen. De aan elkaar geplakte documenten zijn vaak honderden, ook wel duizenden paginas lang. Omdat ze in veel gevallen ook nog bestaan uit plaatjes, kunnen ze dus enorm groot zijn en kan het laden ervan best lang duren. Daar kan Woogle niks aan doen.

Leesbare tekst?

Dit dossier uit 2022, vrijgegeven door het Ministerie van Justitie en Veiligheid bevat alleen aan elkaar geplakte vrijgegeven documenten, met geen enkel door de computer leesbaar woord er in. Jammer genoeg is dit voor bijna de helft van de vrijgegeven documenten op Woogle het geval.

Je kan dit als gebruiker testen door zo'n document te openen en met Control F te zoeken naar een woord dat je ziet staan. Wordt er niks gevonden, dan is dat woord niet door de computer te lezen. En als je het niet met Control F kunt vinden, kan Google of een andere zoekmachine het ook niet vinden. Jammer, want wat heb je aan openbaar gemaakte stukken die niet meer (terug) te vinden zijn?

Optische karakter herkenning

Woogle "lost dit op" door optische karakter herkenning toe te passen op elk bestand. Dit betekent dat we de teksten bekijken als een plaatje en alle letters en woorden proberen te herkennen en weer om te zetten naar computer-leesbare tekst. Dit gaat heel goed, maar niet altijd foutloos. Bij het gebruiken van Woogle kan je op 2 typen fouten stuiten:

  1. Je weet dat er een document met woord X in Woogle zit, maar Woogle vindt dat document na zoeken op X toch niet.
  2. Dan is X in dat document niet goed herkent.
  3. Je krijgt na zoeken op X een document terug, maar je ziet dat woord X er helemaal nergens instaan.
  4. Hier is dan X herkend terwijl het niet in het document stond. Een voorbeeld is |bestuur dat herkent werd als ibestuur.

Soms is een vrijgegeven bestand wel computer-leesbaar, maar in plaats dat de overheid het originele digitale bestand vrijgaf, heeft ze het waarschijnlijk ingescand en geprobeerd de tekst toen ook computer leesbaar te maken, wat dan mislukt is. Hier een voorbeeld uit een vrijgegeven document:

HetRijkende provincesstaanvooreenbelangrijkeengrootschaligeopgaven hetverlagenvande stikstofdepositiein Natura2000gebieden

Een gewone zoekmachine zal na zoeken op Natura2000 of stikstofdepositie dit document niet kunnen vinden. Woogle hopelijk wel, want we doen de karakter herkenning opnieuw.