GeenStijl: Wobsoftware: Tekstherkenning ingezet tégen media en burgers die overheidsdocs opvragen

Wobsoftware: Tekstherkenning ingezet tégen media en burgers die overheidsdocs opvragen

Mailtje van een bekende naar aanleiding van de vele Wob-berichten

Beste redactie,

Sinds een aantal jaar bij een grote instelling waar ik de technische ontwikkelingen rond tekstanalyse van grote bestanden nauwgezet volg. Met name de inzet van kunstmatige intelligentie hierbij fascinerend. Nu las ik in september het interessante artikel over de 'robowob' op GS: Hugo de Jonge heeft speciale software om Wob-verzoeken zwart te lakken - én te openbaren. Ik ben alleen bang dat de auteur niet helemaal begrijpt wat die software nu eigenlijk kan en waarom deze zo beangstigend is.

Op basis van de site denk ik dat deze tool van Zylab niet alleen een fraaie zoekmachine is die op trefwoorden zoekt, maar dat dit bedrijf ook gebruikmaakt van nieuwe technieken uit de Digital Humanities-gereedschapskist die ik in de praktijk heb gezien. De software doet onder meer aan 'topic modelling' en dat betekent dat clusters van bij elkaar horende woorden worden geïdentificeerd. Hierdoor kunnen delen van teksten worden gevonden over bijvoorbeeld 'toeslag', die daar op het eerste gezicht niets mee te maken kunnen hebben. Zo is sneller na te gaan welke delen van de tekst ook dienen te worden gelakt, omdat die informatie bevatten over een bepaald gevoelig onderwerp. Door gebruik te maken van zelflerende software kan de computer nog sneller verbanden leggen in enorme hoeveelheden tekst waar een normaal mens nooit in staat toe zou kunnen zijn (en bijvoorbeeld namen van mensen aan bepaalde termen koppelen).

Zie bijvoorbeeld deze verkenning over historisch onderzoek (pdf) en deze tweets:

Gerhard de Kok

@gerharddekok

·Follow

Replying to @gerharddekok

Onder andere komen verschillende genres voorbij: ‘zeestuck’, ‘batalie’, ‘lantschap’, ‘konterfeijtsel’. Daarnaast andere gerelateerde termen, waaronder 'verguld', 'teijckeningen', 'lyst'. Zelf proberen? Check projector.tensorflow.org/?config=https:… (2/3)

3:12 PM · Apr 14, 2021

Read 1 reply

Iets ingewikkelder gezegd: dit is het trainen van een neuraal netwerk om semantische relaties tussen woorden in kaart te brengen aan de hand van grote hoeveelheden tekst. Op deze manier laat de computer zien in welke context bepaalde woorden worden gebruikt en wat de mogelijke betekenis van die woorden zou kunnen zijn. Door dat proces met de hand te laten verfijnen (wat op de screenshotjes te zien was in het GS artikel), wordt de software nog beter. Ik heb de werking hiervan gezien bij het onderzoek naar 17e eeuwse notarisarchieven waarbij de ene na de andere Rembrandt werd gevonden in boedelbeschrijvingen geschreven in priegelhandschrift. (Zie ook dit Volkskrant-artikel.) Kun je nagaan wat deze techniek kan bij een goed gestructureerd en perfect machineleesbaar overheidsarchief.

Het interessante is dus dat historici en journalisten dergelijke technieken gebruiken om snel verbanden te vinden in grote hoeveelheden archiefdata, maar het is voor het eerst dat ik zie dat een overheid via een bedrijf precies dezelfde technieken gebruikt om juist zaken te kunnen toedekken. Door de Wob konden journalisten in grote hoeveelheden informatie nieuwe verbanden ontdekken. Wat de overheid nu doet, is de journalisten voor te zijn door dat onderzoek eigenlijk al uit te voeren voordat de documenten moeten worden vrijgegeven en dat is kwalijk vanuit het oogpunt van een open, transparante overheid die verantwoording moet kunnen afleggen over beleid en beslissingen. Eigenlijk zou je een keer een demonstratie van dat bedrijf moeten vragen.

Met vriendelijke groeten,
NAW bij redactie bekend

Tags: wob, Weglaksoftware, Wobstructie

@Van Rossem | 16-02-22 | 19:33 | 0 reacties

Geenstijl

Wobsoftware: Tekstherkenning ingezet tégen media en burgers die overheidsdocs opvragen

Beste redactie,

Dit wil je ook lezen

Corona-wobs kosten ruim 40.000 euro. Per dag

Hugo de Jonge eiste persoonlijk dat zijn opgevraagde corona-appjes geheim blijven

Overheid breekt wet. Ministeries kregen meer dan 2 miljoen aan boetes wegens Wob-weigering

MinVWS: Haha, wacht nog maar lekker EEN PAAR MAANDEN op die extra Sywertappjes

De Rutte-doctrine in de praktijk: 'Je vergeet weleens een documentje, hè'

Fout VWS: HCQ-document kritische burger belandde in Wob met RIVM-stukken

WOB! Mark Rutte wiste jarenlang SMS'jes

GSTV. Rutte is een probleem voor de persvrijheid

Overheid weigert wobverzoek om documenten over chemtrails te openbaren

Wobstukken over 2G. Uw grondrechten, geen detailvraag voor Hugo de Jonge

Over GeenStijl:

Tip de redactie

Linktips:

GeenStijl.nl is een uitgave van GS Magenta B.V.