Onder andere komen verschillende genres voorbij: ‘zeestuck’, ‘batalie’, ‘lantschap’, ‘konterfeijtsel’. Daarnaast andere gerelateerde termen, waaronder 'verguld', 'teijckeningen', 'lyst'. Zelf proberen? Check projector.tensorflow.org/?config=https:… (2/3)
Wobsoftware: Tekstherkenning ingezet tégen media en burgers die overheidsdocs opvragen
Mailtje van een bekende naar aanleiding van de vele Wob-berichten
Beste redactie,
Sinds een aantal jaar bij een grote instelling waar ik de technische ontwikkelingen rond tekstanalyse van grote bestanden nauwgezet volg. Met name de inzet van kunstmatige intelligentie hierbij fascinerend. Nu las ik in september het interessante artikel over de 'robowob' op GS: Hugo de Jonge heeft speciale software om Wob-verzoeken zwart te lakken - én te openbaren. Ik ben alleen bang dat de auteur niet helemaal begrijpt wat die software nu eigenlijk kan en waarom deze zo beangstigend is.
Op basis van de site denk ik dat deze tool van Zylab niet alleen een fraaie zoekmachine is die op trefwoorden zoekt, maar dat dit bedrijf ook gebruikmaakt van nieuwe technieken uit de Digital Humanities-gereedschapskist die ik in de praktijk heb gezien. De software doet onder meer aan 'topic modelling' en dat betekent dat clusters van bij elkaar horende woorden worden geïdentificeerd. Hierdoor kunnen delen van teksten worden gevonden over bijvoorbeeld 'toeslag', die daar op het eerste gezicht niets mee te maken kunnen hebben. Zo is sneller na te gaan welke delen van de tekst ook dienen te worden gelakt, omdat die informatie bevatten over een bepaald gevoelig onderwerp. Door gebruik te maken van zelflerende software kan de computer nog sneller verbanden leggen in enorme hoeveelheden tekst waar een normaal mens nooit in staat toe zou kunnen zijn (en bijvoorbeeld namen van mensen aan bepaalde termen koppelen).
Zie bijvoorbeeld deze verkenning over historisch onderzoek (pdf) en deze tweets:
Iets ingewikkelder gezegd: dit is het trainen van een neuraal netwerk om semantische relaties tussen woorden in kaart te brengen aan de hand van grote hoeveelheden tekst. Op deze manier laat de computer zien in welke context bepaalde woorden worden gebruikt en wat de mogelijke betekenis van die woorden zou kunnen zijn. Door dat proces met de hand te laten verfijnen (wat op de screenshotjes te zien was in het GS artikel), wordt de software nog beter. Ik heb de werking hiervan gezien bij het onderzoek naar 17e eeuwse notarisarchieven waarbij de ene na de andere Rembrandt werd gevonden in boedelbeschrijvingen geschreven in priegelhandschrift. (Zie ook dit Volkskrant-artikel.) Kun je nagaan wat deze techniek kan bij een goed gestructureerd en perfect machineleesbaar overheidsarchief.
Het interessante is dus dat historici en journalisten dergelijke technieken gebruiken om snel verbanden te vinden in grote hoeveelheden archiefdata, maar het is voor het eerst dat ik zie dat een overheid via een bedrijf precies dezelfde technieken gebruikt om juist zaken te kunnen toedekken. Door de Wob konden journalisten in grote hoeveelheden informatie nieuwe verbanden ontdekken. Wat de overheid nu doet, is de journalisten voor te zijn door dat onderzoek eigenlijk al uit te voeren voordat de documenten moeten worden vrijgegeven en dat is kwalijk vanuit het oogpunt van een open, transparante overheid die verantwoording moet kunnen afleggen over beleid en beslissingen. Eigenlijk zou je een keer een demonstratie van dat bedrijf moeten vragen.
Met vriendelijke groeten,
NAW bij redactie bekend
Reaguursels
Dit wil je ook lezen
Corona-wobs kosten ruim 40.000 euro. Per dag
Openbaring geheimhouding door de staat mag u wat kosten
Hugo de Jonge eiste persoonlijk dat zijn opgevraagde corona-appjes geheim blijven
Transparantie vertrapt onder opvallend gekleurde schoenen
MinVWS: Haha, wacht nog maar lekker EEN PAAR MAANDEN op die extra Sywertappjes
Dat wordt lekker dwangsommetjes beuren voor de Volkskrant
Fout VWS: HCQ-document kritische burger belandde in Wob met RIVM-stukken
Met zulke ministeries heb je geen wappies meer nodig
WOB! Mark Rutte wiste jarenlang SMS'jes
Premier Mark "Beltegoed" Rutte had te weinig opslagruimte
GSTV. Rutte is een probleem voor de persvrijheid
Geslotenheid van bestuur en zwarte stiften-censuur = plek 22 op de persvrijheidslijst
Overheid weigert wobverzoek om documenten over chemtrails te openbaren
Ja, die kop kun je inderdaad op meerdere manieren lezen