achtergrond

Geenstijl

login

word lid

nachtmodus

tip redactie

zoeken

@textgain

Er bestaat een EU-gesubsidieerde database van GeenStijl-reaguursels tegen "toxische taal"

Wat we nou toch weer tegen kwamen op het www punt eu

Er bestaat een Belgenbedrijfje dat heet textgain, en het speurt naar "toxische taal". Ze werken aan beide zijden van de grens voor onder meer Mediahuis, Google, de UvA en de NCTV en het verdienmodel lijkt te opereren op flinke sommen subsidie, waarmee ze hun arbeid kunnen verrichten in de strijd tegen taal. Er werken mensen die met een telescoop op veilige afstand naar het internet zitten te kijken en dan naar elkaar gillen "KIJK DAAR ONTPLOFT WEER IEMAND! HIJ GEBRUIKT VUIGE TAAL!" Dan hoogvijven ze en voegen ze die vuige taal toe aan hun databases. Een van die datasets bestaat uit ACHT MILJOENMILJARD GS-comments:

"We collected over 8M messages from the controversial Dutch websites GeenStijl and Dumpert to train a word embedding model that captures the toxic language representations contained in the dataset. The trained word embeddings (±150MB) are released for free and may be useful for further study on toxic online discourse."

Uit deze pdf van vier kantjes inclusief woordwolk (mirror) blijkt dat de soepsidiebelgen geen snars begrepen hebben van GeenStijl "and its toxic idioms", maar dat zijn we wel gewend dus dat geeft verder niet. Veel erger is dat de downloadlink naar hun 8 miljoen booswoorden tellende dataset niet werkt, dus we hebben ze een non-toxisch contactformuliertje gestuurd met de vraag of ze ons even willen opsturen met welke reaguursels ze hun eigen vroomheid als gesubsidieerd product vermarkten. Want de dataset is naar verluidt gebruikt voor een EU-systeem om 'haatnieuws' te detecteren: het European Observatory of Online Hate, met de pakkende afkorting EOOH. (Nooit van gehoord, trouwens, dus dan zal het wel miljarden hebben gekost.)

Als die Vlaamse taalvrezers dus ff die dataset opsturen, dan kunnen we zelf antigeenstijl.nl starten en daar een stichting van maken die kan bedelen in Brussel en bij overheden en universiteiten en uitgevers, zodat we zelf ook boelveel subsidie kunnen krijgen. Want waarom zou iemand anders schijnheilig rijk moeten worden van ónze reaguursels? We kunnen met GeenStijl.nl immers zelf bronmateriaal blijven maken om het algoritme te leren nieuwe vrije vuige taal te herkennen,  en zo houden we onszelf in stand als toxische taalstrijders én als vrome verkopers van de strijd tegen taal. Over textgain gesproken! Zelf giftige taal subsidiëren met giften kan hierrr.

Instant Updatabase:
"Beste Bart, bedankt voor je bericht en om ons erop te attenderen dat de link gebroken is. Deze is nu gefixt:
https://www.textgain.com/resources/datasets/
met vriendelijke groeten
Guy"
(Lap ende amai zeg.. Da's just onleesbare database-taal voor specifieke software - red.)
UPDATE: Belgen haalden database meteen weer offline na publicatie van het topic. HIERRR kun je zelf pielen, voor wie de software heeft.

Tip de redactie

Wil je een document versturen? Stuur dan gewoon direct een mail naar redactie@geenstijl.nl
Hoef je ook geen robotcheck uit te voeren.