Totaalcijfers & totaaltransparantie over GeenPeil

HET OFFICIËLE GEENPEIL MEET, WEEG & WEET-MODEL
Allereerst twee linkjes naar alle data, waaronder locaties van 'onze' stembureaus, de uitslagen daarvan, de triage bij de binnengekomen uitslagen en meer van dat soort dingen. Beschikbaar in twee formaten:
HIER IN .XLSX (leesbaar voor allen)
&
HIER IN .TXT (leesbaar voor stat-progs)
Het model werkt als volgt:
- Alle stembureaus worden op basis van demografische criteria op buurtniveau onderverdeeld in een aantal groepen waarvan de omvang ongeveer bekend is.
- Als een stembureau binnenkomt, dan wordt de uitslag toegevoegd aan de uitslag van de groep.
- Per groep wordt de uitslag berekend.
- De totaaluitslag wordt berekend door de resultaten, gewogen naar groepsgrootte, samen te voegen.
Het zoeken van het juiste model wordt zo vereenvoudigd tot het vraagstuk: "Welke partitionering kiezen we?" Er zijn tal van variabelen om de stembureaus te partitioneren: CBS op gemeente- en buurtniveau, de leefbaar-o-meter, en bepaalde aspecten van het stembureau zoals het aantal stemgerechtigden.
We kunnen zo'n model testen tegen eerdere verkiezingsuitslagen. Voor een bepaald model kan je kijken hoe snel de prognose convergeert naar de daadwerkelijke uitslag. Hoe eerder hoe beter. Als je dat doet voor één verkiezing, loop je de kans om de vorige verkiezing te voorspellen. Maar gelukkig hadden we meerdere uitslagen (EU, TK, GR) om mee te werken. Op basis van deze analyse bleek een aantal modellen snel te convergeren voor uiteenlopende verkiezingen. De aanname daarbij is dus dat die modellen stembureaus partitioneren in groepen die electoraal gelijk bewegen.
Technische toelichting
Het geselecteerde model is als volgt: CBS_P_EENP_HH-2,CBS_P_WEST_AL-2,CBSGemeente_P_VERWEDUW-2. Dat deelt de stembureaus in op 3 variabelen. Per variabele wordt het stembureau ingedeeld op lager dan de mediaan en hoger dan de mediaan. Het totale aantal groepen is dus 8. Er is op voorhand geëxperimenteerd met meer klassen per variabele, maar dat voegde amper power toe en maakte het aantal groepen snel groter.
Een ander model dat conceptueel aansprekend was, is CBS_AUTO_TOT-2,CBS_AUTO_LAND-2: het totaal aantal auto's in een buurt afgezet tegen het aantal auto's per oppervlakte. Dat is kennelijk een onderscheidende proxy voor andere maatschappelijke zaken als ruimtegebruik en demografie. Het model had echter wel een slechtere worst case prestatie.
Op deze manier hebben we geprobeerd om de selection bias van de Stijlloze Stemmentellers te compenseren. Of dat gelukt is, weten we om 23:00 uur. Maar bij dezen hebben onze methodologie vooraf geopenbaard en de data gedeeld. Daar kunnen Ipsos en de Hond nog wat van leren!
Tot slot: Een ouderwetse woordwolk, gebaseerd op het opmerkingenveld in het online invulformulier waarmee we de uitslagen binnen kregen, en een Stijlloze Blauwdruk van Nederland. Hoe donkerder het blauw, hoe hoger het aantal stemmentellers in een gemeente, gemeente op percentage per 10.000 inwoners. Beiden opklikbaar voor groot.



