Totaalcijfers & totaaltransparantie over GeenPeil
Vanavond om 23:00 uur krijgt Nederland de officiële (maar nog altijd voorlopige!) overheidsuitslag van Europese verkiezingen die drie dagen geleden gehouden zijn. GeenStijl deed donderdagavond met #GeenPeil al een goudeerlijke gooi naar de resultaten, vierde met heel Nederland een feestelijke verkiezingsavond en publiceerde vervolgens een eigen uitslag: 5 zetels voor D66, 4 (met kans op 3) voor het CDA en 3 (met kans op 4) voor de PVV. Leverde uitgesplitst per gemeente een awesome holyfukwatvetkaart op. En hier volgen nu de definitieve eindcijfers zoals ze dit weekend uitgedestilleerd zijn: de uitslag kwam tot stand met medewerking van 1442 Stijlloze Stemmentellers die de resultaten van door henzelf gekozen stembureaus instuurden. Daaronder zaten 1330 unieke, goedgekeurde stembureaus, waar in totaal 767.856 stemmen zijn geteld - bijna een vijfde van alle opgekomen stemgerechtigden. Er waren GeenPeil stemmentellers actief in 299 van de 403 gemeenten van Nederland. Maar is het ons gelukt? Klopt de uitslag zoals hij hierboven staat (opklikken voor groot)? Verslaan een paar bloggers en een handjevol toegewijde en deskundige vrijwilligers de professionele peilers op hun eigen terrein? Ook wij weten het pas om 23:00 uur vanavond. Maar als we onverhoopt toch nat gaan op een uitslag waar we zelf zo stellig van overtuigd zijn dat hij on the money is, dan doen we dat met open vizier en alle informatie vóóraf. Niet met beschaamd stilzwijgen of spinsmoesjes áchteraf. Daarom na de breek van ons voor heel Nederland: onze methodologie geopenbaard, en alle data gedeeld. Letten we op, Ipsnobs, André Krabbelaar & Maurice de Hoax?
HET OFFICIËLE GEENPEIL MEET, WEEG & WEET-MODEL
Allereerst twee linkjes naar alle data, waaronder locaties van 'onze' stembureaus, de uitslagen daarvan, de triage bij de binnengekomen uitslagen en meer van dat soort dingen. Beschikbaar in twee formaten:
HIER IN .XLSX (leesbaar voor allen)
&
HIER IN .TXT (leesbaar voor stat-progs)
Het model werkt als volgt:
- Alle stembureaus worden op basis van demografische criteria op buurtniveau onderverdeeld in een aantal groepen waarvan de omvang ongeveer bekend is.
- Als een stembureau binnenkomt, dan wordt de uitslag toegevoegd aan de uitslag van de groep.
- Per groep wordt de uitslag berekend.
- De totaaluitslag wordt berekend door de resultaten, gewogen naar groepsgrootte, samen te voegen.
Het zoeken van het juiste model wordt zo vereenvoudigd tot het vraagstuk: "Welke partitionering kiezen we?" Er zijn tal van variabelen om de stembureaus te partitioneren: CBS op gemeente- en buurtniveau, de leefbaar-o-meter, en bepaalde aspecten van het stembureau zoals het aantal stemgerechtigden.
We kunnen zo'n model testen tegen eerdere verkiezingsuitslagen. Voor een bepaald model kan je kijken hoe snel de prognose convergeert naar de daadwerkelijke uitslag. Hoe eerder hoe beter. Als je dat doet voor één verkiezing, loop je de kans om de vorige verkiezing te voorspellen. Maar gelukkig hadden we meerdere uitslagen (EU, TK, GR) om mee te werken. Op basis van deze analyse bleek een aantal modellen snel te convergeren voor uiteenlopende verkiezingen. De aanname daarbij is dus dat die modellen stembureaus partitioneren in groepen die electoraal gelijk bewegen.
Technische toelichting
Het geselecteerde model is als volgt: CBS_P_EENP_HH-2,CBS_P_WEST_AL-2,CBSGemeente_P_VERWEDUW-2. Dat deelt de stembureaus in op 3 variabelen. Per variabele wordt het stembureau ingedeeld op lager dan de mediaan en hoger dan de mediaan. Het totale aantal groepen is dus 8. Er is op voorhand geëxperimenteerd met meer klassen per variabele, maar dat voegde amper power toe en maakte het aantal groepen snel groter.
Een ander model dat conceptueel aansprekend was, is CBS_AUTO_TOT-2,CBS_AUTO_LAND-2: het totaal aantal auto's in een buurt afgezet tegen het aantal auto's per oppervlakte. Dat is kennelijk een onderscheidende proxy voor andere maatschappelijke zaken als ruimtegebruik en demografie. Het model had echter wel een slechtere worst case prestatie.
Op deze manier hebben we geprobeerd om de selection bias van de Stijlloze Stemmentellers te compenseren. Of dat gelukt is, weten we om 23:00 uur. Maar bij dezen hebben onze methodologie vooraf geopenbaard en de data gedeeld. Daar kunnen Ipsos en de Hond nog wat van leren!
Tot slot: Een ouderwetse woordwolk, gebaseerd op het opmerkingenveld in het online invulformulier waarmee we de uitslagen binnen kregen, en een Stijlloze Blauwdruk van Nederland. Hoe donkerder het blauw, hoe hoger het aantal stemmentellers in een gemeente, gemeente op percentage per 10.000 inwoners. Beiden opklikbaar voor groot.