Poll of poll är en viktad sammanvägning av de opinionsundersökningar över riksdagsvalet som regelbundet publiceras, i detta fall Demoskop, Ipsos, Novus, SCB, Sifo, YouGov, Inizio samt Sentio.
Poängen med att göra en sammanvägning av opinionsundersökningar är att försöka få en bättre bild över opinionsläget än vad enskilda mätningar ger. Problemet är nämligen att i varje opinionsundersökning finns det förändringar som beror på slumpen, samt förändringar som beror på en genuin ändring av opinionen. Målet med en sammanvägning är att bättre kunna urskilja vad som är vad. Med andra ord, målet är att försöka skilja signalen från bruset.
Den metod som pollofpolls.se använder sig av för att väga samman opinionsmätningar är baserad på en modell som är specifikt framtagen för flerpartisystem vilken utvecklades av Jakob Bergman och Björn Holmquist [1] på statistiska institutionen vid Lunds Universitet, publicerad i Scandinavian Journal of Statistics.
Metoden bygger i grunden på itererade linjärregressioner. En linjärregression, eller trendlinje som det också kallas, är en rät linje som är dragen så att den passar mätdatan, i detta fall de enskilda opinionsundersökningarna, så bra som möjligt. Det går alltid att anpassa någon form av rät linje till de mätdata som man har, men för längre mätperioder är chansen rätt stor att en rät linje inte kommer att passa mätdatan särskilt väl. För kortare mätperioder är däremot linjärregression oftast att passa relativt väl. Bilden bredvid visar en sådan linjärregression för socialdemokraterna över 80 dagar centrerad runt den 10 november 2012, mitt under värsta Juholtkrisen.
Itererad linjärregression går i korthet ut på att göra flera korta linjärregressioner och sedan dra en linje från mitten av varje regression. Bilden här bredvid visar just detta. I detta fall är det två månader mellan varje regression, den metod som används av för att framställa poll of polls gör istället en regression för varje dag.
För att förbättra sammanvägningen av opinionsstödet nyttjar modellen även det faktum att det totala stödet för samtliga partier, inklusive gruppen övriga partier, alltid måste summeras till 100 %. Detta betyder att om exempelvis Moderaterna visar ett minskat väljarstöd så måste något eller några andra partier visa ett ökat väljarstöd.
För den som är mer intresserad av den exakta matematiken bakom modellen så rekommenderar jag den här öppna versionen av Bergman och Holmquist artikel. Den publicerade versionen är också ett alternativ men kräver en prenumeration.
Det finns en viss skillnad mellan modellen som Bergman och Holmquist publicerat och den modell som implementerats för pollofpolls.se. Denna skillnad är i hur de enskilda opinionsmätningarna viktas jämtemot varandra. Bergman och Holmquist viktar enbart opinionsmätningarna med avseende på hur på mätdatum, där äldre mätningar ges en lägre vikt. Ingen viktning sker dock med avseende på exempelvis antalet tillfrågade, således ges en mätning av demoskop med 1250 tillfrågade samma vikt som en mätning av SCB med 6000 tillfrågade. För implementeringen av Bergman och Holmquist modell för pollofpolls.se viktas därför enskilda mätningar, förutom på tid även med hänsyn till antalet tillfrågade samt undersökningens längd.
Viktningen av antalet tillfrågade ökar med kvadratroten på antalet tillfrågade, en mätning behöver alltså fyra gånger så många tillfrågade för att få dubbelt så hög vikt. Motivet till detta är att standardavvikelsen för en mätning minskar approximativt med kvadratroten på antalet tillfrågade.
Steg ett
Det första modellen gör för att sammanväga undersökningar är att fastställa när en undersökningen kan anses vara gällande. Flertalet poll of polls utgår ifrån opinionsundersökningens publiceringsdatum. Men publiceringsdatumet har egentligen väldigt lite att göra med när undersökningen är giltig. Istället utgår modellen från mätningens mätperiod. Det vill säga den tid över vilken mätningen är gjort. Varje dag en mätning pågått hanteras av modellen som en punkt för regressionen.
Steg två
Andra steget är att ge varje mätning en vikt. Först och främst viktas mätningarna utifrån hur långt bort de är i tiden från mittpunkten för regressionen. Ju längre bort i tiden mätningen är desto lägre vikt ges den.
Mätningarna viktas också efter hur många som tillfrågats i varje undersökning. Viktningen över antalet undersökningar är inte linjär, det vill säga dubbelt så många tillfrågade ger inte dubbelt så hög vikt, istället ökar en undersöknings vikt med kvadratroten på antalet tillfrågade. Förklaringen till detta är att felmarginalen på en undersökning minskar approximativt med kvadratroten på antalet tillfrågade. Antalet tillfrågade för varje dag beräknas som antalet tillfrågade under hela mätperioden delat på antalet dagar som mätningen pågått.
Steg tre
Näst steget är att genomföra själva regressionerna. Som standard i denna modell görs varje enskild regression över en period på 41 dagar. Det vill säga 20 dagar bakåt och 20 dagar framåt från regressionsdagen. Ju kortare tid som regressionerna görs över desto snabbare reagerar modellen på förändringar i opinionen. Samtidigt, kortare tid desto mer kommer modellen att reagera på rent slumpvisa förändringar. Att använda ett 61 dagars spann är i detta fall en bra kompromiss.
Ett problem med att även använda ett span som sträcker sig både fram och bakåt i tiden, är att de senaste publicerade mätningarna av naturliga skäl inte ännu har några senare mätningar. För att inte få ett kortare span kompenseras detta med att använda några fler dagar bakåt. Så att det senaste mät datumet enbart har ett spann av 40 dagar bakåt i tiden.
Ett resultat av detta är att de senaste 20 dagarna av varje mätning inte är fasta, istället kan dessa komma att ändras efter varje publicerad mätning. En mätpunkt är alltså inte fast för än 20 dagar senare.
Steg fyra
För att hantera problemet med så kallade house effects, det vill säga att ett institut regelbundet uppskattar ett parti högre eller läger än den troliga väljarstödet, så genomför poll of polls en korrigering av varje mätning. Detta görs genom att jämföra varje mätning från varje institut med den sammanvägning som räknats ut ovan i steg ett till tre. Metoden som används för detta är åter en skapad av Jakob Bergman. [2]
När house effecten väl är uträknad korrigeras varje opinionsmätning mot den house effect som räknats ut och därefter återupprepas steg ett till tre.
Steg fem
I sista steget räknar modellen fram antalet mandat som varje parti skulle få om modellens senaste opinionsresultat skulle bli valresultat. Uppskattningen av mandaten bygger på samma metod som valmyndighetens valsimulator. Mandatfördelningen är i detta något av en approximation eftersom den riktiga mandatfördelningen inte bara beror på hur många väljare som röstat på ett parti, utan även på var dessa väljare valt att rösta.
[1] Bergman, J. and Holmquist, B. (2013), Poll of Polls: A Compositional Loess Model. Scandinavian Journal of Statistics. doi: 10.1111/sjos.12023
[2] Bergman, J. (2015), Are there house effects in Swedish polls? A compositional approach. Department of Statistics, Lund university