Empirisk varians

Den empiriske variansen , og prøvevariansen (foreldet: empirisk spredningsfelt ) eller bare mangel på varians ( Latin variantia = "mangfold" eller variare kalt = "(ver) endre, være annerledes"), en statistisk indikasjon på spredningen av verdier en prøve og i beskrivende statistikk en nøkkeltall for et utvalg. Det er et av målingene for spredning og beskriver gjennomsnittlig kvadratavvik for de individuelle målte verdiene fra det empiriske gjennomsnittet . Den representerer altså et slags gjennomsnittlig kvadratavvik.Den positive roten til den empiriske variansen er det empiriske standardavviket . Det empiriske standardavviket er det vanligste målet for spredning.

Begrepene "varians", "prøvevarians" og "empirisk varians" brukes ikke konsekvent i litteraturen. Generelt må det skilles mellom

En presis avgrensning og sammenhenger finner du i avsnittet Relasjon av variansvilkårene .

definisjon

motivasjon

Variansen til en endelig populasjon i størrelse er et mål på spredningen av de enkelte verdiene rundt populasjonsgjennomsnittet og er definert som

med befolkningens gjennomsnitt .

Siden det er ukjent i praktiske situasjoner og fortsatt må beregnes, brukes den empiriske variansen ofte. Dette er spesielt nødvendig når det i store populasjoner ikke er mulig å telle hvert enkelt fag i befolkningen.

definisjon

Gitt et utvalg av elementer . Det betegner

det empiriske gjennomsnittet av prøven. Dette empiriske gjennomsnittet er et estimat for befolkningens gjennomsnitt . Den empiriske variansen kan defineres på to måter. Enten er den empiriske variansen til prøven definert som summen av de kvadratiske avvikene delt på antall målte verdier:

,

eller det er definert som en litt modifisert form som summen av de kvadratiske avvikene delt på antall frihetsgrader

.

Forklaring

Den empiriske avviket representerer altså en slags "gjennomsnittlig kvadratavvik". Det er en estimator for populasjonsavviket . Representasjonene følger direkte fra definisjonen

henholdsvis .

Denne litt modifiserte formen blir ofte referert til som varianseksempel og brukes av programpakker som f.eks B. SPSS , R etc. foretrekkes. Hvis utvalget ikke viser noen variabilitet, vil jeg. H. , så er det en varians av . Gjennomsnittet kan forklares intuitivt av i stedet for av den modifiserte formen for den empiriske variansen som følger: På grunn av fokusegenskapen til det empiriske gjennomsnittet er den siste avviken allerede bestemt av den første . Følgelig er det bare avvik som varierer fritt, og man gjennomsnitt derfor ved å dele med antall frihetsgrader .

Hvis det bare er snakk om “den” empiriske avviket, må man være oppmerksom på hvilken konvensjon eller definisjon som gjelder i tilsvarende sammenheng. Verken navngivning av definisjonene eller den tilsvarende notasjonen er enhetlig i litteraturen, men begrepet empirisk varians brukes ofte om den umodifiserte formen og begrepet prøvevarians for den modifiserte formen . Det er også notasjonen , men den blir også referert til som eller . Noen forfattere refererer til det gjennomsnittlige kvadratavviket fra det empiriske gjennomsnittet og den teoretiske variansen eller induktive variansen i motsetning til empirisk varians.

er like upartisk og prøvevariansen (og som en forvrengt utvalgsvarians kalt) fordi en objektiv estimator for variansen er.

Empirisk varians for frekvensdata

Det empiriske standardavviket er også et mål på hvor langt utvalget i gjennomsnitt sprer seg rundt det empiriske gjennomsnittet. Vær den absolutte hyppigheten av forekomster og antall verdier for det sanne, det vil si . La videre være den relative frekvensen av , i. H. andelen verdier som gjelder. Den absolutte frekvensfordelingen og den relative frekvensfordelingen er ofte oppsummert i en frekvenstabell . Karakteristikkene sammen med frekvensene eller blir også referert til som frekvensdata . For frekvensdata med karakteristikkene og relative frekvensene beregnes den empiriske avviket som følger

,

med .

Beregningsregler

Atferd i transformasjoner

Avviket endres ikke når dataene forskyves med en konstant verdi c, så og slik er det

også .

Hvis de skaleres av en faktor , gjelder følgende

også .

Alternative fremstillinger

Som gjennomsnittlig kvadrat for avviket

Avviket i variansanalysen ofte som "medium" eller "gjennomsnittlig" avvik i kvadrat referert

.

Gjennomsnittlige kvadrater for avvikene til de respektive variablene er oppsummert i en såkalt variansanalysetabell.

Representasjon ved hjelp av forskyvningsblokk

En annen fremstilling kan oppnås fra forskyvningssetningen , ifølge hvilken

gjelder. Multiplikasjon med gir deg

,

fra hva

følger.

Representasjon uten empiriske midler

En annen representasjon som klarer seg uten bruk av det empiriske gjennomsnittet er

eller.

.

Hvis du legger det aritmetiske gjennomsnittet av de observerte verdiene i summen av dobbeltsummen

legger til og trekker fra (dvs. setter inn null), og gjelder deretter

.

Dette tilsvarer

.

Avledede vilkår

Empirisk standardavvik

Den empiriske standardavvik, også kjent som prøve varians eller prøvestandardavvik , er den positive kvadratroten av den empiriske variansen, dvs.

eller

.

I motsetning til den empiriske variansen har det empiriske standardavviket de samme enhetene som det empiriske gjennomsnittet eller selve utvalget. Som med den empiriske variansen er ikke navngivning og betegnelse av det empiriske standardavviket ensartet. Det empiriske standardavviket skal skilles fra standardavviket når det gjelder sannsynlighetsteori . Dette er en indikator på en sannsynlighetsfordeling eller fordelingen av en tilfeldig variabel , mens det empiriske standardavviket er en indikator på et utvalg.

Empirisk variasjonskoeffisient

Den empiriske variasjonskoeffisienten er et dimensjonsløst mål for spredning og er definert som det empiriske standardavviket delt på det empiriske gjennomsnittet, dvs.

I motsetning til standardavviket er det en dimensjonsløs avvik og derfor ikke underlagt enheter. Fordelen er at den uttrykkes som en prosentandel av det empiriske gjennomsnittet .

eksempel

Prøven er gitt

,

slik det er . For de empiriske resultatene

.

I tilfelle en stykkevis beregning, resultatet

.

Den første definisjonen gir deg

mens den andre definisjonen

,

forsyninger. Standardavviket kan også beregnes ved hjelp av varianseksemplet ovenfor. Dette gjøres ved å bare trekke røtter. Hvis man bestemmer den ukorrigerte prøvevariansen, så (i henhold til første definisjon)

.

Imidlertid, hvis det empiriske standardavviket bestemmes via den korrigerte prøvevariansen, så (i henhold til 2. definisjon)

.

Opprinnelsen til de forskjellige definisjonene

Definisjonen av tilsvarer definisjonen av den empiriske variansen som rotens gjennomsnittlige kvadratavvik fra det empiriske gjennomsnittet. Dette er basert på ideen om å definere en grad av spredning rundt det empiriske gjennomsnittet. Vær det . En første tilnærming er å legge opp forskjellen mellom de målte verdiene og det empiriske gjennomsnittet. dette leder til

Dette resulterer imidlertid alltid i 0, fordi positive og negative summander avbryter hverandre ( tyngdepunktegenskap ), så det er ikke egnet for å kvantifisere variansen. For å oppnå en verdi for variansen større enn eller lik 0, kan man for eksempel beregne med mengden av forskjellene, dvs. summen av de absolutte avvikene

vurdere, eller kvadrat, dvs. summen av rutene

skjema. Dette har imidlertid den bieffekten at større avvik fra det empiriske gjennomsnittet vektes tyngre. Som et resultat har også individuelle avvikere sterkere innvirkning. For å gjøre dispersjonsgraden uavhengig av antall måleverdier i prøven, deles den med dette tallet. Resultatet av dette pragmatisk avledede målet for spredning er gjennomsnittlig kvadratavvik fra det empiriske gjennomsnittet eller variansen som er definert ovenfor .

Definisjonen av har sine røtter i estimeringsteori . Det vil

brukt som en upartisk estimator for den ukjente variansen av en sannsynlighetsfordeling . Dette gjelder på grunn av følgende setning: Hvis det er uavhengige og identisk fordelte tilfeldige variabler med og , gjelder det . Derfor er det en estimator for den ukjente populasjonsvariansen .

Hvis man beveger seg nå fra de tilfeldige variabler til realiseringer , den estimerte verdien oppnås fra den abstrakte estimeringsfunksjonen . Forholdet mellom til tilsvarer dermed forholdet mellom en funksjon og dens funksjonsverdi på ett punkt .

Dermed kan det sees på som et praktisk motivert mål for spredning i beskrivende statistikk, mens et estimat for en ukjent avvik er i induktiv statistikk. Disse forskjellige opprinnelsene rettferdiggjør den ovennevnte måten å snakke på som empirisk varians og som induktiv varians eller teoretisk varians. Det skal bemerkes at det også kan tolkes som et estimat av en estimeringsfunksjon. Når man bruker momentmetoden , oppnår man som en estimeringsfunksjon for variansen

.

Din realisering samsvarer . Imidlertid brukes den vanligvis ikke fordi den ikke oppfyller vanlige kvalitetskriterier . Denne estimatoren er ikke rettferdig for forventningene på grunn av

.

Forholdet mellom variasjonsbegrepene

Som allerede nevnt i innledningen, er det forskjellige variansvilkår, hvorav noen har samme navn. Forholdet til hverandre blir tydelig når man vurderer deres rolle i modellering av induktiv statistikk:

Nøkkelen er forskjellen mellom estimeringsmetoden (prøvevarians i betydningen induktiv statistikk) og dens konkrete estimat (empirisk varians). Det tilsvarer forskjellen mellom en funksjon og dens funksjonsverdi.

Årlig varians

I finansmarkedsteorien beregnes ofte avvik eller volatilitet i avkastningen . Disse avvikene, hvis de er basert på daglige data, må årliggjøres; H. kan ekstrapoleres til ett år. Dette gjøres ved hjelp av en årsfaktor (det er rundt handelsdager per år ). Volatiliteten kan således estimeres som roten til den årlige variansen

.

Individuelle bevis

  1. Norbert Henze: Stokastikk for nybegynnere . En introduksjon til den fascinerende verden av sjanser. 10. utgave. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-658-03076-6 , s. 31 , doi : 10.1007 / 978-3-658-03077-3 .
  2. a b Ehrhard Behrends: Elementary Stochastics . En læringsbok - co-utviklet av studenter. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0 , s. 274 , doi : 10.1007 / 978-3-8348-2331-1 .
  3. Thomas Cleff: Beskrivende statistikk og Utforskende dataanalyse . En datastyrt introduksjon med Excel, SPSS og STATA. 3., revidert og utvidet utgave. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5 , s. 56 , doi : 10.1007 / 978-3-8349-4748-2 .
  4. ^ Ludwig Fahrmeir, Rita-kunstner, Iris Pigeot, Gerhard Tutz: Statistikk. Veien til dataanalyse. 8., revidert. og tilleggsutgave. Springer Spectrum, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3 , s.65
  5. a b Helge Toutenburg, Christian Heumann: Beskrivende statistikk . 6. utgave. Springer-Verlag, Berlin / Heidelberg 2008, ISBN 978-3-540-77787-8 , pp. 75 , doi : 10.1007 / 978-3-540-77788-5 .
  6. Thomas Cleff: Beskrivende statistikk og Utforskende dataanalyse . En datastyrt introduksjon med Excel, SPSS og STATA. 3., revidert og utvidet utgave. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5 , s. 255 , doi : 10.1007 / 978-3-8349-4748-2 .
  7. Kapittel 10: Uventede estimatorer (PDF-fil), www.alt.mathematik.uni-mainz.de, åpnet 31. desember 2018
  8. ^ Ludwig Fahrmeir , Rita-kunstner, Iris Pigeot , Gerhard Tutz : Statistikk. Veien til dataanalyse. 8., revidert. og tilleggsutgave. Springer Spectrum, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3 , s.65 .
  9. Det er og dermed
    som kravet følger av.
  10. Follows Dette følger som ovenfor ved direkte omberegning.
  11. Werner Timischl : Anvendt statistikk. En introduksjon for biologer og medisinske fagpersoner. 2013, 3. utgave, s. 109.
  12. Lothar Sachs : Statistiske evalueringsmetoder , s. 400.
  13. ^ Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Beskrivende statistikk . Grunnleggende - metoder - eksempler - oppgaver. 6. utgave. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0 , pp. 122 , doi : 10.1007 / 978-3-658-13640-6 .
  14. a b Norbert Henze: Stochastics for nybegynnere . En introduksjon til den fascinerende verden av sjanser. 10. utgave. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-658-03076-6 , s. 31-32 , doi : 10.1007 / 978-3-658-03077-3 .
  15. a b Ehrhard Behrends: Elementary Stochastics . En læringsbok - co-utviklet av studenter. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0 , s. 274-275 , doi : 10.1007 / 978-3-8348-2331-1 .
  16. Werner Timischl: Anvendt statistikk. En introduksjon for biologer og medisinske fagpersoner. 2013, 3. utgave, s. 109.
  17. Norbert Henze: Stokastikk for nybegynnere . En introduksjon til den fascinerende verden av sjanser. 10. utgave. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-658-03076-6 , s. 33 , doi : 10.1007 / 978-3-658-03077-3 .
  18. ^ Otfried Beyer, Horst Hackel: Sannsynlighetsberegning og matematisk statistikk. 1976, s. 123.