Empirisk varians
Den empiriske variansen , og prøvevariansen (foreldet: empirisk spredningsfelt ) eller bare mangel på varians ( Latin variantia = "mangfold" eller variare kalt = "(ver) endre, være annerledes"), en statistisk indikasjon på spredningen av verdier en prøve og i beskrivende statistikk en nøkkeltall for et utvalg. Det er et av målingene for spredning og beskriver gjennomsnittlig kvadratavvik for de individuelle målte verdiene fra det empiriske gjennomsnittet . Den representerer altså et slags gjennomsnittlig kvadratavvik.Den positive roten til den empiriske variansen er det empiriske standardavviket . Det empiriske standardavviket er det vanligste målet for spredning.
Begrepene "varians", "prøvevarians" og "empirisk varians" brukes ikke konsekvent i litteraturen. Generelt må det skilles mellom
- Variasjon (i betydningen sannsynlighetsteori) som et nøkkeltall for en sannsynlighetsfordeling eller fordelingen av en tilfeldig variabel
- Eksempelvarians (når det gjelder induktiv statistikk) som en estimeringsfunksjon for variansen (når det gjelder sannsynlighetsteori)
- den empiriske variansen som er diskutert her som en nøkkeltall i et bestemt utvalg, dvs. flere tall.
En presis avgrensning og sammenhenger finner du i avsnittet Relasjon av variansvilkårene .
definisjon
motivasjon
Variansen til en endelig populasjon i størrelse er et mål på spredningen av de enkelte verdiene rundt populasjonsgjennomsnittet og er definert som
- med befolkningens gjennomsnitt .
Siden det er ukjent i praktiske situasjoner og fortsatt må beregnes, brukes den empiriske variansen ofte. Dette er spesielt nødvendig når det i store populasjoner ikke er mulig å telle hvert enkelt fag i befolkningen.
definisjon
Gitt et utvalg av elementer . Det betegner
det empiriske gjennomsnittet av prøven. Dette empiriske gjennomsnittet er et estimat for befolkningens gjennomsnitt . Den empiriske variansen kan defineres på to måter. Enten er den empiriske variansen til prøven definert som summen av de kvadratiske avvikene delt på antall målte verdier:
- ,
eller det er definert som en litt modifisert form som summen av de kvadratiske avvikene delt på antall frihetsgrader
- .
Forklaring
Den empiriske avviket representerer altså en slags "gjennomsnittlig kvadratavvik". Det er en estimator for populasjonsavviket . Representasjonene følger direkte fra definisjonen
- henholdsvis .
Denne litt modifiserte formen blir ofte referert til som varianseksempel og brukes av programpakker som f.eks B. SPSS , R etc. foretrekkes. Hvis utvalget ikke viser noen variabilitet, vil jeg. H. , så er det en varians av . Gjennomsnittet kan forklares intuitivt av i stedet for av den modifiserte formen for den empiriske variansen som følger: På grunn av fokusegenskapen til det empiriske gjennomsnittet er den siste avviken allerede bestemt av den første . Følgelig er det bare avvik som varierer fritt, og man gjennomsnitt derfor ved å dele med antall frihetsgrader .
Hvis det bare er snakk om “den” empiriske avviket, må man være oppmerksom på hvilken konvensjon eller definisjon som gjelder i tilsvarende sammenheng. Verken navngivning av definisjonene eller den tilsvarende notasjonen er enhetlig i litteraturen, men begrepet empirisk varians brukes ofte om den umodifiserte formen og begrepet prøvevarians for den modifiserte formen . Det er også notasjonen , men den blir også referert til som eller . Noen forfattere refererer til det gjennomsnittlige kvadratavviket fra det empiriske gjennomsnittet og den teoretiske variansen eller induktive variansen i motsetning til empirisk varians.
er like upartisk og prøvevariansen (og som en forvrengt utvalgsvarians kalt) fordi en objektiv estimator for variansen er.
Empirisk varians for frekvensdata
Det empiriske standardavviket er også et mål på hvor langt utvalget i gjennomsnitt sprer seg rundt det empiriske gjennomsnittet. Vær den absolutte hyppigheten av forekomster og antall verdier for det sanne, det vil si . La videre være den relative frekvensen av , i. H. andelen verdier som gjelder. Den absolutte frekvensfordelingen og den relative frekvensfordelingen er ofte oppsummert i en frekvenstabell . Karakteristikkene sammen med frekvensene eller blir også referert til som frekvensdata . For frekvensdata med karakteristikkene og relative frekvensene beregnes den empiriske avviket som følger
- ,
med .
Beregningsregler
Atferd i transformasjoner
Avviket endres ikke når dataene forskyves med en konstant verdi c, så og slik er det
- også .
Hvis de skaleres av en faktor , gjelder følgende
- også .
Alternative fremstillinger
Som gjennomsnittlig kvadrat for avviket
Avviket i variansanalysen ofte som "medium" eller "gjennomsnittlig" avvik i kvadrat referert
- .
Gjennomsnittlige kvadrater for avvikene til de respektive variablene er oppsummert i en såkalt variansanalysetabell.
Representasjon ved hjelp av forskyvningsblokk
En annen fremstilling kan oppnås fra forskyvningssetningen , ifølge hvilken
gjelder. Multiplikasjon med gir deg
- ,
fra hva
følger.
Representasjon uten empiriske midler
En annen representasjon som klarer seg uten bruk av det empiriske gjennomsnittet er
eller.
- .
Hvis du legger det aritmetiske gjennomsnittet av de observerte verdiene i summen av dobbeltsummen
legger til og trekker fra (dvs. setter inn null), og gjelder deretter
- .
Dette tilsvarer
- .
Avledede vilkår
Empirisk standardavvik
Den empiriske standardavvik, også kjent som prøve varians eller prøvestandardavvik , er den positive kvadratroten av den empiriske variansen, dvs.
eller
- .
I motsetning til den empiriske variansen har det empiriske standardavviket de samme enhetene som det empiriske gjennomsnittet eller selve utvalget. Som med den empiriske variansen er ikke navngivning og betegnelse av det empiriske standardavviket ensartet. Det empiriske standardavviket skal skilles fra standardavviket når det gjelder sannsynlighetsteori . Dette er en indikator på en sannsynlighetsfordeling eller fordelingen av en tilfeldig variabel , mens det empiriske standardavviket er en indikator på et utvalg.
Empirisk variasjonskoeffisient
Den empiriske variasjonskoeffisienten er et dimensjonsløst mål for spredning og er definert som det empiriske standardavviket delt på det empiriske gjennomsnittet, dvs.
I motsetning til standardavviket er det en dimensjonsløs avvik og derfor ikke underlagt enheter. Fordelen er at den uttrykkes som en prosentandel av det empiriske gjennomsnittet .
eksempel
Prøven er gitt
- ,
slik det er . For de empiriske resultatene
- .
I tilfelle en stykkevis beregning, resultatet
- .
Den første definisjonen gir deg
mens den andre definisjonen
- ,
forsyninger. Standardavviket kan også beregnes ved hjelp av varianseksemplet ovenfor. Dette gjøres ved å bare trekke røtter. Hvis man bestemmer den ukorrigerte prøvevariansen, så (i henhold til første definisjon)
- .
Imidlertid, hvis det empiriske standardavviket bestemmes via den korrigerte prøvevariansen, så (i henhold til 2. definisjon)
- .
Opprinnelsen til de forskjellige definisjonene
Definisjonen av tilsvarer definisjonen av den empiriske variansen som rotens gjennomsnittlige kvadratavvik fra det empiriske gjennomsnittet. Dette er basert på ideen om å definere en grad av spredning rundt det empiriske gjennomsnittet. Vær det . En første tilnærming er å legge opp forskjellen mellom de målte verdiene og det empiriske gjennomsnittet. dette leder til
Dette resulterer imidlertid alltid i 0, fordi positive og negative summander avbryter hverandre ( tyngdepunktegenskap ), så det er ikke egnet for å kvantifisere variansen. For å oppnå en verdi for variansen større enn eller lik 0, kan man for eksempel beregne med mengden av forskjellene, dvs. summen av de absolutte avvikene
vurdere, eller kvadrat, dvs. summen av rutene
skjema. Dette har imidlertid den bieffekten at større avvik fra det empiriske gjennomsnittet vektes tyngre. Som et resultat har også individuelle avvikere sterkere innvirkning. For å gjøre dispersjonsgraden uavhengig av antall måleverdier i prøven, deles den med dette tallet. Resultatet av dette pragmatisk avledede målet for spredning er gjennomsnittlig kvadratavvik fra det empiriske gjennomsnittet eller variansen som er definert ovenfor .
Definisjonen av har sine røtter i estimeringsteori . Det vil
brukt som en upartisk estimator for den ukjente variansen av en sannsynlighetsfordeling . Dette gjelder på grunn av følgende setning: Hvis det er uavhengige og identisk fordelte tilfeldige variabler med og , gjelder det . Derfor er det en estimator for den ukjente populasjonsvariansen .
Hvis man beveger seg nå fra de tilfeldige variabler til realiseringer , den estimerte verdien oppnås fra den abstrakte estimeringsfunksjonen . Forholdet mellom til tilsvarer dermed forholdet mellom en funksjon og dens funksjonsverdi på ett punkt .
Dermed kan det sees på som et praktisk motivert mål for spredning i beskrivende statistikk, mens et estimat for en ukjent avvik er i induktiv statistikk. Disse forskjellige opprinnelsene rettferdiggjør den ovennevnte måten å snakke på som empirisk varians og som induktiv varians eller teoretisk varians. Det skal bemerkes at det også kan tolkes som et estimat av en estimeringsfunksjon. Når man bruker momentmetoden , oppnår man som en estimeringsfunksjon for variansen
- .
Din realisering samsvarer . Imidlertid brukes den vanligvis ikke fordi den ikke oppfyller vanlige kvalitetskriterier . Denne estimatoren er ikke rettferdig for forventningene på grunn av
- .
Forholdet mellom variasjonsbegrepene
Som allerede nevnt i innledningen, er det forskjellige variansvilkår, hvorav noen har samme navn. Forholdet til hverandre blir tydelig når man vurderer deres rolle i modellering av induktiv statistikk:
- Den varians (i den forstand av sannsynlighetsteori) er et mål for dispersjon av en abstrakt sannsynlighetsfordeling eller fordeling av en stokastisk variabel i stochastics.
- Den prøve varians (i den forstand av induktive statistikk) er et estimert funksjon for å beregne variansen (i den forstand av sannsynlighets det teoretiske) av en ukjent sannsynlighetsfordeling. Det er derfor ikke et nøkkeltall, men en estimeringsmetode for å gjette variansen til en ukjent sannsynlighetsfordeling så godt som mulig.
- Den empiriske variansen som er diskutert her, er, i tillegg til dens rolle i beskrivende statistikk, et konkret estimat av den underliggende variansen i henhold til estimeringsmetoden, som er gitt av prøvevariansen (i betydningen induktiv statistikk).
Nøkkelen er forskjellen mellom estimeringsmetoden (prøvevarians i betydningen induktiv statistikk) og dens konkrete estimat (empirisk varians). Det tilsvarer forskjellen mellom en funksjon og dens funksjonsverdi.
Årlig varians
I finansmarkedsteorien beregnes ofte avvik eller volatilitet i avkastningen . Disse avvikene, hvis de er basert på daglige data, må årliggjøres; H. kan ekstrapoleres til ett år. Dette gjøres ved hjelp av en årsfaktor (det er rundt handelsdager per år ). Volatiliteten kan således estimeres som roten til den årlige variansen
- .
Individuelle bevis
- ↑ Norbert Henze: Stokastikk for nybegynnere . En introduksjon til den fascinerende verden av sjanser. 10. utgave. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-658-03076-6 , s. 31 , doi : 10.1007 / 978-3-658-03077-3 .
- ↑ a b Ehrhard Behrends: Elementary Stochastics . En læringsbok - co-utviklet av studenter. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0 , s. 274 , doi : 10.1007 / 978-3-8348-2331-1 .
- ↑ Thomas Cleff: Beskrivende statistikk og Utforskende dataanalyse . En datastyrt introduksjon med Excel, SPSS og STATA. 3., revidert og utvidet utgave. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5 , s. 56 , doi : 10.1007 / 978-3-8349-4748-2 .
- ^ Ludwig Fahrmeir, Rita-kunstner, Iris Pigeot, Gerhard Tutz: Statistikk. Veien til dataanalyse. 8., revidert. og tilleggsutgave. Springer Spectrum, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3 , s.65
- ↑ a b Helge Toutenburg, Christian Heumann: Beskrivende statistikk . 6. utgave. Springer-Verlag, Berlin / Heidelberg 2008, ISBN 978-3-540-77787-8 , pp. 75 , doi : 10.1007 / 978-3-540-77788-5 .
- ↑ Thomas Cleff: Beskrivende statistikk og Utforskende dataanalyse . En datastyrt introduksjon med Excel, SPSS og STATA. 3., revidert og utvidet utgave. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5 , s. 255 , doi : 10.1007 / 978-3-8349-4748-2 .
- ↑ Kapittel 10: Uventede estimatorer (PDF-fil), www.alt.mathematik.uni-mainz.de, åpnet 31. desember 2018
- ^ Ludwig Fahrmeir , Rita-kunstner, Iris Pigeot , Gerhard Tutz : Statistikk. Veien til dataanalyse. 8., revidert. og tilleggsutgave. Springer Spectrum, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3 , s.65 .
-
↑ Det er og dermed
- som kravet følger av.
- Follows Dette følger som ovenfor ved direkte omberegning.
- ↑ Werner Timischl : Anvendt statistikk. En introduksjon for biologer og medisinske fagpersoner. 2013, 3. utgave, s. 109.
- ↑ Lothar Sachs : Statistiske evalueringsmetoder , s. 400.
- ^ Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Beskrivende statistikk . Grunnleggende - metoder - eksempler - oppgaver. 6. utgave. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0 , pp. 122 , doi : 10.1007 / 978-3-658-13640-6 .
- ↑ a b Norbert Henze: Stochastics for nybegynnere . En introduksjon til den fascinerende verden av sjanser. 10. utgave. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-658-03076-6 , s. 31-32 , doi : 10.1007 / 978-3-658-03077-3 .
- ↑ a b Ehrhard Behrends: Elementary Stochastics . En læringsbok - co-utviklet av studenter. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0 , s. 274-275 , doi : 10.1007 / 978-3-8348-2331-1 .
- ↑ Werner Timischl: Anvendt statistikk. En introduksjon for biologer og medisinske fagpersoner. 2013, 3. utgave, s. 109.
- ↑ Norbert Henze: Stokastikk for nybegynnere . En introduksjon til den fascinerende verden av sjanser. 10. utgave. Springer Spectrum, Wiesbaden 2013, ISBN 978-3-658-03076-6 , s. 33 , doi : 10.1007 / 978-3-658-03077-3 .
- ^ Otfried Beyer, Horst Hackel: Sannsynlighetsberegning og matematisk statistikk. 1976, s. 123.