Gini-koeffisient

Gini-koeffisient (i%) av inntektsfordeling (Verdensbanken, 2018)
  • ≤ 30
  • 30-34,9
  • 35-39,9
  • 40-44.9
  • 45-49,9
  • 50-54,9
  • 55-59,9
  • 60-64,9
  • ingen data
  • Lorenz-kurve (rød) av den reelle fordelingen for beregning av Gini-koeffisienten og den ideelle ensartede fordelingen (svart)

    Den Gini-koeffisienten eller Gini-indeksen er et statistisk mål som ble utviklet av den italienske statistikeren Corrado Gini for å representere ulikheter . Den skildrer inntektsandelene til de forskjellige befolkningsgruppene og er således ment å være et mål på ulikhet i et samfunn. Ulikhetskoeffisienter for fordeling kan beregnes for enhver fordeling. For eksempel brukes Gini-koeffisienten i økonomi, men også i geografi, som en målestokk for fordeling av inntekt og formue i enkeltland og dermed som en hjelp til å klassifisere land og deres tilhørende utviklingsnivå.

    Gini-koeffisienten er avledet fra Lorenz-kurven og har en verdi mellom 0 (med en jevn fordeling) og 1 (når bare en person mottar hele inntekten, dvs. med maksimal ulik fordeling). Med en jevn fordeling menes ikke jevn fordeling i sannsynlig forstand, men en fordeling med variansen 0. I den vanligste brukssaken, fordelingen av inntekt i et land, betyr det at inntekten til hver voksen er den samme, og ikke at forskjellige inntekter (klasser) er like hyppige.

    applikasjoner

    Økonomi

    Gini-koeffisienten brukes spesielt i velferdsøkonomi for å beskrive for eksempel graden av likhet eller ulikhet i fordelingen av formue eller inntekt. Koeffisienten er et alternativ til S80 / S20 inntektskvintilforholdet, som brukes i EU-statistikk.

    Informasjonsteori

    I informasjonsteorien brukes den som et mål på "renhet" eller "urenhet" av informasjon.

    Maskinlæring

    Når det genereres et beslutningstreet , kan maskinindlæring Gini-indeksen, eller mer presist endringen i Gini-indeksen, også kalt "Gini Gain", brukes som et kriterium for å velge avgjørelsesregelen der barnet noder er så "rene" som mulig. Tanken er at med en "ren" avgjørelse er treet klart, og derfor er endring av Gini-indeksen egnet som et mål.

    Bank

    I bankvirksomhet brukes Gini-koeffisienten som et mål på hvor godt et rangeringssystem kan skille godt fra dårlige kunder ( selektivitet ).

    Normalisering

    Skalaen for mulige verdier varierer fra 0 til 1, fra 0 til 100, fra 0 til 10000, avhengig av applikasjonen. Avhengig av applikasjonen, står den minste eller største verdien for jevn fordeling. Verdien av absolutt ulikhet kan vanligvis bare nås asymptotisk. Dette kan unngås ved å renormalisere.

    definisjon

    Generell sak

    For en stigende sortert, diskret fordelt mengde (eksempel: husstandsinntekt) er Lorenz-kurven gitt av

    For posisjonen i inntektsfordelingen indikerer derfor Lorenz-kurven den kumulative andelen av totalinntekten. betegner det aritmetiske gjennomsnittet. Med en jevn fordeling, ville området mellom 45 graders linje og Lorenz-kurven tilsvare verdien 0 og øke for mer ulik fordeling. Fra denne betraktningen og målet om å oppnå et mål normalisert til intervallet , resulterer Gini-ulikhetskoeffisienten som ved geometrisk nedbrytning av området oppnår man:

    For en reell fordeling kan man beregne Gini-koeffisienten direkte som følger (ved hjelp av ):

    En alternativ formulering som ikke krever at dataene skal sorteres, er basert på den såkalte relative gjennomsnittlige absolutte forskjellen . Gjennomsnittlig absolutt forskjell betegner gjennomsnittsforskjellen for alle observasjonspar i en populasjon. Dette er relatert til gjennomsnittsinntekten. Slik at Gini-koeffisienten antar ønsket verdiområde, divideres differansen med 2:

    Beregning basert på kvantiler

    En viss del av et sett A er tilordnet en del av et annet sett B. Dette kan f.eks. B. Penger (A) på mennesker (B) eller strømforbruk (A) i byer (B). Det er avgjørende at A representerer et homogent, lett delbart sett. For eksempel ville det ikke være hensiktsmessig å eie et motorkjøretøy fordi motorvogner verken er homogene - individuelle typer skiller seg betydelig ut - og de kan heller ikke deles i små enheter.

    Gini-koeffisienten er området normalisert til den jevne fordelingen mellom Lorenz-kurvene for en jevn fordeling og den observerte fordelingen.

    med GUK som Gini-ulikhetskoeffisient, arealet under Lorenz-kurven med en jevn fordeling, og området under Lorenz-kurven for den observerte fordelingen.

    eksempel

    A distribueres til B, for eksempel fordeles formuen (A) til befolkningen (B).

    50 Prozent von B (b1) wird  2,5 Prozent von A zugeordnet (v1).
    40 Prozent von B (b2) wird 47,5 Prozent von A zugeordnet (v2).
     9 Prozent von B (b3) wird 27,0 Prozent von A zugeordnet (v3).
     1 Prozent von B (b4) wird 23,0 Prozent von A zugeordnet (v4).
    

    I et første trinn vises dataene "normalisert":

    b1 = 0,50     v1 = 0,025          v1/b1 =  0,05
    b2 = 0,40     v2 = 0,475          v2/b2 =  1,188
    b3 = 0,09     v3 = 0,270          v3/b3 =  3
    b4 = 0,01     v4 = 0,230          v4/b4 = 23
    

    I det andre trinnet beregnes Gini-koeffisienten.

    Gini unequal distribution coefficient (GUK) oppnås ved å evaluere en Lorenz-kurve .

    For å faktisk produsere en Lorenz-kurve, kan det hende at verdiene ovenfor må omorganiseres. Alle verdipar må først forhåndssorteres på en slik måte at:

    I eksemplet ovenfor er sorteringen riktig, slik at det ikke er behov for å sortere på nytt.

    Lorenz-kurven du leter etter oppstår når du angir (x i , y i ) par som punkter i et kartesisk koordinatsystem og deretter kobler nabopunkter med en rett linje. De a'T resultat fra a'T i henhold til den følgende beregning regel:

    I det andre trinnet bestemmes følgende data fra dataene fra det første trinnet ved summering (med (0, 0) lagt til som en fast verdi i begynnelsen):

    x0 = 0,00     y0 = 0
    x1 = 0,50     y1 = 0,025
    x2 = 0,90     y2 = 0,5    (da 0,5 + 0,4 = 0,9 und 0,025 + 0,475 = 0,5 ist)
    x3 = 0,99     y3 = 0,77
    x4 = 1,00     y4 = 1
    

    Med total lik fordeling av rikdom er Lorenz-kurven en rett linje fra punkt (0 | 0) til punkt (1 | 1).

    For å bestemme Gini-koeffisienten bestemmes først to størrelser, som er grafisk viste områder. Når området under den jevne fordelingslinjen er, la oss kalle denne størrelsen, for eksempel A. Det andre området er området under den faktiske distribusjonskurven , la oss kalle denne størrelsen, for eksempel B. Med disse to størrelsene beregnes Gini-ulikhetskoeffisienten som følger:

    B er det mørkegrå området; A består av de lyse og mørkegrå områdene.

    Beregning av y-verdiene til Lorenz-kurven for den faktiske fordelingen:

    y0 = 0,000
    y1 = v1 = 0,025
    y2 = v1 + v2 = 0,500
    y3 = v1 + v2 + v3 = 0,770
    y4 = v1 + v2 + v3 + v4 = 1,000
    

    Beregning av arealet B under Lorenz-kurven for den faktiske fordelingen (se nedenfor):

    (y1 - 0,5 · v1) · b1 = 0,00625
    (y2 - 0,5 · v2) · b2 = 0,105
    (y3 - 0,5 · v3) · b3 = 0,05715
    (y4 - 0,5 · v4) · b4 = 0,00885
    
    B = 0,17725
    

    Siden en standard representasjon brukes, forbinder kurven til den totale enhetlige fordelingen hjørnepunktene (0 | 0) og (1 | 1) med hverandre. Trekanten med areal A er derfor 0,5. Derfor gjelder følgende for Gini-ulikhetskoeffisienten:

    Sett grafisk er Gini-koeffisienten forholdet mellom området mellom den jevne fordelingslinjen og Lorenz-kurven (AB) til området under den jevne fordelingslinjen (A).

    Forklaring til beregningen

    Hele Gini-området er et rektangel med sidene ganger . Gini-området med en jevn fordeling er halvparten av det totale Gini-området. For å beregne arealet under kurven blir alle individuelle områder lagt til. Ta for eksempel . Rektangelet med høyden og bredden (dvs. fra til ) tas fullstendig i betraktning . Bare halvparten av rektangelet som går fra høyde til høyde skal tas, da den andre halvparten over Gini-linjen ikke tilhører Gini-området. Slik er det også

    eller

    Alternativ visning av arealberegningen: Det enkelte areal er forskjellen mellom det rektangulære arealet, som bestemmes av punktene (x 1 , y 0 = 0), (x 2 , y 0 = 0), (x 2 , y 2 ), (x 1 , y 1 ) er begrenset (innhold :) , minus arealet til den rettvinklede trekanten avgrenset av punktene (x 1 , y 1 ), (x 2 , y 1 ), (x 1 , y 2 ) (innhold :), med samme resultat.

    Datareduksjon

    Gini-koeffisienten er et statistisk mål som brukes til å beregne fordelingen av ulikhet. Slike tiltak reduserer i utgangspunktet et mer eller mindre komplekst datasett til en enkel nøkkeltall. Denne beregningen kan føre til feiltolkning hvis den ikke brukes riktig.

    Figur 1: Ulike Lorenz-kurver - samme Gini-koeffisient

    Når det gjelder Gini-koeffisienten, er det for eksempel minst en annen Lorenz-kurve med nøyaktig samme Gini-verdi for nesten alle Lorenz-kurver . Dette oppnås ved å speile den opprinnelige Lorenz-kurven på linjen som går gjennom punktene (0 | 1) og (1 | 0). Hvis mengdene 10% / 90% skal fordeles over 50% / 50%, resulterer dette i den samme Lorenz-kurven som fordelingen av mengdene fra 50% / 50% til 90% / 10% av funksjonsbærerne. Disse to Lorenz-kurvene er vist i figur 1. De eneste unntakene er Lorenz-kurver, som er symmetriske i forhold til denne linjen fra starten.

    En vanlig Gini-koeffisient på 0,4 resulterer for de to forskjellige kurvene. Faktisk er det til og med et uendelig antall mulige Lorenz-kurver for en Gini-koeffisient (bortsett fra absolutt lik eller absolutt ulik fordeling). På dette tidspunktet er Gini-koeffisienten den samme som ethvert annet mål avledet fra å samle en stor mengde data. Ujevne fordelingsindikatorer som Gini-koeffisienten oppstår fra aggregering av data med sikte på å redusere kompleksiteten. Det tilhørende tapet av informasjon er derfor ikke en utilsiktet bivirkning. Når det gjelder å redusere kompleksiteten, er det generelt sant at de bare blir en ulempe hvis man glemmer opprettelsen og kartfunksjonen.

    Feilkilde i sammenligninger

    Uttalelser der ulikhetskoeffisienter sammenlignes med hverandre krever en særlig kritisk gjennomgang av beregningen av de enkelte koeffisientene. For en riktig sammenligning er det nødvendig at disse koeffisientene er beregnet jevnt i alle tilfeller. For eksempel fører den forskjellige granulariteten til inngangsdataene til forskjellige resultater når man beregner den ujevne fordelingen. En Gini-koeffisient beregnet med noen få kvantiler viser vanligvis en noe mindre ulik fordeling enn en koeffisient beregnet med flere kvantiler, fordi i sistnevnte tilfelle, takket være den høyere måleoppløsningen, kan den ujevne fordelingen tas i betraktning at innenfor områdene (dvs. mellom kvantilene) i den første saken forblir uevaluert på grunn av den grovere måleoppløsningen.

    Enkelt sagt: en høyere oppløsning av dataene (nesten alltid) gir en lavere jevn fordeling.

    Se også

    weblenker

    Individuelle bevis

    1. Eurostats nettsted ( Minne til originalen 4. desember 2016 i Internettarkivet ) Info: Arkivkoblingen ble satt inn automatisk og er ennå ikke sjekket. Kontroller originalen og arkivlenken i henhold til instruksjonene, og fjern deretter denne meldingen. @1@ 2Mal: Webachiv / IABot / ec.europa.eu
    2. Breiman, L. og Friedman, JH og Olshen, RA og Stone, CJ: Klassifisering og regresjonstrær . Chapman and Hall, New York 1984.
    3. Retningslinjer for kredittrisiko: Ratingmodeller og validering, Austrian National Bank and Financial Market Authority, 2004. Arkivlink ( Memento fra 4. desember 2011 i Internet Archive )
    4. ^ PJ Lambert (2001): Fordeling og omfordeling av inntekt. Manchester University Press, s. 31ff.
    5. ^ Ochmann, R. og A. Peichl (2006): Måling av fordelingseffekter av skattereformer. Finansvitenskapelige diskusjonsinnlegg nr. 06-9 , finansvitenskapelig forskningsinstitutt ved Universitetet i Köln.
    6. Kalkulator online: ujevn fordeling
    7. Sammenligning: www.umversorgung.de/rechner/?quantiles=50,10|50.90 (blå kurve) og www.umversorgung.de/rechner/?quantiles=90.50|10.50 (rød kurve)