Analyse av hendelsestid

Racine carrée bleue.svg
Denne varen har vært på kvalitetssikringssiden av portalen som er lagt inn. Dette gjøres for å bringe kvaliteten på matematikkartiklene til et akseptabelt nivå .

Hjelp med å løse manglene i denne artikkelen, og vær med i diskusjonen !  ( Skriv inn artikkel )

Den overlevelsesanalyse (også varighet analyse , historiske dataanalyse , event dataanalyse , engelsk overlevelsesanalyse , analyse av feiltider og forløpsanalyse ) er en verktøykasse av statistiske metoder , og hvor tiden til en viss hendelse ( " tid til hendelsen er") sammenlignet mellom grupper for å estimere effekten av prognostiske faktorer, medisinsk behandling eller skadelig påvirkning. Hendelsen kan være nært forestående død, men andre endepunkter som helbredelse, sykdom eller forekomst av en komplikasjon er også mulig. Eksempler på en slik analyse er Kaplan-Meier-estimatoren , Cox-regresjonen eller modellen for akselerert nedetid . Faren er en nøkkelparameter .

Betegnelser for denne prosessen

Prosedyren har fått forskjellige navn av forskjellige forfattere. Fordi det er forskjellige formål med søknaden, brukes forskjellige uttrykk fremdeles i dag, som er ekvivalente og ofte brukt synonymt . Den grunnleggende prosedyren er alltid den samme.

  • I medisinsk statistikk for det meste overlevelsesanalyse, overlevelse tidsanalyse .
  • I empirisk samfunnsforskning er metoden kjent som lengden på oppholdsanalyse (også: prosessdataanalyse, hendelsesanalyse), der den omhandler endringer i en sosial tilstand (f.eks. Ekteskapslengde). Det gir derfor mer presise beskrivelser av historiske data enn f.eks. B. en tidsserie eller paneldataanalyse . Ved å bruke hendelsesorienterte datastrukturer, gir den informasjon om nøyaktig tid til statusendring.
  • I engineering kalles prosessen også pålitelighetsanalyse ( English Reliability Theory ).
  • I engelskspråklige programpakker kalles det Survival Analysis , Analysis of Failure Times eller Event History Analysis .

Bruksområder

Denne prosedyren kan alltid brukes når det er dødelighet , dvs. H. en påfølgende fjerning av måleobjekter fra det statistiske opptaket. Det trenger ikke være død, men mekanisk systemsvikt eller pensjonering. Selv om positive hendelser inntreffer, vil jeg. H. Metoden kan brukes til nye hendelser som det tidligere ikke var noe målegrunnlag for. (Fødsel av det første barnet, forekomst av de første tekniske problemene eller garantisaker)

Eksempler på en tidsanalyse av hendelser: Hvor stor andel av en befolkning vil fortsatt være i live etter en gitt tid? I hvilken hastighet vil de overlevende dø da? Hvilke egenskaper eller påvirkninger øker eller reduserer sannsynligheten for å overleve?

Først er det nødvendig å definere hendelsestid (levetid). For biologiske systemer ender livet med døden. Det er vanskeligere med mekanisk pålitelighet. Feil er ofte ikke klart definert og kan være delvis. Ofte er det bare en gradvis svikt som ikke lett kan tidsbestemmes. Lignende vanskeligheter oppstår med andre biologiske hendelser. For eksempel er det vanskelig å planlegge et hjerteinfarkt eller organsvikt.

Vanligvis blir bare hendelser undersøkt som kan forekomme maksimalt en gang per fag. En utvidelse av gjentatte hendelser er mulig.

Grunnleggende størrelser og konsepter

Overlevelsesfunksjon

Den sentrale funksjonen er overlevelsesfunksjonen ( engelsk overlevelsesfunksjon, overlevelsesfunksjon ) og er betegnet med . Når det gjelder tekniske systemer, brukes betegnelsen pålitelighetsfunksjon (denne funksjonen engelsk pålitelighetsfunksjon ) og referert til:

angir bestemte tidspunkter, representerer levetiden (tiden til en enhets død eller svikt) og angir sannsynligheten. Overlevelsesfunksjonen indikerer sannsynligheten som et individ i befolkningen vil ha en levetid lenger eller større enn .

Siden i begynnelsen av en analyse ( ) alle individene av interesse fremdeles er i live, er sannsynligheten for å "overleve" dette "nullpunktet" den samme tiden . Hvis umiddelbar død eller svikt er mulig, kan denne startverdien også være mindre enn . Overlevelsesfunksjonen må være monotont synkende: hvis . Hvis denne funksjonen er kjent, er distribusjonsfunksjonen og tetthetsfunksjonen også klart definert.

Vanligvis er det antatt at med økende tid sannsynligheten for å overleve hver gang går til null, det vil si: . Hvis denne grensen er større enn null, er evig liv mulig. Med andre ord er og er i motsatt retning. Jo mer tid går, desto mer sannsynlig vil en bestemt hendelse inntreffe. Overlevelsesfunksjonen begynner som en funksjon på med verdien , og strever mot verdien over tid (selv om den vanligvis ikke blir nådd, siden observasjonen er avsluttet på et bestemt tidspunkt). Grafisk, kan man forestille seg en trappefunksjon som fører fra og utover i en nedadgående retning , dvs. monotont fallende, hvorved de enkelte trinn kan være forskjellig bratt eller bred. Trappens bratthet er resultatet av antall døende individer, og deres bredde fra antall ganger . Jo bredere og flatere slike trapper er, jo større er sannsynligheten for at individene overlever.

Funksjon for distribusjon av hendelsestid og funksjonstetthet

Beslektede variabler kan utledes fra overlevelsesfunksjonen. Funksjonen for tidsfordeling av begivenhet, i tekniske termer som sannsynlighet for mislighold ( engelsk sannsynlighet for feil ) betegnet med F forkortet, er den komplementære funksjonen til overlevelsesfunksjonen:

og gjelder derfor også . Den første avledningen av hendelsestetthetsfunksjonen eller feiltettheten ( engelsk feiltetthetsfunksjon ) blandes med angitt:

.

Hendelsestetthetsfunksjonen er frekvensen av den observerte hendelsen per tidsenhet.

Farefunksjon og kumulativ farefunksjon

Den feilrate (spesielt i overlevelsestiden analysen også kalt fare funksjon og merket med ) er definert som den hastighet ved hvilken en hendelse forekommer ved tidspunkt , forutsatt at det ennå ikke har skjedd ved tidspunktet t :

.

Engelsk dødelighet er et synonym for farefunksjonen som brukes spesielt i demografi .

Feilfrekvensen må alltid være positiv, og integralen over må være uendelig. Farefunksjonen kan øke eller redusere; den trenger ikke være ensformig eller kontinuerlig.

Alternativt kan farefunksjonen også erstattes av den kumulative farefunksjonen :

,

slik er det også

kalles kumulativ farefunksjon

gjelder.

Den beskriver "akkumulering" av fare over tid.

Det følger av dette at den med økende tid øker på ubestemt tid hvis den nærmer seg null. Det følger også at den ikke må falle for skarpt, for ellers konvergerer den kumulative farefunksjonen til en endelig verdi. For eksempel er det ingen farefunksjon av noen tidsfordeling fordi hendelsen konvergerer.

Mengder avledet fra overlevelsesfunksjonen

Den gjenværende levetid på et tidspunkt t 0 er den tiden som gjenstår til døden eller fiasko, altså . Fremtidig levealder er den forventede verdien av gjenværende levetid. Hendelses tetthetsfunksjonen for tidspunktet forutsatt at overlevelse er jevn

.

Så det er forventet levealder

eller
.

For dette er redusert til forventet levealder ved fødselen.

I pålitelighetsanalyser er levealder ( gjennomsnittlig tid til svikt ) og gjennomsnittlig gjenværende levetid nevnt.

Alderen hvor andelen overlevende når en gitt verdi q kan bestemmes ved hjelp av ligningen S ( t ) = q . t er kvantilen vi leter etter. Vanligvis er man interessert i mengder som livets median q = 1/2 eller andre kvantiler som q = 0,90 eller q = 0,99.

kontekst

Tabellen nedenfor viser det matematiske forholdet mellom de forskjellige parametrene:

  Feilsannsynlighet
F (t)
Overlevelsessannsynlighet
S (t)
Feil tetthet
f (t)
Feilprosent
h (t)
F (t)  
S (t)  
f (t)  
h (t)  

Eksempler på overlevelsesfunksjoner

For hendelsesmodeller velger man først en grunnleggende overlevelsesfunksjon. Det er relativt enkelt å erstatte en distribusjonsfunksjon med en annen for å studere effektene. Ingenting endres i grunnleggende teorien.

Når du velger den spesifikke distribusjonen, spiller forkunnskaper om den spesifikke prosessen en viktig rolle. Det er omtrent analogt med valget av koblingsfunksjon i generaliserte lineære modeller . Noen vanlige funksjoner er oppført nedenfor.

Sannsynlighetsfordeling
Eksponensiell fordeling
Weibull distribusjon
Logg normalfordeling

Funksjonen er feilfunksjonen .

Estimere parametrene

Hendelsestidsmodeller kan sees på som normale regresjonsmodeller der resultatvariabelen er tid. Beregningen av sannsynlighetsfunksjonen er komplisert fordi ikke all informasjon er tilgjengelig til enhver tid.

Hvis fødsel og død er kjent, er livsløpet i dette tilfellet klart. Hvis du derimot bare vet at fødselen fant sted før et bestemt tidspunkt, kalles dette datasettet venstre sensurert. På samme måte kunne det bare være kjent at døden skjedde etter en bestemt dato. Dette er da et høysensurert datasett. På denne måten kan en CV også sensureres til høyre og venstre (intervallsensurert). Hvis en person som ikke har nådd en viss alder ikke blir observert i det hele tatt, blir datasettet avkortet. Når det gjelder et venstersensurert datasett, derimot, vet vi i det minste at individet eksisterte.

Det er noen standard tilfeller for sensurerte og avkortede poster. Et høysensurert datasett er vanlig. Hvis vi ser på en gruppe levende fag, vet vi at de lever i dag. Men vi vet ikke datoen for deres død i fremtiden. Koblinger sensurert data er også vanlig. Vi kunne vite hva som helst emne at de lever i dag, men vi vet ikke nøyaktig bursdagen deres. Avkortede data forekommer i forsinkede studier. For eksempel kan pensjonister bli observert fra fylte 70 år. Ikke engang eksistensen til menneskene som døde før er kjent.

Sannsynlighetsfunksjonen for en hendelsestidsmodell med sensurert data kan defineres som følger. Per definisjon er sannsynlighetsfunksjonen den vanlige sannsynligheten for dataene gitt gitte modellparametere. Det er vanlig å anta at dataene er uavhengige av parametrene. Da er sannsynlighetsfunksjonen produktet av sannsynlighetene for hver hendelsestid. Vi deler dataene i fire kategorier: usensurert, venstre sensurert, høyre sensurert og intervallsensurert data. Vi skiller dem i formlene med "unc.", "Lz", "rz" og "iz":

For en usensurert begivenhetstid med dødsalderen bruker vi

.

For venstersensurerte data vet vi at døden før en angitt tid

.

For et rett sensurert individ vet vi at døden oppstår etter tid , slik er det også

Og for intervallsensurerte hendelser vet vi at døden oppstår mellom og

Se også

litteratur

  • Hans-Peter Blossfeld, Götz Rohwer, Katrin Golsch: Analyse av hendelseshistorie med Stata. Lawrence Erlbaum Associates, Mahwah, NJ 2007.
  • Regina Elandt-Johnson, Norman Johnson. Overlevelsesmodeller og dataanalyse. John Wiley & Sons, New York 1980/1999.
  • Wolfgang Ludwig-Mayerhofer: Statistisk modellering av historiske data i analysen av sosiale problemer. I: Sosiale problemer. Nr. 5/6, 1994.
  • Mario Cleves et al: En introduksjon til overlevelsesanalyse ved bruk av Stata. 3. Utgave. Stata Press, 2010.
  • Jerald F. Lawless: Statistiske modeller og metoder for livstidsdata. 2. utgave. John Wiley and Sons, Hoboken 2003.
  • Melinda Mills: Introducing Survival and Event History Analysis. Sage Publications, 2011.
  • Terry Therneau: En pakke for overlevelsesanalyse i S. Feb 1999. (online)
  • Arno Meyna, Bernhard Pauli: Pålitelighetsteknologi. Kvantitative vurderingsprosedyrer . 2. utgave. Hanser, 2010, ISBN 978-3-446-41966-7 .

weblenker

  • Lengde på oppholdsanalyse - oppføring i ILMES (Internett-leksikon over metoder for empirisk samfunnsforskning)
  • A. Ziegler, S. Lange, R. Bender: Overlevelsestidsanalyse: egenskaper og Kaplan-Meier-metoden - Artikkel nr. 15 i statistikkserien i DMW. I: DMW - German Medical Weekly. 127, S. T 14, doi: 10.1055 / s-2002-32819 .

Individuelle bevis

  1. ^ Christian FG Schendera: Regresjonsanalyse med SPSS. , ISBN 978-3-486-71062-5 , s. 233 (tilgjengelig fra De Gruyter Online).
  2. ^ Christian FG Schendera: Regresjonsanalyse med SPSS. , ISBN 978-3-486-71062-5 , s. 233 (tilgjengelig fra De Gruyter Online).
  3. ^ Mario Cleves, William Gould, Roberto G. Gutierrez, Yulia V. Marchenko: En introduksjon til overlevelsesanalyse ved bruk av Stata. 3. utgave. Stata Press, 2010, ISBN 978-1-59718-074-0 .