Indeksering

Som indeksering , (mulig anglizismus også merking ), og indeksering (Østerrike, Bavaria-ordlyd) eller Verstichwortung kalles informasjonsinnhenting som tildeler beskrivere til et dokument for utvikling av fakta inneholdt der. Det kan skilles mellom kontrollert indeksering (med en synonymordbok eller emnekatalog eller notasjoner av en klassifisering ) og gratis indeksering eller gratis nøkkelord (med ikke-spesifiserte beskrivelser). Når samarbeidende indeksering (også sosial merking eller samarbeidstagging) ved hjelp av sosial programvare snakker man om merking i stedet for indeksering og om koder i stedet for deskriptorer.

Metoder

Ulike indekseringstyper og metoder kan skilles ut i henhold til forskjellige aspekter:

Manuell indeksering

Den manuell indeksering , intellektuell indeksering eller indeksering er en metode for å indeksere dokumenter i et dokument representant for Tagger (Engl. "Temaer") er tildelt av en indekser. Manuell indeksering utføres av eksperter ved bruk av terminologilister og lignende sett med regler og kontrollert ordforråd; det tillater en språkanalyse av individuelle formuleringer og en synonymoppgave, men har ulempen at det er tidkrevende, sakte og kostbart, kvaliteten avhenger av de konsekvente arbeidsmetodene til personalet og det forhåndsdefinerte deskriptor-vokabularet er statisk. I tillegg må brukeren kjenne indekseringsordforrådet for å søke etter dokumenter.

Automatisk indeksering

En vanlig metode for automatisk indeksering er fulltekstindeksering , der alle ord i en tekst er inkludert i indeksen, med unntak av stoppord . Denne typen indeksering brukes ofte i søkemotorer av såkalte web-crawlere . Muligens blir ord redusert til en vanlig ordstamme ved hjelp av stemming (dt. Reduksjon ).

Med statistiske indekseringsprosedyrer gjøres et valg ved å bestemme ordfrekvensen og dermed er bare ord inkludert i indeksen som forekommer i teksten med en viss frekvens. En enkel metode for termvekting er den omvendte dokumentfrekvensen. Denne prosedyren bestemmer hyppigheten av et begrep i et dokument. Denne verdien er relatert til hyppigheten av dokumentene som begrepet opptrer i. Dette gjør det enkelt å lese av verdien eller vektingen av begrepet som deskriptor . Vektingen av et begrep er høyere, jo færre dokumenter med dette begrepet er det i arkivet, og jo oftere forekommer begrepet i dokumentet som skal indekseres. Betydningen kan leses fra hyppigheten av begrepet. For eksempel brukes "begrep" ofte i dette dokumentet fordi ordet er viktig for emnet. Bare: "Begrep" er for bredt et begrep i seg selv. Dette viser at frekvensen alene ikke kan fortelle om det er en god eller en dårlig beskrivelse. Bare i forbindelse med ovenstående Vektingsmetoder kan brukes til å lage viktige beskrivelser.

Ved hjelp av beregningslingvistikk er det også mulig med mer intelligente automatiske prosesser. Hvis terminologisystemet til den respektive institusjonen ( synonymordbok , klassifisering, etc.) blir implementert, er forskjellene til den intellektuelle indekseringen i noen tilfeller ikke lenger signifikante. I motsetning til indeksering av mennesker øker indekseringskonsistensen . Dette gjør det også mulig, etter en revisjon av terminologisystemet eller andre forbedringer av prosessen, å bearbeide hele dokumentsamlingen igjen med en håndterbar innsats.

Spesielt når bibliotekets katalog kalles automatisk indeksering - selv innenfor multi-unit lagt strenger av en syntaktisk indeksering, som ble tildelt av kvalifisert personell i en manuell indeksering ( nøkkelord katalogen ) - Verstichwortung , hvorfra søkeord katalogen er opprettet. Automatisk utvinning av nøkkelord fra fulltekst - for eksempel for å lage en indeks - kalles også dette.

Datastyrt indeksering

Med datamaskinstøttet eller halvautomatisk indeksering (også indeksering) foreslås deskriptorer automatisk og velges manuelt. Indekseringen gjøres av datamaskiner med forberedelse eller oppfølging av mennesker eller i samspill med mennesker.

Nøkkelord av bilder

Iconclass- klassifiseringen brukes i mange museer for å indeksere innholdet i bilder . Den schlagwortnormdatei blir også stadig mer brukt i museumssektoren. Mange bildebyråer og bildearkiver bruker IPTC-IIM-standarden og reglene den inneholder for kategorier og nøkkelord. Imidlertid spiller interne søkeordlister også en viktig rolle. I tillegg er det forskjellige metoder som bilder kan forskes på ved hjelp av et likhetssøk og relevans tilbakemelding .

Se også

Wiktionary: nøkkelord  - forklaringer på betydninger, ordets opprinnelse, synonymer, oversettelser

litteratur

  • Holger Nohr: Grunnleggende om automatisk indeksering . En lærebok. 3. Utgave. Logos-Verlag, Berlin 2005, ISBN 3-8325-0121-5 .
  • Martin Kästner: Sammenligning av utvalgte metoder for nøkkelord og validering av metodene gjennom en testprosedyre . Avhandling. Techn. Univ., Ilmenau 2006.

kilder