Nettarkivering

Nettarkivering refererer til innsamling og permanent arkivering av elektroniske publikasjoner med det formål å kunne tilby publikum og vitenskap et innblikk i fortiden i fremtiden. Resultatet av prosessen er et webarkiv .

Det største internasjonale anlegget for nettarkivering er Internet Archive i San Francisco (USA), som ser seg selv som arkivet til hele World Wide Web. Statlige arkiver og biblioteker i mange land gjør en innsats for å sikre nettverksposter i sitt område.

Fra 1987, den tyske arkiv lover definert arkivering av digitale dokumenter som en obligatorisk oppgave for statsarkivene, men gjennomføringen av dette mandatet er bare begynnelsen. I 2006 ble DNBG (lov om det tyske nasjonalbiblioteket) vedtatt, som utvider mandatet til det tyske nasjonalbiblioteket til å omfatte arkivering av nettsteder. Forbundsstatene planlegger sitt juridiske depositum for å endre -Gesetze i denne forstand, ellers har endringen allerede funnet sted.

Arkivering av mål

Målet med nettarkivering er å systematisk kartlegge en definert del av nettpresensene som er tilgjengelige på Internett. For dette formål må en overordnet innsamlingspolicy, en utvelgelsesprosedyre og hyppigheten av arkivering avklares på forhånd.

Et arkivert nettsted med alle multimediefunksjoner ( HTML-kode , stilark , JavaScript , bilder og video) bør bevares på lang sikt. Metadata som herkomst , overføringstid, MIME-type og omfang av data brukes til senere beskrivelse, bruk og vedlikehold . Metadataene sikrer ektheten og integriteten til det digitale arkivmaterialet.

Etter overtakelsen må tekniske og juridiske forholdsregler treffes for å garantere konstant offentlig tilgjengelighet og for å forhindre påfølgende endringer av arkivmaterialet.

Terminologi

Opprinnelig ressurs
En original kilde som for øyeblikket er eller bør være tilgjengelig på Internett, og som det kreves tilgang til en tidligere tilstand for.
Minne
Et minne om en original kilde er en ressurs som innkapsler en kildes opprinnelige tilstand på et definert tidspunkt.
TimeGate
En TimeGate er en ressurs som, basert på en gitt dato og klokkeslett, finner minnet som best tilsvarer denne tidsfristen.
TimeMap
En TimeMap er en ressurs som viser en liste over alle minner som noen gang er opprettet for den opprinnelige kilden.

Utvelgelsesprosess

Uspesifikk
I denne utvelgelsesprosessen blir et helt domene gradvis skrevet til et arkiv. På grunn av det store minnekravet fungerer prosedyren bare for mindre domener (netarkivet.dk).
plukkliste
En liste over institusjoner fastsettes på forhånd. Stabiliteten til nettadressene som er tilknyttet institusjonene, må kontrolleres regelmessig.
Bruk av tilgangsstatistikk
I fremtiden kan det tenkes “intelligent” høsting , som basert på tilgangstallene arkiverer de delene av nettet (eller et utvalg) som har spesielt høy tilgangsrate.

Adopsjonsmetoder

Fjernhøsting

Den vanligste arkiveringsmetoden er å bruke en web-crawler . En web-crawler henter innholdet på et nettsted som en menneskelig bruker og skriver resultatene til et arkivobjekt. Mer presist betyr dette et rekursivt søk på nettsteder basert på lenkene som finnes på dem, fra et bestemt startområde, som enten kan være et nettsted eller en liste over nettsteder som det skal søkes etter. På grunn av kvantitative begrensninger, f.eks. På grunn av varighet eller lagringsplass, er forskjellige begrensninger (avslutningsbetingelser) med hensyn til dybde, domene og hvilke typer filer som skal arkiveres mulig.

I større prosjekter er evaluering av nettsteder for rangering av URL av spesiell betydning. I løpet av en gjennomsøkingsprosess kan det akkumuleres et stort antall nettadresser, som deretter enten behandles i en liste ved hjelp av FIFO- metoden eller som en prioritetskø . I sistnevnte tilfelle kan nettstedene forestilles i en haugstruktur. Hvert nettsted danner selv sin egen dyng, og hver lenke til et annet nettsted som finnes i den, danner en underhaug som representerer et element i dyngen til forrige nettsted. Dette har også fordelen at i tilfelle en overfylt URL-liste erstattes de med lavest prioritet først med nye oppføringer.

Imidlertid kan den opprinnelige strukturen på serveren sjelden reproduseres nøyaktig i arkivet. For å kunne utelukke tekniske problemer som kan oppstå i forkant av speiling, anbefales det å foreta en analyse av nettstedet på forhånd. Selv om dette i de fleste tilfeller dobler datatrafikken, forkorter det arbeidstiden betydelig i tilfelle en feil.

Eksempler på web-crawlere er:

  • Heritrix
  • HTTrack
  • Frakoblet Explorer

Arkivering av det skjulte nettet

Det skjulte nettet eller det dype nettet refererer til databaser som ofte representerer det faktiske innholdet på et nettsted og kun sendes ut på forespørsel fra en bruker. Som et resultat endres nettet kontinuerlig, og det ser ut som om det er uendelig stort. Det kreves et grensesnitt som hovedsakelig er basert på XML for å overta disse databasene . Verktøyene DeepArc ( Bibliothèque nationale de France ) og Xinq ( Australia National Library ) er utviklet for slik tilgang .

Transaksjonell arkivering

Denne prosedyren brukes til å arkivere resultatene av en nettstedsbrukprosess. Det er viktig for fasiliteter som må bevise at de er brukt av juridiske årsaker. Forutsetningen er å installere et ekstra program på webserveren.

Nettarkivering i Tyskland

På føderalt nivå har det tyske nasjonalbiblioteket (DNB) hatt det lovpålagte mandatet for nettarkivering siden 2006. Siden 2012 har nettsteder blitt arkivert tematisk og for visse hendelser, dvs. selektivt og ikke i sin helhet. DNB samarbeider med en ekstern tjenesteleverandør. I tillegg er alle DE-domener blitt gjennomsøkt en gang i 2014 . Nettarkivet er hovedsakelig tilgjengelig på lesesalene.

I tillegg til DNBs nettarkivering, er det initiativer i forskjellige føderale stater:

Det er også andre nettarkivinitiativer i Tyskland, for eksempel fra festtilknyttede stiftelser, fra SWR , fra Deutsche Post eller fra det bioteknologiske / farmasøytiske selskapet AbbVie .

Se også

Implementeringer

weblenker

Individuelle bevis

  1. Steffen Fritz: Omskriving av historie. (PDF) med WARC-filer. Januar 2016, arkivert fra originalen 9. november 2017 ; åpnet 9. november 2017 .
  2. a b c d RfC 7089 HTTP Framework for tidsbasert tilgang til ressurstilstander - Memento
  3. a b c d Memento Guide: Introduction. Hentet 5. oktober 2018 .
  4. Steffen Fritz: Praksisrapport: Prosedyre for evaluering av arkiverbarheten til nettobjekter I: ABI Technik nr. 2, 2015, s. 117–120. doi: 10.1515 / abitech-2015-0015
  5. Tobias Steinke: Arkivere det tyske internett? Mellom en selektiv tilnærming og .de-domenegjennomgang . Tysk nasjonalbibliotek, 26. juni 2014 ( dnb.de [PDF]).
  6. ^ Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Om status for nettarkivering i Baden-Württemberg . I: Bibliotekstjeneste . teip 51 , nr. 6 , 1. juni 2017, ISSN  2194-9646 , s. 481-489 , doi : 10.1515 / bd-2017-0051 ( degruyter.com [åpnet 24. mars 2020]).
  7. Tobias Beinert: Nettarkivering ved Bayerische Staatsbibliothek . I: Bibliotekstjeneste . teip 51 , nr. 6 , 1. juni 2017, ISSN  2194-9646 , s. 490-499 , doi : 10.1515 / bd-2017-0052 ( degruyter.com [åpnet 24. mars 2020]).
  8. Arbeidsflytarkivering i langvarig arkivering ved Bayerische Staatsbibliothek | BABS. Hentet 24. mars 2020 .
  9. Edoweb: Rheinland-Pfalz arkivserver for elektroniske dokumenter og nettsteder. Hentet 24. mars 2020 .