Nutch

Nutch

Lucene Nutch-logo
Grunnleggende data

utvikler Apache Software Foundation
Gjeldende  versjon 2.4
( 11. oktober 2019 )
operativsystem Plattformuavhengig
programmeringsspråk Java
kategori Crawler , parser og søkemotor .
Tillatelse Apache-lisens
Tysktalende Nei
nutch.apache.org

Nutch er et Java- rammeverk for Internett- søkemotorer . Programvaren er åpen kildekode og er utviklet innen Apache Software Foundation under Apache-lisensen . Nutch er blant annet basert. på Lucene ( stemming , indeksering osv.), Solr (webfunksjonaliteter) og Hadoop (skalering).

Nutch kan søke i store mengder data. Den kan tilpasses selskapsspesifikke behov takket være plugin-arkitekturen - f.eks. Til andre dokumentformater.

Det tyske føderale kontoret for forbrukerbeskyttelse og mattrygghet betjente den nutchbaserte "forbrukersøkemotoren" Clewwa . Wikia- søkemotoren brukte også Nutch-teknologi.

Nutch blir for tiden vedlikeholdt i to versjoner

  • 1.x: Er en ferdig crawler , som muliggjør en veldig fin konfigurasjon og er avhengig av datastrukturene til Apache Hadoop , bør den være ideell for batchbehandling
  • 2.x: tilbys som et alternativ til versjon 1.x, hovedforskjellen er i minneområdet, dette er blitt abstrahert og bruker Apache Gora til å koble objekter. Dette økte fleksibiliteten til hva (f.eks. Status, innhold, lenker, behandlet tekst ...) som kan lagres og hvordan lagringen f.eks. B. foregår i NoSQL-løsninger.

weblenker

Individuelle bevis

  1. nutch.apache.org . (åpnet 11. mars 2020).
  2. Nutch Open Source-prosjektet på Open Hub: Språk-siden . I: Open Hub . (åpnet 18. oktober 2018).
  3. Hjem - NUTCH - Apache Software Foundation. Hentet 11. mars 2020 .