Nutch
Nutch
| |
---|---|
Grunnleggende data
| |
utvikler | Apache Software Foundation |
Gjeldende versjon |
2.4 ( 11. oktober 2019 ) |
operativsystem | Plattformuavhengig |
programmeringsspråk | Java |
kategori | Crawler , parser og søkemotor . |
Tillatelse | Apache-lisens |
Tysktalende | Nei |
nutch.apache.org |
Nutch er et Java- rammeverk for Internett- søkemotorer . Programvaren er åpen kildekode og er utviklet innen Apache Software Foundation under Apache-lisensen . Nutch er blant annet basert. på Lucene ( stemming , indeksering osv.), Solr (webfunksjonaliteter) og Hadoop (skalering).
Nutch kan søke i store mengder data. Den kan tilpasses selskapsspesifikke behov takket være plugin-arkitekturen - f.eks. Til andre dokumentformater.
Det tyske føderale kontoret for forbrukerbeskyttelse og mattrygghet betjente den nutchbaserte "forbrukersøkemotoren" Clewwa . Wikia- søkemotoren brukte også Nutch-teknologi.
Nutch blir for tiden vedlikeholdt i to versjoner
- 1.x: Er en ferdig crawler , som muliggjør en veldig fin konfigurasjon og er avhengig av datastrukturene til Apache Hadoop , bør den være ideell for batchbehandling
- 2.x: tilbys som et alternativ til versjon 1.x, hovedforskjellen er i minneområdet, dette er blitt abstrahert og bruker Apache Gora til å koble objekter. Dette økte fleksibiliteten til hva (f.eks. Status, innhold, lenker, behandlet tekst ...) som kan lagres og hvordan lagringen f.eks. B. foregår i NoSQL-løsninger.
weblenker
- Offisiell nettside (engelsk)
- Wiki (engelsk)
- Søknadseksempler
Individuelle bevis
- ↑ nutch.apache.org . (åpnet 11. mars 2020).
- ↑ Nutch Open Source-prosjektet på Open Hub: Språk-siden . I: Open Hub . (åpnet 18. oktober 2018).
- ↑ Hjem - NUTCH - Apache Software Foundation. Hentet 11. mars 2020 .