Apache Nutch

Screenshot Λογισμικό:
Apache Nutch
Στοιχεία Λογισμικού:
Εκδοχή: 2.3
Ανεβάστε ημερομηνία: 1 Mar 15
Προγραμματιστής: Apache Software Foundation
Άδεια: Δωρεάν
Δημοτικότητα: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch χτίστηκε στην κορυφή του Apache Lucene , μια ισχυρή μηχανή αναζήτησης της Java.
Nutch προγραμματιστές τροποποίησε το αρχικό πηγαίο κώδικα του Lucene, μετατροπής των δεδομένων-αγνωστικιστής Lucene βάση κώδικα σε ένα έργο αφιερωμένο για την αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό ειδικά.
Αυτή η τεχνολογία μπορεί να χρησιμοποιηθεί για την αναζήτηση για τις δικές σας σελίδες Web ως ένα ενσωματωμένο στο διακομιστή αναζήτησης, ή ανιχνεύσουμε το Web ψάχνει για στοιχεία για να αναλύσει και να ξύσει στη βάση δεδομένων σας.
Nutch μπορεί να τρέξει σε ένα μοναδικό μηχάνημα, αλλά λειτουργεί καλύτερα σε Hadoop συστάδες.
Διάφορες συνδέσεις είναι διαθέσιμες για την επέκταση του φάσματος χρήσης του

Τι είναι καινούργιο σε αυτή την έκδοση:.

  • Βεβαιωθείτε διπλές ετικέτες δεν υπάρχουν στο σύνολο ετικέτα microformat-reltag.
  • Η καλύτερη ξαναπέσει τιμή για το πεδίο ημερομηνίας.
  • Απαλλαγείτε από την επίφοβη.
  • Αναβάθμιση σε Hadoop 1.2.0.
  • Αναβάθμιση σε Τίκα 1.3.

Τι είναι καινούργιο στην έκδοση 2.0:.

  • Μετονομάστηκε HTMLParseFilter σε ParseFilter
  • Κατάργηση υπόλοιπα ρομπότ / IP κλείδωμα κώδικα στο βιβλιο-http.
  • Port υλοτομίας slf4j.
  • Εξωτερικά αναλυτή υποστηρίζει κωδικοποίηση χαρακτηριστικό.
  • ρυθμίσεις Ivy δεν περιλαμβάνουν Γκόρα.
  • μπεκ ψεκασμού θα πρέπει να προσθέσει τα μεταδεδομένα πριν από την κλήση injectedScore.
  • Port Nutch σημείο αναφοράς για Nutchbase.
  • Προσθήκη μεταγλώττιση-html πίσω.
  • MoreIndexingFilter λείπει μορφή ημερομηνίας.
  • Χρονικό όριο για Parser.
  • Επανάληψη διάστημα σε ημερομηνία ανιχνεύσουμε έχει οριστεί σε 0.
  • Δημιουργία αποτελέσματος καταγραφής για SOLR indexer και Dedup.
  • Βελτιωμένη NutchConfiguration.
  • SolrDeleteDuplicates χρειάζεται να κλωνοποιήσουν τα αντικείμενα SolrRecord.
  • Native LIBS Hadoop δεν είναι διαθέσιμη μέσω του maven.
  • Χωρίστε το build και το runtime.

Τι είναι καινούργιο στην έκδοση 1.5:

  • Αυτή η έκδοση περιλαμβάνει αρκετές βελτιώσεις συμπεριλαμβανομένης της αναβάθμισης των πολλών σημαντικών συστατικών, συμπεριλαμβανομένων Τίκα 1.1 και 1.0.0 Hadoop, βελτιώσεις στο LinkRank και στοιχεία γράφου του Web, καθώς και μια σειρά από νέα πρόσθετα καλύπτουν μαύρη λίστα, το φιλτράρισμα και την ανάλυση για να αναφέρουμε μερικές.

Τι είναι καινούργιο στην έκδοση 1.4:.

  • Προστέθηκε Solr 4x (κορμός) παράδειγμα σχήματος
  • Προστέθηκε '/ runtime »για svn αγνοήσει.
  • Εφαρμογή / XHTML + xml πρέπει να είναι ενεργοποιημένη για plugin.xml της μεταγλώττιση-html? επιτρέπουν πολλαπλές τύποι mime για plugin.xml.
  • Σταθερή μεταγλώττιση-Τίκα και να αναλύσει-HTML για να χρησιμοποιήσετε σχετική απόφαση URL ανά RFC-3986.
  • Αναβάθμιση στην Τίκα 0.10. ΣΗΜΕΙΩΣΗ:. Νέα RTF parser Τίκα μπορεί να αγνοήσει περισσότερο κείμενο σε δυσπλασία έγγραφα από ό, τι στο παρελθόν - βλέπε ΤΙΚΑ-748 για λεπτομέρειες
  • Προστέθηκε Sonar στόχους για build.xml Αντ.
  • Αναβαθμισμένη SolrJ στην έκδοση 3.4.0.
  • στόχος Αντ PMD είναι σπασμένο.
  • Αναβαθμισμένες Solr σχήμα στην έκδοση 1.4.

Τι είναι καινούργιο στην έκδοση 1.3:

  • Αυτή η έκδοση περιλαμβάνει αρκετές βελτιώσεις (βελτιωμένη RSS parsing υποστήριξη, αυστηρότερο ενσωμάτωση με τον Apache Τίκα, εξωτερική υποστήριξη ανάλυσης, βελτιωμένη αναγνώριση γλώσσας και μία τάξη μεγέθους μικρότερη πηγή tarball απελευθέρωση! -. μόνο για 2MB)

Τι είναι καινούργιο στην έκδοση 1.2:.

  • Κάντε δείκτη περισσότερα plug-in ρύθμισης
  • Διαμορφώσιμο πρωτόκολλο αρχείο σέρνεται στο γονικό κατάλογο.
  • Χρονικό όριο για Parser.
  • ιστοσελίδα είναι ακόμα Lucene επώνυμα.
  • Επανάληψη διάστημα σε ημερομηνία ανιχνεύσουμε έχει οριστεί σε 0.

Τι είναι καινούργιο στην έκδοση 1.0:.

  • Να επιτρέπεται parsers για να επιστρέψει πολλαπλά αντικείμενα μαϊντανός
  • Αφαιρέθηκε περιττές κοινά-υλοτομία βάζο από οντολογία plugin.
  • Bug στο SegmentReader προκαλεί άπειρο βρόχο.
  • φίλτρο βαθμολόγησης πρέπει να διανέμουν βαθμολογία σε όλες τις outlinks ταυτόχρονα.
  • Μειώστε τον αριθμό των προειδοποιήσεων σε κάναβο πυρήνα.

Παρόμοια λογισμικά

jui_filter_rules
jui_filter_rules

12 May 15

Spidr
Spidr

12 May 15

PourOver
PourOver

13 May 15

jQuery Looking For
jQuery Looking For

12 Apr 15

Άλλο λογισμικό του προγραμματιστή Apache Software Foundation

Apache JAMES jSPF
Apache JAMES jSPF

13 May 15

Apache Slider
Apache Slider

21 Jul 15

Apache Ivy
Apache Ivy

1 Mar 15

Apache CXF
Apache CXF

9 Feb 16

Σχόλια για Apache Nutch

Τα σχόλια δεν βρέθηκε
προσθήκη σχολίου
Ενεργοποιήστε τις εικόνες!
Αναζήτηση ανά κατηγορία