Apache Tika

Screenshot Λογισμικό:
Apache Tika
Στοιχεία Λογισμικού:
Εκδοχή: 1.9 επικαιροποιημένο
Ανεβάστε ημερομηνία: 20 Jul 15
Προγραμματιστής: Apache Software Foundation
Άδεια: Δωρεάν
Δημοτικότητα: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Τίκα αναπτύχθηκε ως μια εργαλειοθήκη χαμηλού επιπέδου για την αναζήτηση περιεχομένου μέσα σε άλλα αρχεία.
Τίκα δεν κάνει πολλά από μόνη της είναι μια απλή βιβλιοθήκη, αλλά μπορεί να ενσωματωθεί σε πιο ισχυρά εργαλεία, όπως οι μηχανές αναζήτησης, τα ψηφιακά συστήματα διαχείρισης περιουσιακών στοιχείων ή CMSs να παρέχει ένα πλήρως λειτουργικό σύστημα αναζήτησης στο αρχείο.
Η βιβλιοθήκη μπορεί να έχει πρόσβαση απλά κεφαλίδα του αρχείου για γρήγορη συνολικό πληροφορίες του αρχείου, ή μπορεί να πάει πολύ βαθιά και αναζήτηση ακόμα στο σώμα του αρχείου για διάφορους τύπους δεδομένων, σε κείμενο ή δυαδική μορφή.
Ένα ευρύ φάσμα των τύπων αρχείων που υποστηρίζονται και Τίκα μπορεί επίσης να χρησιμοποιηθεί με άλλες γλώσσες προγραμματισμού, χάρη σε μια σειρά από συνδέσεις τρίτων και περιτυλίγματα.

Τι είναι καινούργιο σε αυτήν την έκδοση :

  • Αυτή η έκδοση περιλαμβάνει διορθώσεις σφαλμάτων και νέα χαρακτηριστικά, όπως μια νέα Tesseract OCR Parser? μια νέα Αναλυτής GDAL? πιο υποστηριζόμενες μορφές, και η συνολική βελτιώσεις στη σταθερότητα Τίκα.

Τι είναι καινούργιο στην έκδοση 1.8:

  • Αυτή η έκδοση περιλαμβάνει διορθώσεις σφαλμάτων και νέα χαρακτηριστικά, όπως μια νέα Tesseract OCR Parser? μια νέα Αναλυτής GDAL? πιο υποστηριζόμενες μορφές, και η συνολική βελτιώσεις στη σταθερότητα Τίκα.

Τι είναι καινούργιο στην έκδοση 1.7:

  • Αυτή η έκδοση περιλαμβάνει διορθώσεις σφαλμάτων και νέα χαρακτηριστικά, όπως μια νέα Tesseract OCR Parser? μια νέα Αναλυτής GDAL? πιο υποστηριζόμενες μορφές, και η συνολική βελτιώσεις στη σταθερότητα Τίκα.

Τι είναι καινούργιο στην έκδοση 1.6:

  • Αυτή η έκδοση περιλαμβάνει διορθώσεις σφαλμάτων και νέα χαρακτηριστικά, όπως μια νέα μετάφραση API, πιο υποστηριζόμενες μορφές, και η συνολική βελτιώσεις στη σταθερότητα Τίκα.

Τι είναι καινούργιο στην έκδοση 1.5:.

  • Διορθώθηκε σφάλμα στο χειρισμό των ενσωματωμένων επεξεργασίας αρχείων σε PDF
  • Προστέθηκε SourceCodeParser για την υποστήριξη Java, Groovy, C ++ αρχεία.
  • Ενημέρωση Τίκα Server για να υποστηρίξει τα ωφέλιμα φορτία multipart / form-δεδομένων.
  • Ενημέρωση Τίκα Server για να CXF 2.7.8.
  • Ενημέρωση Τίκα Server για να δεχθεί τα αιτήματα πάνω διευθύνσεις μπαλαντέρ.
  • Προστέθηκε επιλογή για να χρησιμοποιήσετε εναλλακτική NonSequentialPDFParser.
  • Περιεχόμενο από AcroForms PDF τώρα εξάγεται.
  • Διορθώθηκε το άκυρο αστερίσκους από την κύρια διαφάνεια σε PPT.
  • Προστέθηκε περιπτώσεις δοκιμών για την επιβεβαίωση χειρισμό auto-ημερομηνία σε μορφή PPTX PPT και.

Τι είναι καινούργιο στην έκδοση 1.4:

  • Αφαιρέθηκε ένα δοκιμαστικό αρχείο HTML με μια κακή επιλογή κειμένου GPL σε αυτό.
  • Βελτιώσεις Τίκα-server, ώστε να μπορέσει να παράγει κείμενο / HTML και κείμενο / περιεχόμενο XML.
  • Οι βελτιώσεις έγιναν στο συμπιεστή Parser για να χειριστεί g'zipped αρχεία που απαιτούν την επιλογή decompressConcatenated που να ισχύει.
  • απηύθυνε τυπογραφικό λάθος που εμποδίζει τον εντοπισμό των αρχείων awk.

Τι είναι καινούργιο στην έκδοση 1.2:

  • Apache Τίκα 1.2 περιέχει μια σειρά από βελτιώσεις και διορθώσεις σφαλμάτων.

Τι είναι καινούργιο στην έκδοση 1.0:

  • Apache Τίκα 1.0 περιέχει μια σειρά από βελτιώσεις και διορθώσεις σφαλμάτων.

Τι είναι καινούργιο στην έκδοση 0.9:.

  • Αυτή η έκδοση περιλαμβάνει αρκετές σημαντικές διορθώσεις και νέα χαρακτηριστικά

Τι είναι καινούργιο στην έκδοση 0.8:

  • Προσδιορισμός γλώσσας είναι τώρα ρυθμιστεί δυναμικά, κατάφεραν μέσω ενός αρχείου ρυθμίσεων φορτώνεται από το classpath.
  • Τίκα υποστηρίζει τώρα την ανάλυση Feeds τυλίγοντας το υποκείμενο βιβλιοθήκη της Ρώμης.
  • Ένας οδηγός γρήγορης εκκίνησης για την ανάλυση Τίκα συνέβαλλαν.
  • Μια προσέγγιση για υδραυλικά διαμέσου των χαρακτηριστικών της XHTML προστέθηκε.
  • Ο τύπος μέσου εκτύπωσης ιεραρχία πληροφορία λαμβάνεται πλέον υπόψη κατά την επιλογή των καλύτερων αναλυτή για ένα συγκεκριμένο έγγραφο εισόδου.
  • Υποστήριξη για την ανάλυση κοινών επιστημονικών μορφές δεδομένων, συμπεριλαμβανομένων NetCDF και HDF4 / 5 προστέθηκε.

  • Οι
  • δοκιμές μονάδα για Windows έχουν καθοριστεί, επιτρέποντας TestParsers για να ολοκληρωθεί.

Τι είναι καινούργιο στην έκδοση 0.7:

  • αρχείο MP3 ανάλυσης βελτιώθηκε, συμπεριλαμβανομένης της Μάγχης και samplerate εξόρυξης και ID3v2 υποστήριξη. Περαιτέρω, η ανίχνευση ήχου MIME του βελτιώθηκε επίσης για τη μορφή MIDI.
  • Τίκα βασίζεται πλέον στην X11 για τη λειτουργικότητα RTF parsing του.
  • Ένα Thread ασφαλή bug στο AutoDetectParser ανακαλύφθηκε και να αντιμετωπιστούν.
  • Αναβάθμιση σε PDFBox 1.0.0. Η νέα έκδοση PDFBox βελτιώνει την απόδοση PDF ανάλυσης και καθορίζει μια σειρά θεμάτων εξόρυξη κειμένου.

Απαιτήσεις :

  • Java 6 ή υψηλότερο

Παρόμοια λογισμικά

node-icy
node-icy

20 Jul 15

Breeze
Breeze

13 Apr 15

ConditionerJS
ConditionerJS

10 Feb 16

Άλλο λογισμικό του προγραμματιστή Apache Software Foundation

Apache Karaf
Apache Karaf

11 Mar 16

Apache Syncope
Apache Syncope

10 Dec 15

Apache Avro
Apache Avro

10 Apr 16

Σχόλια για Apache Tika

Τα σχόλια δεν βρέθηκε
προσθήκη σχολίου
Ενεργοποιήστε τις εικόνες!
Αναζήτηση ανά κατηγορία