Apache Tika

Screenshot Λογισμικό:
Apache Tika
Στοιχεία Λογισμικού:
Εκδοχή: 1.4
Ανεβάστε ημερομηνία: 20 Feb 15
Προγραμματιστής: The Apache Software Foundation
Άδεια: Δωρεάν
Δημοτικότητα: 6

Rating: nan/5 (Total Votes: 0)

Apache Τίκα είναι ένα πακέτο εργαλείων ανοικτού κώδικα σχεδιασμένο να ανιχνεύει και να εξάγει μεταδεδομένα, καθώς και ένα δομημένο περιεχόμενο κειμένου από διάφορα έγγραφα, χρησιμοποιώντας τίποτα, αλλά υπάρχουσες βιβλιοθήκες αναλυτή.
Apache Τίκα υποστηρίζει τις ακόλουθες μορφές εγγράφων: HyperText Markup Language (HTTP), XML και παράγωγες μορφές, το Microsoft Office μορφές εγγράφων, OpenDocument Format (ODF), Portable Document Format (PDF) και σε ηλεκτρονική μορφή Δημοσίευση (EPF), Μορφή εμπλουτισμένου κειμένου (RTF ), η συμπίεση και η συσκευασία μορφές, μορφές κειμένου / ήχου / εικόνας / βίντεο, η μορφή mbox, και Java κλάση αρχεία και αρχεία.
Προηγουμένως, Apache Τίκα ήταν ένα υπο-έργο της βιβλιοθήκης λογισμικού Apache Lucene. Τώρα διανέμεται ως ένα αυτόνομο πακέτο από την Apache Software Foundation

Τι είναι καινούργιο σε αυτή την έκδοση:.

  • Αφαιρέθηκε ένα δοκιμαστικό αρχείο HTML με μια κακή επιλογή GPL κείμενο αυτό (ΤΙΚΑ-1129).
  • Βελτιώσεις στα Τίκα-server για να μπορέσει να δώσει το κείμενο / HTML και κείμενο / περιεχόμενο XML (TIKA-1126, ΤΙΚΑ-1127).
  • Οι βελτιώσεις που έγιναν στο Συμπιεστή Parser για να χειριστεί g'zipped αρχεία που απαιτούν την επιλογή decompressConcatenated οριστεί σε true (ΤΙΚΑ-1096).
  • απηύθυνε τυπογραφικό λάθος που εμποδίζει την ανίχνευση των αρχείων awk (ΤΙΚΑ-1081).
  • Προστέθηκε ένα νέο τελικό σημείο στο διακομιστή JAX-RS ΠΕΡΙΦΕΡΕΙΑ Τίκα το οποίο ανιχνεύει μόνο τον τύπο των μέσων ενημέρωσης βασίζεται σε ένα μικρό τμήμα του εγγράφου που υπέβαλε (ΤΙΚΑ-1047).
  • RTF:. Παραγγείλει και μη ταξινομημένες λίστες τώρα εξάγεται (TIKA-1062)
  • MP3: διάρκεια ήχου τώρα εξάγεται (ΤΙΚΑ-991)
  • Java αρχεία .class:. Αναβαθμιστεί από την ASM 3.1 έως 4.1 ASM για την ανάλυση των bytecodes Java (ΤΙΚΑ-1053)
  • Τύποι MIME: Ορισμοί επεκταθεί ώστε να περιλαμβάνουν προαιρετικά Σύνδεσμος (URL) και λοιμώξεις του ουροποιητικού συστήματος, μαζί με λεπτομέρειες για διάφορες κοινές μορφές (ΤΙΚΑ-1012 / ΤΙΚΑ-1083)
  • Εξαιρέσεις όταν parsing OLE10 ενσωματωμένα έγγραφα, όταν parsing συνοπτικές πληροφορίες από έγγραφα του Office, καθώς και κατά την αποθήκευση ενσωματωμένων documennts σε TikaCLI εισέλθει πλέον αντί της εγκατάλειψης της εκχύλισης (ΤΙΚΑ-1074)
  • MS Word: Ο χαρακτήρας της γραμμής πίνακα αντικαθίσταται τώρα με αλλαγή γραμμής (TIKA-1128)
  • XML: ElementMetadataHandlers μπορεί προαιρετικά να δεχθεί διπλούν και κενό αξιών (TIKA-1133)
  • .

Απαιτήσεις :

  • Java 2 Standard Edition Runtime Environment

Άλλο λογισμικό του προγραμματιστή The Apache Software Foundation

Apache Pig
Apache Pig

18 Jul 15

Apache ManifoldCF
Apache ManifoldCF

20 Feb 15

Apache OpenNLP
Apache OpenNLP

20 Feb 15

Σχόλια για Apache Tika

Τα σχόλια δεν βρέθηκε
προσθήκη σχολίου
Ενεργοποιήστε τις εικόνες!