Apache Τίκα είναι ένα πακέτο εργαλείων ανοικτού κώδικα σχεδιασμένο να ανιχνεύει και να εξάγει μεταδεδομένα, καθώς και ένα δομημένο περιεχόμενο κειμένου από διάφορα έγγραφα, χρησιμοποιώντας τίποτα, αλλά υπάρχουσες βιβλιοθήκες αναλυτή.
Apache Τίκα υποστηρίζει τις ακόλουθες μορφές εγγράφων: HyperText Markup Language (HTTP), XML και παράγωγες μορφές, το Microsoft Office μορφές εγγράφων, OpenDocument Format (ODF), Portable Document Format (PDF) και σε ηλεκτρονική μορφή Δημοσίευση (EPF), Μορφή εμπλουτισμένου κειμένου (RTF ), η συμπίεση και η συσκευασία μορφές, μορφές κειμένου / ήχου / εικόνας / βίντεο, η μορφή mbox, και Java κλάση αρχεία και αρχεία.
Προηγουμένως, Apache Τίκα ήταν ένα υπο-έργο της βιβλιοθήκης λογισμικού Apache Lucene. Τώρα διανέμεται ως ένα αυτόνομο πακέτο από την Apache Software Foundation
Τι είναι καινούργιο σε αυτή την έκδοση:.
- Αφαιρέθηκε ένα δοκιμαστικό αρχείο HTML με μια κακή επιλογή GPL κείμενο αυτό (ΤΙΚΑ-1129).
- Βελτιώσεις στα Τίκα-server για να μπορέσει να δώσει το κείμενο / HTML και κείμενο / περιεχόμενο XML (TIKA-1126, ΤΙΚΑ-1127).
- Οι βελτιώσεις που έγιναν στο Συμπιεστή Parser για να χειριστεί g'zipped αρχεία που απαιτούν την επιλογή decompressConcatenated οριστεί σε true (ΤΙΚΑ-1096).
- απηύθυνε τυπογραφικό λάθος που εμποδίζει την ανίχνευση των αρχείων awk (ΤΙΚΑ-1081).
- Προστέθηκε ένα νέο τελικό σημείο στο διακομιστή JAX-RS ΠΕΡΙΦΕΡΕΙΑ Τίκα το οποίο ανιχνεύει μόνο τον τύπο των μέσων ενημέρωσης βασίζεται σε ένα μικρό τμήμα του εγγράφου που υπέβαλε (ΤΙΚΑ-1047).
- RTF:. Παραγγείλει και μη ταξινομημένες λίστες τώρα εξάγεται (TIKA-1062)
- MP3: διάρκεια ήχου τώρα εξάγεται (ΤΙΚΑ-991)
- Java αρχεία .class:. Αναβαθμιστεί από την ASM 3.1 έως 4.1 ASM για την ανάλυση των bytecodes Java (ΤΙΚΑ-1053)
- Τύποι MIME: Ορισμοί επεκταθεί ώστε να περιλαμβάνουν προαιρετικά Σύνδεσμος (URL) και λοιμώξεις του ουροποιητικού συστήματος, μαζί με λεπτομέρειες για διάφορες κοινές μορφές (ΤΙΚΑ-1012 / ΤΙΚΑ-1083)
- Εξαιρέσεις όταν parsing OLE10 ενσωματωμένα έγγραφα, όταν parsing συνοπτικές πληροφορίες από έγγραφα του Office, καθώς και κατά την αποθήκευση ενσωματωμένων documennts σε TikaCLI εισέλθει πλέον αντί της εγκατάλειψης της εκχύλισης (ΤΙΚΑ-1074)
- MS Word: Ο χαρακτήρας της γραμμής πίνακα αντικαθίσταται τώρα με αλλαγή γραμμής (TIKA-1128)
- XML: ElementMetadataHandlers μπορεί προαιρετικά να δεχθεί διπλούν και κενό αξιών (TIKA-1133) .
Απαιτήσεις :
- Java 2 Standard Edition Runtime Environment
Τα σχόλια δεν βρέθηκε