PDFMiner λειτουργεί από την πρώτη λήψη του περιεχομένου ενός αρχείου PDF και να το μετατρέψει σε μια πιο εύπλαστη μορφή όπως HTML.
Από εκεί, το κείμενο και τα δεδομένα εξάγονται και αναλύονται, και με βάση τους προκαθορισμένους κανόνες διαχωρίζονται και παρουσιάζεται στον χρήστη ή να αποσταλούν σε άλλες πιο ισχυρά εργαλεία ανάλυσης δεδομένων.
Εάν η ανάλυση κειμένου δεν είναι ό, τι σκοπεύετε να κάνετε, μπορείτε εύκολα να ρυθμίσετε PDFMiner απλά να εξαγάγετε ή απλά να μετατρέψετε τα δεδομένα σε μορφή PDF καθώς.
Λειτουργίες του μπορούν να λειτουργήσουν ξεχωριστά ο ένας από τον άλλο και να επιτρέπουν ένα ευρύ φάσμα ευρύτερη χρήση χάρη σε αυτό
Χαρακτηριστικά :.
- 100% Python κώδικα, δεν C ή C ++
- Parse PDFs
- Αναλύστε τα PDF
- Μετατροπή αρχείων PDF σε άλλες μορφές
- ToC απαγωγέας
- Αποκτήστε μόνο με ετικέτα περιεχόμενο
- Υποστήριξη για ένα μεγάλο αριθμό χαρακτηριστικών κειμένου PDF
- Υποστήριξη για έναν μεγάλο αριθμό τύπων γραμματοσειρών μέσα PDFs
- Βασικές κρυπτογράφησης (RC4) υποστήριξη
Τι είναι καινούργιο σε αυτή την έκδοση:
- μέθοδος PDFDocument.initialize () αφαιρείται και δεν χρειάζονται πλέον . Ο κωδικός πρόσβασης δίνεται ως επιχείρημα ενός κατασκευαστή PDFDocument.
Τι είναι καινούργιο στην έκδοση 20110515:.
- αλλαγές API
- LTPolygon κατηγορία μετονομάστηκε σε LTCurve.
Τι είναι καινούργιο στην έκδοση 20110227:.
- διορθώσεις σφαλμάτων και βελτιώσεις ανάλυση της διάταξης
Τι είναι καινούργιο στην έκδοση 20101226:.
- Ένα ζευγάρι από διορθώσεις σφαλμάτων και μικρές βελτιώσεις,
Τι είναι καινούργιο στην έκδοση 20101017:.
- Ένα ζευγάρι από διορθώσεις σφαλμάτων και μια μικρή βελτίωση
Τι είναι καινούργιο στην έκδοση 20100424:.
- Bugfixes και μικροσκοπικά βελτιώσεις σχετικά με την εξόρυξη TOC
Απαιτήσεις :
- Python 2.4 έως 3
Περιορισμοί :.
- PDFMiner μπορεί να είναι 20 φορές πιο αργή από την C / C ++ - με βάση το λογισμικό
Τα σχόλια δεν βρέθηκε