Πολλές εφαρμογές που ασχολούνται με αδόμητα δεδομένα απαιτούν πρόσβαση στο περιεχόμενο του κειμένου της σχηματοποιημένα ή σήμασης έγγραφα. Οργανισμοί που αρχειοθετεί έγγραφα απαιτούν συχνά την πρόσβαση στο περιεχόμενο του κειμένου για να κάνει τα έγγραφα αναζήτησης και να επιτρέψει τη συγκέντρωση περιεχομένου, την υποβολή εκθέσεων και την εξόρυξη των αρχείων εγγράφου. Αναζήτηση και εφαρμογή ανάκτησης πρέπει επίσης να εξαγάγετε και tokenize κείμενο από διάφορες μορφές αρχείων.
Ένα πρότυπο μηχανισμού για την πρόσβαση και την εξαγωγή κειμένου από έγγραφα που παρέχεται από το plug-in περιβάλλον εργασίας IFilter που χρησιμοποιούνται σε μηχανές αναζήτησης της Microsoft. Υπάρχουν μερικές εφαρμογές IFilter αναπτύχθηκε από τη Microsoft και άλλους προμηθευτές που καλύπτουν μια ποικιλία μορφών αρχείων. Το πρότυπο ή η αξιοπιστία και το κείμενο εξόρυξης ποιότητα ποικίλλει σε πολλαπλές IFilter προγραμματιστές.
Opait φίλτρων κειμένου είναι ένα μικρό βοηθητικό πρόγραμμα με ένα απλό interface για IFilters που είναι ήδη εγκατεστημένο στον υπολογιστή υποδοχής, καθώς και λίγα φίλτρα εξαγωγής προσαρμοσμένο κείμενο που συνεργάζονται άμεσα με τις μορφές αρχείων και βελτιώνουν τις εφαρμογές προεπιλογή IFilter.
. Η διεπαφή για να εξαγάγετε κείμενο παρέχεται από μια μικρή βιβλιοθήκη κατηγορίας που ονομάζεται Opait.Filters οποία περιλαμβάνεται και μπορεί να χρησιμοποιηθεί για να ενσωματώσει τα φίλτρα κειμένου σε εφαρμογές .NET
Απαιτήσεις :
.NET Framework 4.5
Τα σχόλια δεν βρέθηκε