Jericho HTML Parser

Screenshot Λογισμικό:
Jericho HTML Parser
Στοιχεία Λογισμικού:
Εκδοχή: 3.4
Ανεβάστε ημερομηνία: 10 Dec 15
Προγραμματιστής: Martin Jericho
Άδεια: Δωρεάν
Δημοτικότητα: 12

Rating: nan/5 (Total Votes: 0)

Μπορεί να επεξεργαστείτε server-side και client-side ετικέτες, ενώ αναπαράγει αυτολεξεί κάθε μη αναγνωρισμένο ή άκυρο HTML.

Επίσης, παρέχει υψηλού επιπέδου χειραγώγηση μορφή HTML λειτουργίες

Χαρακτηριστικά :.

  • Η παρουσία του κακογραμμένα HTML δεν έχει καμία σχέση με την συντακτική ανάλυση του υπολοίπου του εγγράφου, το οποίο καθιστά τη βιβλιοθήκη ιδανική για χρήση με & quot? πραγματικό κόσμο & quot? HTML που πνίγει άλλα προγράμματα ανάλυσης.

  • Οι
  • ASP, JSP, PSP, PHP και Mason ετικέτες διακομιστής αναγνωρίζεται ρητά από τον αναλυτή. Αυτό σημαίνει ότι η κανονική HTML εξακολουθεί να αναλυθεί σωστά ακόμα κι αν υπάρχουν ετικέτες διακομιστή στο εσωτερικό τους, η οποία είναι κοινή για παράδειγμα, όταν τη δυναμική ρύθμιση αποδίδει στοιχείο.
  • Ένα νέο ρεύμα με βάση την επιλογή ανάλυσης χρησιμοποιώντας την κλάση StreamedSource, η οποία επιτρέπει στη μνήμη αποτελεσματική επεξεργασία των μεγάλων αρχείων, χρησιμοποιώντας ένα iterator εκδήλωση. Αυτό είναι ουσιαστικά μια εναλλακτική Stax με την ικανότητα να επεξεργάζονται HTML και μη επικύρωση XML, καθώς και διάφορα άλλα χαρακτηριστικά δεν είναι διαθέσιμα σε άλλα προγράμματα ανάλυσης ροής.
  • Στην τυπική της μορφή δεν είναι ούτε ένα γεγονός ούτε δέντρο που βασίζεται αναλυτή, αλλά χρησιμοποιεί ένα συνδυασμό απλή αναζήτηση κειμένου, αποτελεσματική αναγνώριση πινακίδων και μια κρύπτη θέση ετικέτας. Το κείμενο ολόκληρου του εγγράφου πηγής πρώτη φορτώνεται στη μνήμη, και στη συνέχεια μόνο τα σχετικά τμήματα αναζήτηση για τις σχετικές χαρακτήρες της κάθε λειτουργίας της αναζήτησης.
  • Σε σύγκριση με ένα δέντρο που βασίζεται αναλυτή, όπως το DOM, οι απαιτήσεις σε μνήμη και πόρος μπορεί να είναι πολύ καλύτερα, αν μόνο μικρά τμήματα του εγγράφου πρέπει να αναλυθεί ή να τροποποιηθούν. Εσφαλμένες ή κακογραμμένα HTML μπορεί εύκολα να αγνοηθεί, σε αντίθεση με το δέντρο που βασίζεται αναλυτές που πρέπει να εντοπίσουν κάθε κόμβου στο έγγραφο από πάνω προς τα κάτω.
  • Σε σύγκριση με ένα γεγονός που βασίζεται αναλυτή, όπως SAX, το interface είναι σε πολύ υψηλότερο επίπεδο και πιο διαισθητικό, και μια αναπαράσταση δέντρου της ιεραρχίας στοιχείου έγγραφο δημιουργείται εύκολα, εάν απαιτείται.
  • Το αρχίζουν και τελειώνουν θέσεις στο έγγραφο πηγή όλων των συντεταγμένων τμήματα είναι προσβάσιμα, επιτρέποντας την τροποποίηση του μόνο επιλεγμένα τμήματα του εγγράφου χωρίς να χρειάζεται να ανακατασκευάσει το σύνολο του εγγράφου από ένα δέντρο.
  • Ο αριθμός σειράς και στήλης κάθε θέσης στο έγγραφο προέλευσης είναι εύκολα προσβάσιμα.
  • Παρέχει μία απλή αλλά ολοκληρωμένη διεπαφή για την ανάλυση και τις πράξεις χειραγώγησης των ελέγχων μορφή HTML, συμπεριλαμβανομένης της εξόρυξης και του πληθυσμού των αρχικών τιμών, και μετατροπή σε μόνο για ανάγνωση ή απεικόνιση δεδομένων σε τρόπους. Η ανάλυση των στοιχείων ελέγχου φόρμας, επίσης, επιτρέπει στα δεδομένα που λαμβάνονται από το έντυπο που πρέπει να αποθηκεύονται και να παρουσιάζονται με τον κατάλληλο τρόπο.
  • Built-in λειτουργία για να εξαγάγετε όλο το κείμενο από την HTML σήμανσης, κατάλληλο για την τροφοδοσία σε μια μηχανή αναζήτησης κειμένου, όπως Apache Lucene.
  • Built-in λειτουργικότητα για να καταστήσει τη σήμανση HTML με απλή μορφοποίηση του κειμένου.
  • Built-in λειτουργικότητα για να διαμορφώσετε τον πηγαίο κώδικα HTML που εσοχή στοιχεία ανάλογα με το βάθος τους στην ιεραρχία στοιχείο εγγράφου. (Κάντε κλικ εδώ για μια σε απευθείας σύνδεση επίδειξη)
  • Built-in λειτουργικότητα με συμπαγή κώδικα HTML, αφαιρώντας όλα τα περιττά λευκό κενό.
  • Ειδικές μορφές ετικέτα μπορεί να οριστεί εύκολα και έχει καταγραφεί για την αναγνώριση από το πρόγραμμα ανάλυσης.

Τι είναι καινούργιο σε αυτή την έκδοση:.

  • Προστέθηκε Πηγή (Αρχείο) κατασκευαστής
  • Προστέθηκε μέθοδο OutputDocument.getSegment ().
  • Προστέθηκε OutputDocument.remove (int ξεκινήσει, τέλος int) μέθοδος.
  • Προστέθηκε μέθοδο Renderer.setHRLineLength ().
  • Προστέθηκε RenderToText.jsp δείγμα webapp.
  • Προστέθηκε μέθοδο Segment.getRowColumnVector ().
  • ανίχνευσης Κωδικοποίηση τώρα αγνοεί κοινές κωδικοποιήσεις που καθορίζονται στο meta tags που έχουν μέγεθος μονάδας κωδικό ασυμβίβαστη με την προκαταρκτική κωδικοποίηση.

Τι είναι καινούργιο στην έκδοση 3.1:

  • Διορθώσεις σφαλμάτων:
  • άπειρο βρόχο για Segment.getAllStartTags ()
  • άπειρο βρόχο για Segment.getAllElements ()
  • Segment.getFirst * μέθοδοι επέστρεψε τμήματα εκτός του τμήματος οριοθέτησης.
  • Segment.getAllElements μέθοδοι δεν επιστρέψει όλα τα στοιχεία που περικλείεται σε ορισμένες περιπτώσεις.
  • Σταθερή σφάλματα τεκμηρίωσης σε Segment.getAllElements μεθόδους.
  • Προστέθηκε StreamedSource τάξη.
  • Οι αλλαγές που θα μπορούσαν να επηρεάσουν τη συμπεριφορά των υφιστάμενων προγραμμάτων:
  • Αλλαγή ParseText από την τάξη για τη διασύνδεση.
  • Segment.getNodeIterator () επιστρέφει τώρα ήθους ως ξεχωριστές κόμβων.
  • Προστέθηκε ετικέτα μεθόδους αναζήτησης με βάση την τιμή του χαρακτηριστικού κανονικές εκφράσεις.
  • Προστέθηκε ετικέτα μεθόδους αναζήτησης ανάλογα με την κλάση χαρακτηριστικό HTML.
  • Προστέθηκε στατική ιδιοκτησίας Source.LegacyNodeIteratorCompatabilityMode προσωρινά για την αποκατάσταση της Segment.getNodeIterator () λειτουργία με εκείνη των προηγούμενων εκδόσεων.
  • Αφαιρέθηκε char [] Οι μέθοδοι που βασίζονται στην αναζήτηση ParseText.
  • Προστέθηκε CharacterReference.appendCharTo (προσαρτήσιμος) μέθοδο.
  • Προστέθηκε OutputDocument (Segment) κατασκευαστή.
  • πρόγραμμα δείγμα Προστέθηκε StreamedSourceCopy.

Παρόμοια λογισμικά

htmlmin
htmlmin

12 May 15

Diagnostic CSS
Diagnostic CSS

1 Mar 15

Devices.css
Devices.css

14 Apr 15

Άλλο λογισμικό του προγραμματιστή Martin Jericho

Σχόλια για Jericho HTML Parser

Τα σχόλια δεν βρέθηκε
προσθήκη σχολίου
Ενεργοποιήστε τις εικόνες!
Αναζήτηση ανά κατηγορία