Jericho HTML Parser

Screenshot Λογισμικό:
Jericho HTML Parser
Στοιχεία Λογισμικού:
Εκδοχή: 3.3
Ανεβάστε ημερομηνία: 20 Feb 15
Προγραμματιστής: Martin Jericho
Άδεια: Δωρεάν
Δημοτικότητα: 56

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser είναι ένα open source, απλό, αλλά ισχυρό βιβλιοθήκη γραμμένο εξ ολοκλήρου σε Java.
Θα επιτρέπει στους προγραμματιστές να χειραγωγήσουν και να αναλύουν τα μέρη του εγγράφου HTML.
Jerich HTML Parser ενσωματώνει επίσης υψηλού επιπέδου χειραγώγηση μορφή HTML λειτουργίες

Τι είναι καινούργιο σε αυτή την έκδοση:.

  • Διορθώσεις σφαλμάτων:
  • [3581664] CharacterReference.decode () δεν αποκωδικοποιήσει οντότητες που περιέχουν ψηφία - & frac12? & Frac14? & Frac34? & SUP1? & SUP2? & SUP3? & There4?
  • [3311286] SourceCompactor δεν σέβεται TEXTAREA
  • [3519131] Renderer εξόδου εσφαλμένη όταν κατασκευαστεί με ένα αντικείμενο στοιχείο.
  • [3538829] έξοδος Renderer της διακόσμησης γραμματοσειράς στα όρια των μπλοκ εσφαλμένη.
  • Segment.getAllStartTags (όνομα) και Segment.getFirstElement (όνομα) δεν λειτουργούν αν το επιχείρημα περιέχει κεφαλαία γράμματα.
  • Το τέλος οριοθέτησης μιας κοινής ετικέτας διακομιστή μέσα σε ένα δραπέτευσε ετικέτα server είναι ψευδώς αναγνωρίζεται ως το τέλος διαχωριστικό του διέφυγε ετικέτα.
  • Οι αλλαγές που μπορούσαν να επηρεάσουν τις ΣΥΜΠΕΡΙΦΟΡΑ των υφιστάμενων προγραμμάτων:
  • [3427073] Segment.getStyleURISegments () τώρα περιλαμβάνει περιεχόμενο του στοιχείου στυλ καθώς και τις αξίες στυλ χαρακτηριστικό.
  • [3427927] Segment.getURIAttributes () περιλαμβάνει πλέον τα χαρακτηριστικά αρχείου του αντικειμένου και μικροεφαρμογή στοιχεία.
  • Σχόλια δεν είναι πλέον αναγνωρισμένη εντός στοιχεία σενάριο κατά τη διάρκεια της πλήρους διαδοχική μεταγλώττιση. Προηγουμένως είχαν αναγνωριστεί για τη συμβατότητα με τα μεγάλα προγράμματα περιήγησης, αλλά σύγχρονη συμπεριφορά του προγράμματος περιήγησης έχει αλλάξει.
  • Άλλαξε το επίπεδο καταγραφής όλων των parsing λάθη από την Info σφάλματος, και το επίπεδο καταγραφής της Source.fullSequentialParse () συμβουλευτικό μήνυμα από ΠΡΟΕΙΔΟΠΟΙΟΥΝ να INFO. Τα προηγούμενα επίπεδα έδωσαν τη συμβουλευτική μήνυμα μεγαλύτερη βαρύτητα από ό, τι τα σφάλματα ανάλυσης, εμποδίζοντας συστήματα καταγραφής από το κρύψιμο της συμβουλευτικής μήνυμα, ενώ δείχνει σφάλματα ανάλυσης. Προειδοποιήσεις Κωδικοποίηση χαρακτήρων παραμένουν αμετάβλητα στο ΠΡΟΕΙΔΟΠΟΙΟΥΝ επίπεδο.
  • Άλλαξε η συμπεριφορά της μεθόδου Renderer.renderHyperlinkURL (StartTag) έτσι ώστε οι σχετικές διευθύνσεις URL δεν αποδίδονται.
  • Άλλαξε η συμπεριφορά του Renderer έτσι ώστε το περιεχόμενο στοιχείο υπερ-σύνδεση δεν καθίσταται αν είναι το ίδιο με το URL υπερσύνδεση, αγνοώντας οποιαδήποτε http:. // Πρόθεμα ή / κατάληξη
  • EndTag.tidy () αφαιρεί τώρα κενό πριν από την αγκύλη.
  • Προστέθηκε Πηγή (Αρχείο) κατασκευαστή.
  • μέθοδος Προστέθηκε OutputDocument.getSegment ().
  • Προστέθηκε OutputDocument.remove (int ξεκινήσει, τέλος int) μέθοδος.
  • μέθοδος Προστέθηκε Renderer.setHRLineLength ().
  • Προστέθηκε RenderToText.jsp δείγμα webapp.
  • μέθοδος Προστέθηκε Segment.getRowColumnVector ().
  • ανίχνευση Κωδικοποίηση τώρα αγνοεί κοινές κωδικοποιήσεις που ορίζονται στο μετα-ετικέτες που έχουν μέγεθος μονάδας κωδικό ασυμβίβαστη με την προκαταρκτική κωδικοποίηση.
  • Αναβαθμισμένες στα ακόλουθα API καταγραφικό: slf4j-api-1.7.2, log4j-1.2.17

Τι είναι καινούργιο στην έκδοση 3.1:

  • Διορθώσεις σφαλμάτων:
  • [2793556] άπειρο βρόχο για Segment.getAllStartTags ()
  • άπειρο βρόχο για Segment.getAllElements ()
  • Segment.getFirst * μέθοδοι επέστρεψε τμήματα εκτός του τμήματος οριοθέτησης.
  • Segment.getAllElements μέθοδοι δεν επιστρέφουν όλους τους κλειστούς στοιχεία σε ορισμένες περιπτώσεις.
  • Σταθερή σφαλμάτων στην τεκμηρίωση σε Segment.getAllElements μεθόδους.
  • Προστέθηκε StreamedSource κατηγορία.
  • Οι αλλαγές που μπορούσαν να επηρεάσουν τις ΣΥΜΠΕΡΙΦΟΡΑ των υφιστάμενων προγραμμάτων:
  • Άλλαξε ParseText από την τάξη για τη διασύνδεση.
  • Segment.getNodeIterator () επιστρέφει τώρα ήθους ως ξεχωριστά κόμβους.
  • Προστέθηκε ετικέτα μέθοδοι αναζήτησης με βάση την τιμή του χαρακτηριστικού κανονικές εκφράσεις.
  • Προστέθηκε ετικέτα μεθόδους αναζήτησης ανάλογα με την κλάση HTML χαρακτηριστικό.
  • Προστέθηκε στατική ιδιότητα Source.LegacyNodeIteratorCompatabilityMode προσωρινά να αποκαταστήσει Segment.getNodeIterator () λειτουργία με εκείνη των προηγούμενων εκδόσεων.
  • Αφαιρέθηκε char [] με βάση τις μεθόδους αναζήτησης ParseText.
  • Προστέθηκε CharacterReference.appendCharTo (προσαρτήσιμος) μέθοδο.
  • Προστέθηκε OutputDocument (Segment) κατασκευαστή.
  • πρόγραμμα δείγμα Προστέθηκε StreamedSourceCopy.

Τι είναι καινούργιο στην έκδοση 3.0:

  • Διορθώσεις σφαλμάτων:
  • ήθους που εκπροσωπεί Unicode συμπληρωματικούς χαρακτήρες δεν έχουν αποκωδικοποιηθεί σωστά στη μονάδα UTF-16 Κωδικός ζεύγη.
  • [2188446] Element.getDepth () και Element.getParentElement () επιστρέφει εσφαλμένα αποτελέσματα εάν κληθεί σε μεταγλώττιση σε λειτουργία ζήτησης.
  • Τα σχόλια είναι πλέον αναγνωρισμένη εντός & lt? Σενάριο & gt? στοιχεία.

  • ΑΛΛΑΓΕΣ
  • API ΠΟΥ ΔΕΝ συμβατό προς τα πίσω:
  • Άλλαξε όνομα του πακέτου για net.htmlparser.jericho
  • αξίες Χαρακτηριστικό πρέπει τώρα να είναι String αντί CharSequence.
  • αφαιρέσει όλα τα αποδοκιμαστεί μέθοδοι / τάξεις από τις προηγούμενες εκδόσεις.
  • Όλα τα βρείτε * μέθοδοι καταργηθεί υπέρ του να πάρει * μεθόδων, προκειμένου να εφαρμόσει ένα συνεκτικό σύμβαση ονομασίας σε όλες τις μεθόδους αναζήτησης ετικέτα.
  • Tag, Element και HTMLElements τάξεις εφαρμόζουν πλέον τη διεπαφή HTMLElementName. (Χρησιμοποιούν στατικές εισαγωγή αντ 'αυτού)
  • Όλες οι συλλογές τώρα διάθεση με έντονες πληκτρολογήσει τη χρήση γενόσημων φαρμάκων.
  • Αλλαγή FormControlOutputStyle τάξη να απαρίθμησης.
  • Αλλαγή κατηγορίας FormControlType να απαρίθμησης.
  • Προστέθηκε CharStreamSource.appendTo (προσαρτήσιμος) μέθοδο.
  • μέθοδος Προστέθηκε Source.iterator ().
  • Πηγή υλοποιεί τώρα Iterable.
  • Εσωτερικά χρησιμοποιεί StringBuilder για καλύτερη απόδοση.
  • Προστέθηκε Source.getNextStartTag (StartTagType) μέθοδο.
  • Προστέθηκε Source.getNextEndTag (EndTagType) μέθοδο.
  • Προστέθηκε Source.getPreviousStartTag (StartTagType) μέθοδο.
  • Προστέθηκε Source.getPreviousEndTag (EndTagType) μέθοδο.
  • Προστέθηκε Segment.getAllStartTags (StartTagType) μέθοδο.
  • Προστέθηκε όλες Segment.getFirst * μεθόδους.
  • Προστέθηκε Renderer.renderHyperlinkURL (StartTag) μέθοδο.
  • πρόγραμμα δείγμα Προστέθηκε HTMLSanitiser.
  • Αναβάθμιση στην slf4j-api-1.5.6

Απαιτήσεις :

  • Java 2 Standard Edition Runtime Environment

Παρόμοια λογισμικά

JiBX
JiBX

12 May 15

Sweave2knitr
Sweave2knitr

20 Feb 15

oXygen XML Author
oXygen XML Author

17 Jul 15

Άλλο λογισμικό του προγραμματιστή Martin Jericho

Σχόλια για Jericho HTML Parser

Τα σχόλια δεν βρέθηκε
προσθήκη σχολίου
Ενεργοποιήστε τις εικόνες!