lxml

Screenshot Λογισμικό:
lxml
Στοιχεία Λογισμικού:
Εκδοχή: 3.4.4 επικαιροποιημένο
Ανεβάστε ημερομηνία: 12 May 15
Προγραμματιστής: infrae.com
Άδεια: Δωρεάν
Δημοτικότητα: 245

Rating: 5.0/5 (Total Votes: 1)

lxml συνδυάζει την ταχύτητα αυτών των βιβλιοθηκών με την απλότητα της γλώσσας Python.
Συμβατό με όλες τις εκδόσεις CPython 2,4 - 3,2

Τι είναι καινούργιο σε αυτή την έκδοση:.

  • lxml.html.iterlinks τώρα επιστρέφει συνδέσεις στο εσωτερικό ετικέτες meta ανανέωσης.
  • Νέα XMLParser collect_ids option = false για να απενεργοποιήσετε ID κατακερματισμού δημιουργία πίνακα. Αυτό μπορεί ουσιαστικά να επιταχύνει την ανάλυση των εγγράφων με πολλές διαφορετικές ταυτότητες που δεν χρησιμοποιούνται.
  • Ο αναλυτής χρησιμοποιεί κατά έγγραφο πίνακες κατακερματισμού για ταυτότητες XML. Αυτό μειώνει το φορτίο της παγκόσμιας dict αναλυτή και να επιταχύνει την ανάλυση για έγγραφα με πολλές διαφορετικές ταυτότητες.
  • ElementTree.getelementpath (στοιχείο) επιστρέφει μια δομική έκφραση ElementPath για το συγκεκριμένο στοιχείο, το οποίο μπορεί να χρησιμοποιηθεί για αναζητήσεις αργότερα.
  • xmlfile () δέχεται ένα νέο επιχείρημα κοντά = true για να κλείσει τον φάκελο (αναλόγου) αντικείμενα μετά τη σύνταξη τους. Πριν, xmlfile () κλείνει το αρχείο μόνο αν την είχε ανοίξει στο εσωτερικό της.
  • Επιτρέψτε & quot? Bytearray & quot? Τύπος για την εισαγωγή κειμένου ASCII.

Τι είναι καινούργιο στην έκδοση 3.4.2:

  • lxml.html.iterlinks επιστρέφει τώρα συνδέσεις στο εσωτερικό μετα ανανεώστε ετικέτες.
  • Νέα XMLParser collect_ids option = false για να απενεργοποιήσετε ID κατακερματισμού δημιουργία πίνακα. Αυτό μπορεί ουσιαστικά να επιταχύνει την ανάλυση των εγγράφων με πολλές διαφορετικές ταυτότητες που δεν χρησιμοποιούνται.
  • Ο αναλυτής χρησιμοποιεί κατά έγγραφο πίνακες κατακερματισμού για ταυτότητες XML. Αυτό μειώνει το φορτίο της παγκόσμιας dict αναλυτή και να επιταχύνει την ανάλυση για έγγραφα με πολλές διαφορετικές ταυτότητες.
  • ElementTree.getelementpath (στοιχείο) επιστρέφει μια δομική έκφραση ElementPath για το συγκεκριμένο στοιχείο, το οποίο μπορεί να χρησιμοποιηθεί για αναζητήσεις αργότερα.
  • xmlfile () δέχεται ένα νέο επιχείρημα κοντά = true για να κλείσει τον φάκελο (αναλόγου) αντικείμενα μετά τη σύνταξη τους. Πριν, xmlfile () κλείνει το αρχείο μόνο αν την είχε ανοίξει στο εσωτερικό της.
  • Επιτρέψτε & quot? Bytearray & quot? Τύπος για την εισαγωγή κειμένου ASCII.

Τι είναι καινούργιο στην έκδοση 3.3.2:

  • Οι ιδιότητες resolvers και την έκδοση, καθώς και η μέθοδοι set_element_class_lookup () και makeelement (), χάθηκαν από iterparse αντικείμενα.
  • Παρουσίες XMLSchema, Schematron και RelaxNG δεν υπάρχει καθαρή τοπική error_log τους πριν από την εκτέλεση μιας επικύρωσης.
  • lxml.doctestcompare αναμειγνύονται & quot? Αναμενόμενη & quot? και & quot? πραγματικών & quot? στις τιμές των παραμέτρων.

Τι είναι καινούργιο στην έκδοση 3.3.1:

  • σφάλματα σταθερό:
  • HTML έγγραφα αναλύεται με parser.feed () απέτυχε να βρει στοιχεία κατά τη διάρκεια της επανάληψης ετικέτα.
  • Κτίριο στην PyPy απέτυχε λόγω έλλειψης υποστήριξης για PyUnicode_Compare () και PyByteArray _ * () σε C-API PyPy του.
  • Συγκέντρωση στο MSVC απέτυχε λόγω της απουσίας & quot? Stdint.h & quot? τυπικό αρχείο μπάλα.
  • iterparse () απέτυχε να αναλύσει BOM πρόθεμα αρχεία.

Τι είναι καινούργιο στην έκδοση 3.3.0:

  • σφάλματα σταθερό:
  • Η ευρετική που διακρίνει διαδρομές των αρχείων από τις διευθύνσεις URL σφίχτηκε παράγουν λιγότερα ψευδώς αρνητικά αποτελέσματα.

Τι είναι καινούργιο στην έκδοση 3.2.3:

  • Σταθερή υποστήριξη για την Python 2.4 που χάθηκε στο 3,2 0.2.

Τι είναι καινούργιο στην έκδοση 3.2.1:

  • Οι μέθοδοι apply_templates () και process_children () της στοιχεία XSLT επέκταση έχουν αποκτήσει δύο νέα Boolean επιλογές elements_only και remove_blank_text ότι απορρίψει είτε όλες τις χορδές ή με κενά, μόνο χορδές από την λίστα των αποτελεσμάτων.

Τι είναι καινούργιο στην έκδοση 3.2.0:

  • Οι αρχικοί κενοί θα μπορούσε να αλλάξει τη συμπεριφορά της ανάλυσης εγχόρδων λειτουργίες lxml.html.
  • Το string parsing λειτουργίες lxml.html είναι πιο ανθεκτικό ενόψει της ασυνήθιστο περιεχόμενο HTML, όπως πλαισίων ή λείπουν ετικέτες σώμα.
  • σφάλματα I / O, ενώ προσπαθεί να αποκτήσει πρόσβαση σε αρχεία με διαδρομές που περιέχουν μη-ASCII χαρακτήρες θα μπορούσαν να αυξήσουν UnicodeDecodeError αντί σωστά αναφέρετε το IOError.
  • Αναλύοντας από την in-memory χορδές με ειδικές ανάγκες πρόσβασης στο δίκτυο με τις προεπιλεγμένες αναλυτή και γίνονται οι επόμενες προσπάθειες για να αναλύσει από μια διεύθυνση URL αποτύχει.

Τι είναι καινούργιο στην έκδοση 3.1.2:

  • Ψήφιση αποδίδει μέσω του namespace-αγνοούν API του σαξόφωνο γέφυρας (δηλαδή το handler.startElement () μέθοδος) απέτυχε με ένα TypeError.
  • Διορθώθηκε το σφάλμα serialization στην έξοδο XSLT για τη μετατροπή του δέντρου αποτέλεσμα μια σειρά Unicode.

Τι είναι καινούργιο στην έκδοση 3.0.2:

  • Σταθερή συντριβή κατά τη διάρκεια του διερμηνέα τερματισμού από την αλλαγή στην Cython 0.17 0,3 για το κτίριο.

Τι είναι καινούργιο στην έκδοση 3.0:

  • C14N επιτρέπει τον καθορισμό των αποκλεισμούς προθέματα που πρέπει να προωθηθούν για να top- επίπεδο κατά τη διάρκεια της αποκλειστικής serialization.
  • Η αρχική υποστήριξη για την οικοδόμηση σε PyPy (μέσω cpyext).
  • DTD αντικείμενα αποκτήσει ένα API που επιτρέπει την προσπέλαση ανάγνωσης σε δηλώσεις τους.
  • xpathgrep.py απέκτησε την υποστήριξη parsing γραμμή-γραμμή (π.χ. από την έξοδο grep) και γύρω από την έξοδο με ένα νέο tag root.
  • E-εργοστάσιο στην lxml.builder δέχεται υποτύπους των γνωστών τύπων δεδομένων (όπως υποτύπων εγχόρδων), όταν τα δομικά στοιχεία γύρω τους.
  • Δέντρο επανάληψη και iterparse () με μια επιλεκτική επιχείρημα ετικέτα υποστηρίζει περνώντας μια σειρά από ετικέτες. Κόμβους του δέντρου θα πρέπει να επιστραφεί από τους επαναλήπτες και αν ταιριάζει με κάποιο από τα tags.

Τι είναι καινούργιο στην έκδοση 2.3.5:

  • συντριβή κατά τη συγχώνευση κόμβους κειμένου σε element.remove ( ).
  • Crash σε αναλυτή σαξόφωνο / στόχος κατά την αναφορά άδειο doctype.

Τι είναι καινούργιο στην έκδοση 2.3.4:

  • Crash όταν την οικοδόμηση μιας nsmap (ακίνητο στοιχείο) με URIs άδειο χώρο ονομάτων.
  • συντριβή οφείλεται σε κατάσταση κούρσας όταν συμβαίνουν λάθη (ή μηνύματα του χρήστη) κατά τη διάρκεια σπείρωμα επεξεργασίας XSLT.
  • φύλλου στυλ XSLT σύνταξη θα μπορούσε να αγνοήσει σφάλματα μεταγλώττισης.

Τι είναι καινούργιο στην έκδοση 2.3.3:

  • Χαρακτηριστικά πρόσθεσε:
  • lxml.html.tostring () κέρδισε νέες επιλογές serialization with_tail και doctype.
  • σφάλματα σταθερό:
  • Διορθώθηκε ένα σφάλμα κατά τη χρήση iterparse () για την HTML parsing και ζητώντας εκδηλώσεις έναρξης.
  • Σταθερή parsing των πιο επιλογείς στο cssselect. Whitespace πριν ψευδο-στοιχεία και ψευδο-κλάσεις είναι σημαντική, δεδομένου ότι είναι μια συνδιασμών απόγονος. & Quot? Ε: ψευδο & quot? θα πρέπει να αναλύσει το ίδιο όπως & quot? E *: ψευδο & quot ;, δεν & quot? Ε:. ψευδο & quot?
  • lxml.html.diff δεν δημιουργεί πλέον μια εξαίρεση όταν το χτύπημα «img» ετικέτες χωρίς να 'src' χαρακτηριστικό.

Τι είναι καινούργιο στην έκδοση 2.3.2:

  • Χαρακτηριστικά πρόσθεσε:
  • lxml.objectify.deannotate () έχει μια νέα cleanup_namespaces boolean επιλογή για να αφαιρέσετε τα αντικειμενοποιούν δηλώσεις namespace (και γενικά καθαρίσει τις δηλώσεις namespace), μετά την αφαίρεση των σχολίων του τύπου.
  • lxml.objectify αποκτήσει τη δική υποστοιχείο () λειτουργία της ως αντίγραφο της etree.SubElement αποφυγής μιας περιττή εισαγωγή του lxml.etree από την πλευρά του χρήστη.
  • σφάλματα σταθερό:
  • Σταθερή & quot? Απόγονος & quot? bug στο cssselect για δεύτερη φορά (μετά από μια πρώτη λύση στο lxml 2.3.1). Η προηγούμενη αλλαγή οδήγησε σε μια σοβαρή οπισθοδρόμηση επιδόσεων για την XPath με βάση την αξιολόγηση της μεταφρασμένης έκφρασης. Σημειώστε ότι αυτό σπάει τη χρήση κάποιων από τα παραγόμενα εκφράσεις XPath και XSLT μονοπάτια θέση που στο παρελθόν εργάστηκε στο σημείο 2.3.1.
  • Σταθερή parsing ορισμένων επιλογείς στο cssselect. Κενό μετά combinators & quot? & # X3e? & Quot ;, & quot? + & Quot? και & quot? ~ & quot? είναι τώρα σωστά αγνοείται. Προηγουμένως είχε αναλυθεί ως συνδιασμών απόγονος. Για παράδειγμα, & quot? Div & # x3e? .foo & quot? είχε αναλυθεί η ίδια όπως & quot? div & # x3e? * .foo & quot? αντί του & quot? div & # x3e? .foo & quot?.

Τι είναι καινούργιο στην έκδοση 2.3.1:

  • Χαρακτηριστικά πρόσθεσε:
  • Νέα επιλογή kill_tags σε lxml.html.clean για την άρση συγκεκριμένων ετικετών και το περιεχόμενό τους (δηλαδή ολόκληρο το υποδένδρο τους).
  • pi.get () και pi.attrib με οδηγίες επεξεργασίας για την ανάλυση ψευδο-χαρακτηριστικά από το περιεχόμενο κειμένου των οδηγιών επεξεργασίας.
  • lxml.get_include () επιστρέφει μια λίστα περιλαμβάνει διαδρομές που μπορούν να χρησιμοποιούνται για την κατάρτιση του εξωτερικού κώδικα C κατά lxml.etree. Αυτό απαιτείται ειδικά για στατικά συνδεδεμένο lxml χτίζει όταν ο κώδικας θα πρέπει να συγκεντρώσει κατά την ίδια ακριβώς εκδόσεις αρχείων επικεφαλίδα lxml μόνη της.
  • Resolver.resolve_file () παίρνει μια πρόσθετη close_file επιλογή που διαμορφώνει εάν το αρχείο (αναλόγου) αντικείμενο θα κλείσει μετά την ανάγνωση ή όχι. Από προεπιλογή, ο φάκελος θα κλείσει, καθώς ο χρήστης δεν αναμένεται να κρατήσει μια αναφορά σε αυτό.
  • σφάλματα σταθερό:
  • καθαρισμού HTML δεν αφαίρεση 'δεδομένα: ». Συνδέσεις
  • Η ενσωμάτωση html5lib αναλυτής χρησιμοποιεί τώρα την 'επίσημη' εφαρμογή στην ίδια html5lib, η οποία καθιστά την εργασία με νεότερες εκδόσεις της βιβλιοθήκης.
  • Σε lxml.sax, endElementNS () θα μπορούσε να απορρίψει εσφαλμένα ένα απλό όνομα ετικέτας, όταν η αντίστοιχη εκδήλωση έναρξης συναχθεί το ίδιο απλό όνομα ετικέτας να είναι στην προεπιλογή ονομάτων.
  • Όταν ένα ανοιχτό αρχείο που μοιάζει με αντικείμενο περνά μέσα parse () ή iterparse (), ο parser δεν είναι πλέον κοντά μετά τη χρήση θα. Αυτό επαναφέρει μια αλλαγή στην lxml 2,3 όπου θα έκλειναν όλα τα αρχεία. Είναι ευθύνη των χρηστών να κλείσει σωστά το αρχείο (αναλόγου) αντικείμενο, επίσης, σε περιπτώσεις λαθών.
  • λάθους Ισχυρισμός σε lxml.html.cleaner όταν απορρίπτουν στοιχεία ανώτατου επιπέδου.
  • Σε lxml.cssselect, χρησιμοποιήστε το XPath «Α // Β '(μικρή για« Α / απόγονος-ή-αυτο :: κόμβο () / Β') αντί του «Α / απόγονος :: Β 'για το CSS απόγονος επιλογέα («Α Β»). Αυτό κάνει μερικές περιπτώσεις άκρη για να είναι συνεπής με τη συμπεριφορά επιλογέα στο WebKit και Firefox, και καθιστά πιο εκφράσεις css valid μονοπάτια θέση (για χρήση σε xsl: template αγώνα).
  • Σε lxml.html, μη επιλεγέντες & # X3C? Επιλογή & # x3e? ετικέτες εμφανίζονται πλέον στα συλλεχθέντα στις τιμές της φόρμας.
  • Η προσθήκη / αφαίρεση & # X3C? Επιλογή & # x3e? τιμές από / προς το πολλαπλάσιο επιλέξτε πεδίο φόρμας τους επιλέγει σωστά και να αποεπιλέγει.
  • Άλλες αλλαγές:
  • Στατική χτίζει να καθορίσετε τη λήψη κατάλογο με την επιλογή --download-σκην.

Τι είναι καινούργιο στην έκδοση 2.3:

  • Χαρακτηριστικά πρόσθεσε:
  • Όταν ψάχνετε για παιδιά, lxml.objectify παίρνει »{} ετικέτα» υπό την έννοια ένα άδειο χώρο ονομάτων, σε αντίθεση με το γονικό χώρο ονομάτων.
  • σφάλματα σταθερό:
  • Όταν τελειώσετε την ανάγνωση από ένα αρχείο που μοιάζει με το αντικείμενο, ο parser καλεί αμέσως (μέθοδος της .close).
  • Όταν τελειώσετε την ανάλυση, iterparse () κλείνει αμέσως το αρχείο εισόδου.
  • Εργασία-γύρω για libxml2 bug που μπορεί να αφήσει το πρόγραμμα ανάλυσης HTML σε ένα μη λειτουργικό κράτος, μετά την ανάλυση ενός severly σπασμένο έγγραφο (που καθορίζεται στο libxml2 2.7.8).
  • Marque tag στον κώδικα HTML καθαρισμού είναι σωστά ονομάζεται marquee.
  • Άλλες αλλαγές:
  • Ορισμένες δημόσιες λειτουργίες στο Cython επιπέδου C-API έχουν πιο σαφείς τύπους επιστροφή.

Τι είναι καινούργιο στην έκδοση 2.3beta1:

  • σφάλματα σταθερό:
  • Crash σε νεότερες εκδόσεις libxml2 κατά τη μετακίνηση στοιχείων μεταξύ εγγράφων που είχαν χαρακτηριστικά σε αντικατάσταση κόμβους XInclude.
  • XMLID () συνάρτηση έλειπε το προαιρετικό πρόγραμμα ανάλυσης και base_url παραμέτρους.
  • Ψάχνοντας για ετικέτες μπαλαντέρ σε iterparse () είχε σπάσει σε Py3.
  • lxml.html.open_in_browser () δεν λειτούργησε σε Python 3, λόγω της χρήσης του os.tempnam. Χρειάζεται τώρα ένα προαιρετικό «κωδικοποίηση» παράμετρος.

Παρόμοια λογισμικά

RPyC
RPyC

12 May 16

json_tools
json_tools

12 May 15

urlwatch
urlwatch

12 Apr 15

pyICSParser
pyICSParser

12 Apr 15

Σχόλια για lxml

Τα σχόλια δεν βρέθηκε
προσθήκη σχολίου
Ενεργοποιήστε τις εικόνες!
Αναζήτηση ανά κατηγορία