Όμορφο σχέδιο σούπα είναι ένα πρόγραμμα ανάλυσης Python HTML / XML έχει σχεδιαστεί για γρήγορη ανάκαμψη έργα όπως η οθόνη-απόξεση. Τρία χαρακτηριστικά καθιστούν ισχυρό:
Όμορφη σούπα δεν θα πνίξει αν δώσετε κακή σήμανση. Παράγει ένα συντακτικό δένδρο που κάνει περίπου τόσο νόημα όσο το πρωτότυπο έγγραφό σας. Αυτό είναι συνήθως αρκετά καλό για να συλλέξει τα στοιχεία που χρειάζεστε και να τρέξει μακριά.
Όμορφη Σούπα παρέχει μερικές απλές μεθόδους και Pythonic ιδιώματα για την πλοήγηση, αναζήτηση, και τροποποιώντας ένα δένδρο: ένα σύνολο εργαλείων για την ανατομία ενός εγγράφου και εξόρυξη ό, τι χρειάζεστε. Δεν χρειάζεται να δημιουργήσετε ένα προσαρμοσμένο πρόγραμμα ανάλυσης για κάθε εφαρμογή.
Όμορφη Σούπα μετατρέπει αυτόματα τα εισερχόμενα έγγραφα σε Unicode και εξερχόμενα έγγραφα σε UTF-8. Δεν χρειάζεται να σκεφτούμε κωδικοποιήσεις, εκτός εάν το έγγραφο δεν προσδιορίζει μια κωδικοποίηση και όμορφη σούπα δεν μπορεί να αναγνωρίσει ένα. Στη συνέχεια, απλά πρέπει να καθορίσετε την αρχική κωδικοποίηση.
Όμορφη Σούπα αναλύει οτιδήποτε σας δώσει, και κάνει τα πράγματα δέντρου διάσχισης για εσάς. Μπορείτε να πείτε ότι "Βρείτε όλες τις συνδέσεις", ή "Βρείτε όλες τις συνδέσεις της τάξης externalLink", ή "Βρείτε όλες τις συνδέσεις των οποίων οι διευθύνσεις URL ταιριάζει" foo.com ", ή" βρείτε τον πίνακα με τίτλο Ότι έχεις έντονο κείμενο, να δώσει στη συνέχεια με το κείμενο αυτό. "
Πολύτιμα δεδομένα που κάποτε ήταν κλειδωμένο σε ανεπαρκώς σχεδιασμένα sites είναι τώρα μέσα στις δυνατότητές σας. . Τα έργα που θα έχουν λάβει ώρες πάρει μόνο λεπτά με όμορφη Σούπα
Απαιτήσεις :
- Python
Τα σχόλια δεν βρέθηκε