Το λογισμικό Methabot είναι μια ταχύτητα βελτιστοποιημένη, scriptable και ιδιαίτερα διαμορφώσιμη web, ftp και τοπικό ανιχνευτή σύστημα αρχείων. Υποστηρίζει δέσμης ενεργειών filetype ανάλυσης, μια ευρεία ποικιλία των επιλογών προσαρμογής και μπορεί να ρυθμιστεί εύκολα για να ταιριάζει στις ιδιαίτερες ανάγκες anyones.
Με τη χρήση του συστήματος ενότητας και scripting γλώσσα, οι χρήστες έχουν τη δυνατότητα να λάβουν πλήρη ή μερικό έλεγχο της διαδικασίας crawling και να αποφασίσει, ωστόσο Methabot θα πρέπει να αποθηκεύουν τα δεδομένα στο διαδίκτυο, στατιστικά και πολλά άλλα.
Απλά εκτελώντας Methabot από την γραμμή εντολών μπορείτε να ρυθμίσετε έθιμο τύπους αρχείων, το φιλτράρισμα εκφράσεις, τη συμπεριφορά, και πολύ περισσότερο, έτσι ώστε να μην χρειάζεται να είναι ένα scripter
Χαρακτηριστικά !:
- Είναι γρήγορο, σχεδιασμένο από το έδαφος και με την ταχύτητα-βελτιστοποίηση στο μυαλό.
- δέσμης ενεργειών μέσω Javascript με E4X
- ορίζεται από το χρήστη φιλτράρισμα τύπο αρχείου (ανάλογα με τον τύπο MIME, επέκταση αρχείου ή έκφραση UMEX)
- Multi-threaded
- Ιδιαίτερα διαμορφώσιμο από την γραμμή εντολών
- επεκτάσιμο σύστημα της μονάδας, υποστηρίζουν αναλυτές προσαρμοσμένα στοιχεία και φίλτρα.
- Απλό αλλά ισχυρό φιλτράρισμα των διευθύνσεων URL με τη UMEX.
- Αυτοματοποιημένο κατέβασμα
- Υποστήριξη για την αυτόματη διαχείριση cookie όταν τρέχει μέσω HTTP
- Αξιόπιστο, με ανοχή βλάβης δικτύωσης
- Φορητό, δοκιμάστηκε με επιτυχία σε 32-bit / 64-bit Linux 2.6, 32-bit / 64-bit του FreeBSD 6.x / 7.0, τα Windows XP και Mac OS X. θα πρέπει να λειτουργεί σχεδόν σε οποιαδήποτε Unix-like λειτουργικό σύστημα.
Τι είναι καινούργιο σε αυτή την έκδοση:
- Διόρθωση bug, όταν χρησιμοποιείται εξωτερικά, κρυφοκοιτάζει το όριο βάθους ήταν μπερδεμένο.
- Μνήμη
- δυναμικής URL δεν είναι πλέον οριστεί για αναζήτηση από προεπιλογή, δεδομένου ότι επιβραδύνει την σέρνεται σημαντικά
- Build σύστημα δημιουργεί τώρα και εγκαθιστά ορισμένα αρχεία κεφαλίδας που modules μπορούν να χρησιμοποιούν κατά τη σύνδεση
- εργαλείο metha-config πρόσθεσε
- lmm_mysql μετακινηθούν εκτός αυτού του πακέτου
Διορθώσεις εκκαθάρισης χρήση
Επιλογή
Τι είναι καινούργιο στην έκδοση 1.5.0:
- Οι αλλαγές και τα νέα χαρακτηριστικά:
- Υποστήριξη για την ανάγνωση intial ρυθμιστικό από το stdin
- - τύπος και --base-url επιλογές γραμμής εντολών προστεθεί, μαζί με την επιλογή initial_filetype στα αρχεία ρυθμίσεων
- Μπισκότα και πληροφορίες DNS είναι πλέον κατάλληλα μοιράζεται μεταξύ των εργαζομένων κατά την εκτέλεση πολλαπλών νημάτων
- Προστέθηκε κάποια χρήση παράδειγμα εντολές για να --examples
- μεγάλες βελτιώσεις στην επικοινωνία μεταξύ των νημάτων, τώρα πιο γρήγορα και πιο οργανωμένη
- Προστέθηκε υποστήριξη για το «init» λειτουργίες σε σενάρια. Διαβάστε περισσότερα για το init λειτουργίες σε http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha δεν παγώσει όταν κάνει πολλαπλές ταυτόχρονες αιτήσεις HTTP ΚΕΦΑΛΙ πια. Ο λόγος για τους παγώνει ήταν ένα σφάλμα το οποίο libcurl οποίο έχει πλέον διορθωθεί. Ορισμένες λύσεις έχουν προστεθεί στο libmetha για την πρόληψη των παγώνει από την εμφάνιση, όταν χρησιμοποιείτε τις εκδόσεις ελάττωμα libcurl επίσης.
- Υποστήριξη για παλαιότερες εκδόσεις libcurl 7.17.x και 7.16.x
- Νέες πληροφορίες είναι διαθέσιμες στο & quot? Αυτό το & quot? αντικείμενο της Javascript parsers, τύπου περιεχομένου και του καθεστώτος μεταφορά κώδικα. Διαβάστε περισσότερα στο http://bithack.se/projects/methabot/docs/e4x/this.html
- - φλύαρη επιλογής αντικαταστάθηκε με --silent, αφού φλύαρη λειτουργία είναι τώρα ο προεπιλεγμένος
- Η αρχική υποστήριξη για FTP σέρνεται και η επιλογή ftp_dir_url ανίχνευσης
- Βάθος περιορισμό είναι τώρα ερπυστριοφόρο ειδικό
- Προστέθηκε στις επιλογές της γραμμής εντολών --crawler και --filetype
- Υποστήριξη για την επέκταση και υπερισχύον ήδη οριστεί με ερπύστριες και τύπους αρχείων
- Υποστήριξη για τη λέξη-κλειδί αντίγραφο στα αρχεία ρυθμίσεων
- Υποστήριξη για την δυναμική εναλλαγή του ενεργού ανιχνευτή, αυτό σας επιτρέπει να ανιχνεύσουμε διάφορες ιστοσελίδες με τελείως διαφορετικό τρόπο σε μία σέρνεται συνεδρία. Διαβάστε περισσότερα για το ερπυστριοφόρο μεταγωγής σε http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev έκδοση αναβάθμιση σε 3.51
- Η οδηγία περιλαμβάνει στα αρχεία ρυθμίσεων κάνει τώρα ότι το συμπεριλαμβανόμενο αρχείο ρυθμίσεων δεν έχει ήδη φορτωθεί, να αποτρέψει περιλαμβάνουν βρόχους και πολλαπλές ορισμούς τύπο αρχείου / ανιχνευτή.
- Διάφορα Spidermonkey διορθώσεις συλλογή σκουπιδιών, libmetha δεν συντριβή πια κατά τον καθαρισμό μετά από μια πολυνηματική συνεδρία
- Προστέθηκε κάποιες επιπλέον πληροφορίες για την --info επιλογή
- Η «εξωτερική» επιλογή είναι πλέον σταθερό και ενεργοποιείται ξανά
- Νέα επιλογή --spread-εργαζομένων
- Νέα libmetha API λειτουργία lmetha_global_setopt () επιτρέπει την αλλαγή του παγκόσμιου σφάλματος / μήνυμα / προειδοποίησης δημοσιογράφος
- Προστέθηκε την αρχική εφαρμογή μιας σειράς δοκιμών για την ανάπτυξη
- Καλύτερη αναφορά σφάλματος κατά τη φόρτωση αρχείων ρυθμίσεων
- Διόρθωση bug όταν ένας διακομιστής HTTP δεν επιστρέψει μια κεφαλίδα Content-Type μετά από αίτηση HEAD
- Διόρθωση bug κατά την ταξινόμηση των διευθύνσεων URL μετά από αιτήματα πολλών HTTP ΚΕΦΑΛΙ
- Διόρθωση bug στον κώδικα HTML στο μετατροπέα XML όταν η σελίδα HTML δεν είχε μια & lt? html & gt? tag
- Διόρθωση bug, η επιλογή extless-url δεν λειτούργησε
- Διόρθωση bug, HTML στο μετατροπέα XML δεν είναι πλέον πνίγει περί σημάτων byte-παραγγελία ή άλλο κείμενο πριν από την πραγματική HTML
- Διόρθωση bug, εμπόδισε libmetha από την προσπάθεια να αποκτήσετε πρόσβαση σε διευθύνσεις URL των πρωτοκόλλων που δεν υποστηρίζονται
- Διόρθωση bug όταν κλείνουν μετά από ένα σφάλμα.
- Διόρθωση bug, unresolvable διευθύνσεις URL δεν σπάσει το βρόχο να ξαναπροσπαθήσετε μετά από τρεις προσπάθειες επαναλειτουργίας
- Πολύ πειραματική και ασταθή στήριξη για Win32, που προορίζονται κυρίως για την ανάπτυξη
- Νέα αρχεία ρυθμίσεων:
- google.conf, για να εκτελέσετε αναζητήσεις στο Google
- youtube.conf, youtube αναζήτηση
- meta.conf, εκτυπώσεις μετα-πληροφορίες, όπως λέξεις-κλειδιά και περιγραφή για σελίδες HTML
- title.conf, εκτυπώνει τον τίτλο του σελίδες HTML
- ftp.conf, για την ανίχνευση διακομιστές FTP
Τι είναι καινούργιο στην έκδοση 1.4.1:
- Διαμόρφωση μπορέσαμε να βρούμε jsapi.h σε μερικά συστήματα , αυτό θα πρέπει να καθοριστεί τώρα.
- Διαμόρφωση αρχεία είναι πλέον σε θέση να τροποποιήσει ανίχνευσης και filetype σημαίες, πρόσθεσε των επιλογών του εξωτερικού »και« external_peek »
- Διόρθωση bug, Methabot πολλές φορές θα διακοπεί όταν καθαρισμό άδειο διευθύνσεις URL μετά από πολλαπλές ΚΕΦΑΛΙ HTTP
- Διορθώθηκε το πρόβλημα κατάρρευσης που συνέβη όταν λειτουργούν ταυτόχρονα.
- σύστημα Build περιλαμβάνουν αποτύπωση όταν jsconfig.h δεν θα μπορούσε να βρεθεί.
Απαιτήσεις :
- κεφαλίδες Spidermonkey
- cURL
Τα σχόλια δεν βρέθηκε