mrjob είναι μια ενότητα Python που σας βοηθά να γράψετε και να εκτελέσετε Hadoop ροής θέσεις εργασίας.
mrjob υποστηρίζει πλήρως ελαστική MapReduce (EMR) υπηρεσία της Amazon, η οποία σας επιτρέπει να αγοράσει χρόνο σε ένα σύμπλεγμα Hadoop σε ωριαία βάση. Συνεργάζεται επίσης με το δικό του συμπλέγματος Hadoop σας.
Εγκατάσταση:
python setup.py εγκαταστήσετε
Ρύθμιση EMR στο Amazon
& Nbsp? * Δημιουργήσετε ένα λογαριασμό Amazon Web Services: http://aws.amazon.com/
& Nbsp? * Εγγραφείτε Ελαστική MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp? * Αποκτήστε πρόσβαση σας και μυστικά κλειδιά (πηγαίνετε στο http://aws.amazon.com/account/ και κάντε κλικ στο "διαπιστευτήρια ασφαλείας») και να ρυθμίσετε τις μεταβλητές περιβάλλοντος $ AWS_ACCESS_KEY_ID και $ AWS_SECRET_ACCESS_KEY αναλόγως
Δοκιμάστε το!
# Τοπικά
Python mrjob / παραδείγματα / mr_word_freq_count.py README.md> Η
# Για EMR
Python mrjob / παραδείγματα / mr_word_freq_count.py README.md -R EMR> Η
# Στο σύμπλεγμα σας Hadoop
Python mrjob / παραδείγματα / mr_word_freq_count.py README.md -r Hadoop> Η
Διαμόρφωση για προχωρημένους
Για να εκτελέσετε σε άλλες περιοχές της AWS, ανεβάστε το δέντρο πηγαίου κώδικα σας, εκτελείτε την εντολή make, και να χρησιμοποιείτε άλλες προηγμένες δυνατότητες mrjob, θα πρέπει να συσταθεί mrjob.conf. mrjob αναζητά conf αρχείο του σε:
& Nbsp? * ~ / .mrjob
& Nbsp? * Mrjob.conf οπουδήποτε στο $ PYTHONPATH σας
& Nbsp? * /etc/mrjob.conf
Δείτε mrjob.conf.example για περισσότερες πληροφορίες
Χαρακτηριστικά :.
- Εκτέλεση εργασιών σε EMR, το δικό σύμπλεγμα Hadoop σας, ή σε τοπικό επίπεδο (για δοκιμή).
- Γράψτε multi-βήμα τις θέσεις εργασίας (το ένα χάρτη, να μειώσει βήμα τροφοδοτεί την επόμενη)
- Αντιγραφή περιβάλλον παραγωγής σας μέσα Hadoop
- Ανεβάστε δέντρο πηγαίου κώδικα σας και το βάζουμε σε $ PYTHONPATH δουλειά σας
- Run κάνουν και άλλα σενάρια εγκατάστασης
- Ρύθμιση μεταβλητές περιβάλλοντος (π.χ. $ TZ)
- εγκαταστήσετε εύκολα python πακέτα από συμπιεσμένα αρχεία (EMR μόνο)
- Ρύθμιση χειρίζεται με διαφάνεια από το αρχείο mrjob.conf config
- Αυτόματη ερμηνεύει αρχεία καταγραφής των σφαλμάτων από EMR
- SSH σήραγγα για tracker δουλειά Hadoop για EMR
- Ελάχιστη εγκατάσταση
- Για να εκτελέσετε για EMR, που $ AWS_ACCESS_KEY_ID και $ AWS_SECRET_ACCESS_KEY
- Για να εκτελέσετε στο σύμπλεγμα σας Hadoop, που $ HADOOP_HOME
Απαιτήσεις :
- Python
Τα σχόλια δεν βρέθηκε