reciprocal_smallest_distance είναι ανά ζεύγος αλγόριθμος Ορθός λόγος που χρησιμοποιεί η παγκόσμια ευθυγράμμιση ακολουθίας και τη μέγιστη πιθανότητα εξελικτική απόσταση μεταξύ των σειρών για να ανιχνεύει με ακρίβεια ορθολόγων μεταξύ γονιδιωμάτων.
Εγκατάσταση από μια Tarball
Κατεβάστε και αποσυμπιέστε την τελευταία έκδοση από το GitHub:
cd ~
μπούκλα -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Xvz πίσσα
Εγκαταστήστε reciprocal_smallest_distance, φροντίζοντας να χρησιμοποιήσετε την Python 2.7:
CD reciprocal_smallest_distance-VERSION
python setup.py εγκαταστήσετε
Χρήση RSD να βρείτε Othologs
Οι ακόλουθες εντολές παράδειγμα αποδεικνύουν οι βασικοί τρόποι για να τρέξει rsd_search. Κάθε επίκληση της rsd_search απαιτεί τον προσδιορισμό της θέσης ενός αρχείου αλληλουχίας FASTA διαμορφωμένη για δύο γονιδιωμάτων, που ονομάζεται το ερώτημα και θέμα γονιδιώματα. Η σειρά τους είναι αυθαίρετη, αλλά αν χρησιμοποιήσετε την επιλογή --ids, οι ταυτότητες πρέπει να προέρχονται από το γονιδίωμα του ερωτήματος. Θα πρέπει επίσης να καθορίσετε ένα αρχείο για να γράψει τα αποτελέσματα των ορθολόγων βρίσκεται από τον αλγόριθμο RSD. Η μορφή του αρχείου εξόδου περιέχει ένα ορθόλογο ανά γραμμή. Κάθε γραμμή περιέχει το αναγνωριστικό ερωτήματος αλληλουχία, με την επιφύλαξη id αλληλουχία, και η απόσταση (υπολογίζεται με codeml) μεταξύ των αλληλουχιών. Μπορείτε προαιρετικά να ορίσετε ένα αρχείο που περιέχει τα αναγνωριστικά χρησιμοποιώντας την επιλογή --ids. Στη συνέχεια RSD θα ψάξει μόνο για ορθολόγων για αυτές τις ταυτότητες. Χρησιμοποιώντας --divergence και --evalue, έχετε τη δυνατότητα να χρησιμοποιούν διαφορετικά κατώτατα όρια από τις προεπιλογές.
Ζητήστε βοήθεια για το πώς να τρέξει rsd_search, rsd_blast, ή rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Βρείτε ορθολόγων μεταξύ όλων των αλληλουχιών στο ερώτημα και θέμα γονιδιώματα, χρησιμοποιώντας την προεπιλεγμένη απόκλισης και evalue όρια
παραδείγματα rsd_search -q / γονιδιώματα / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-γονιδίωμα = παραδείγματα / γονιδιώματα / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Βρείτε ορθολόγων χρησιμοποιώντας διάφορες μη προεπιλεγμένες όρια απόκλισης και evalue
παραδείγματα rsd_search -q / γονιδιώματα / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-γονιδίωμα = παραδείγματα / γονιδιώματα / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0,2 1ε-20 --de .5 0,00001 --de 0,8 0,1
Δεν είναι απαραίτητο να διαμορφώσετε ένα αρχείο FASTA για BLAST ή BLAST υπολογίζει χτυπά επειδή rsd_search το κάνει για σας.
Ωστόσο, αν το σχέδιο για την εκτέλεση rsd_search πολλές φορές για τις ίδιες γονιδιωμάτων, ιδιαίτερα για τα μεγάλα γονιδιώματα, μπορείτε να εξοικονομήσετε χρόνο χρησιμοποιώντας rsd_format να preformatting τα αρχεία FASTA και rsd_blast να precomputing την έκρηξη χτυπά. Κατά την εκτέλεση rsd_blast, φροντίστε να χρησιμοποιήσετε ένα --evalue τόσο μεγάλη όσο η μεγαλύτερη κατώφλι evalue σκοπεύετε να δώσετε στο rsd_search.
Εδώ είναι πώς να διαμορφώσετε ένα ζευγάρι των αρχείων FASTA σε θέση:
rsd_format -g παραδείγματα / γονιδιώματα / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g παραδείγματα / γονιδιώματα / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
Και εδώ είναι το πώς να διαμορφώσετε τα αρχεία FASTA, βάζοντας τα αποτελέσματα σε άλλο κατάλογο (τον τρέχοντα κατάλογο σε αυτή την περίπτωση)
rsd_format -g παραδείγματα / γονιδιώματα / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d.
rsd_format -g παραδείγματα / γονιδιώματα / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d.
Εδώ είναι πώς να υπολογίσουμε εμπρός και όπισθεν επιτυχίες έκρηξη (χρησιμοποιώντας την προεπιλεγμένη evalue):
rsd_blast -v -q παραδείγματα / γονιδιώματα / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-γονιδίωμα = παραδείγματα / γονιδιώματα / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward χτυπήματα q_s.hits --reverse χτυπήματα s_q.hits
Εδώ είναι πώς να υπολογίσουμε τα εμπρός και αντίστροφη έκρηξη χτυπά για rsd_search, χρησιμοποιώντας γονιδιώματα που έχουν ήδη διαμορφωθεί για έκρηξη και μια μη προεπιλεγμένη evalue
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-γονιδίωμα = Mycobacterium_leprae.aa
--forward χτυπήματα q_s.hits --reverse χτυπήματα s_q.hits
--no φορμά --evalue 0.1
Βρείτε ορθολόγων μεταξύ όλων των αλληλουχιών στο ερώτημα και θέμα γονιδιώματα χρησιμοποιώντας γονιδιώματα που έχουν ήδη διαμορφωθεί για έκρηξη
rsd_search -q Mycoplasma_genitalium.aa
--subject-γονιδίωμα = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no φορμά
Βρείτε ορθολόγων μεταξύ όλων των αλληλουχιών στο ερώτημα και θέμα γονιδιώματα χρησιμοποιώντας επιτυχίες που έχουν ήδη υπολογιστεί. Παρατηρήστε ότι --no-μορφή περιλαμβάνεται, επειδή από τα χτυπήματα έκρηξη έχουν ήδη υπολογιστεί τα γονιδιώματα δεν πρέπει να διαμορφωθεί για έκρηξη.
rsd_search -v --query-γονιδίωμα Mycoplasma_genitalium.aa
--subject-γονιδίωμα = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward χτυπήματα q_s.hits --reverse χτυπήματα s_q.hits --no φορμά
Εύρεση ορθόλογα για ειδικές αλληλουχίες στο γονιδίωμα του ερωτήματος. Για την εύρεση ορθολόγων για λίγες μόνο ακολουθίες, χρησιμοποιώντας --no-έκρηξη-cache μπορεί να επιταχύνει τον υπολογισμό. YMMV.
παραδείγματα rsd_search -q / γονιδιώματα / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-γονιδίωμα = παραδείγματα / γονιδιώματα / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
παραδείγματα -o / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids παραδείγματα / Mycoplasma_genitalium.aa.ids.txt --no-έκρηξη-cache
Μορφές Έξοδος
Ορθολόγων μπορούν να αποθηκευτούν σε πολλές διαφορετικές μορφές, χρησιμοποιώντας την --outfmt επιλογή του rsd_search. Η προεπιλεγμένη μορφή, --outfmt -1, αναφέρεται σε --outfmt 3. Εμπνευσμένο από UniProt dat αρχεία, ένα σύνολο ορθολόγων ξεκινά με μια σειρά παραμέτρων, τότε έχει 0 ή περισσότερα ορθολόγου γραμμές, τότε έχει μια τελική γραμμή. Οι parametes είναι το όνομα του ερωτήματος του γονιδιώματος, με την επιφύλαξη όνομα του γονιδιώματος, το όριο απόκλισης, και το όριο evalue. Κάθε ορθολόγου είναι σε μια ενιαία γραμμή εγγραφή της id ερώτημα ακολουθία, την ταυτότητα αλληλουχίας, και τη μέγιστη εκτίμηση πιθανότητας απόσταση. Αυτή η μορφή μπορεί να αντιπροσωπεύσει ορθολόγων για πολλαπλά σύνολα παραμέτρων σε ένα ενιαίο αρχείο, καθώς και το σύνολο των παραμέτρων που δεν ορθολόγων. Ως εκ τούτου, είναι κατάλληλο για χρήση με rsd_search κατά τον καθορισμό πολλαπλά όρια απόκλισης και evalue.
Εδώ είναι ένα παράδειγμα που περιέχει 2 συνδυασμούς παραμέτρων, μία από τις οποίες δεν έχει ορθολόγων:
PA tLACJO tYEAS7 t0.2 t1e-15
Ή tQ74IU0 tA6ZM40 t1.7016
Ή tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 t1e-15
//
Η αρχική μορφή του RSD, --outfmt 1, παρέχεται για συμβατότητα με παλαιότερες εκδόσεις. Κάθε γραμμή περιέχει ένα ορθόλογο, εκπροσωπούνται ως ταυτότητα αλληλουχίας, το ερώτημα αναγνωριστικό ακολουθίας, και μέγιστη εκτίμηση πιθανότητας απόσταση. Μπορεί να αντιπροσωπεύουν μόνο ένα ενιαίο σύνολο ορθολόγων σε ένα αρχείο.
Παράδειγμα:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Επίσης παρέχονται για συμβατότητα προς τα πίσω είναι μια μορφή που χρησιμοποιείται εσωτερικά από Roundup (http://roundup.hms.harvard.edu/), το οποίο είναι σαν το αρχικό σχήμα RSD, εκτός από τη στήλη id ακολουθία ερώτημα πριν από το αναγνωριστικό ακολουθίας θέμα.
Παράδειγμα:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
Απαιτήσεις :
- Python
- NCBI BLAST 2.2.24
- PAML 4.4
- Kalign 2,04
Τα σχόλια δεν βρέθηκε