reciprocal_smallest_distance er en parvise orthology algoritme, der anvender globale sekvensalignment og maksimal sandsynlighed evolutionær afstand mellem sekvenser nøjagtigt registrerer ortologer mellem genomer.
Installation fra et tar-arkiv
Hent og untar den nyeste version fra GitHub:
CD ~
krøller -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Tar xvz
Installer reciprocal_smallest_distance, og sørg for at bruge Python 2.7:
cd reciprocal_smallest_distance-VERSION
python setup.py installere
Brug RSD at finde Othologs
Det følgende eksempel kommandoer demonstrerer de vigtigste måder at køre rsd_search. Hver aktivering af rsd_search kræver angivelse af placeringen af en FASTA-formateret sekvens fil to genomer, kaldet forespørgslen og underlagt genomer. Deres ordre er vilkårlig, men hvis du bruger --ids mulighed, skal de ids komme fra forespørgslen genomet. Du skal også angive en fil til at skrive resultaterne af orthologer fundet af RSD algoritmen. Formatet af uddatafilen indeholder én ortolog per linje. Hver linie indeholder forespørgslen sekvens id forbehold sekvens id og distance (beregnet ved codeml) mellem sekvenserne. Du kan eventuelt angive en fil, der indeholder id'er ved hjælp af --ids mulighed. Derefter RSD vil kun søge efter ortologer for disse ID'er. Brug --divergence og --evalue, har du mulighed for at bruge forskellige tærskler fra standardindstillingerne.
Få hjælp til at køre rsd_search, rsd_blast eller rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Find ortologer mellem alle sekvenserne i forespørgslen og underlagt genomer, ved hjælp af standard afvigelse og Evalue tærskler
rsd_search -q eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genom = eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Find ortologer hjælp af flere ikke-standard divergens og Evalue tærskler
rsd_search -q eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genom = eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0.2 1e-20 --de .5 0,00001 --de 0,8 0,1
Det er ikke nødvendigt at formatere en FASTA fil til BLAST eller beregne BLAST hits fordi rsd_search gør det for dig.
Men hvis du har planer om at køre rsd_search flere gange for de samme genomer, især for store genomer, kan du spare tid ved at bruge rsd_format at preformatting FASTA filer og rsd_blast at forudberegne BLAST hits. Når du kører rsd_blast, så sørg for at bruge en --evalue så stor som den største Evalue tærskel du agter at give til rsd_search.
Her er hvordan du formaterer et par FASTA filer på plads:
rsd_format -G eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -G eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
Og her er, hvordan du formaterer FastA filer, sætte resultaterne i en anden mappe (den aktuelle mappe i dette tilfælde)
rsd_format -G eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -D.
rsd_format -G eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -D.
Her er, hvordan man beregne frem og bak blast hits (med standard Evalue):
rsd_blast -v -q eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genom = eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-hits q_s.hits --reverse-hits s_q.hits
Her er, hvordan man beregne frem og bak blast hits for rsd_search hjælp genomer, der allerede er formateret til blast og en ikke-standard Evalue
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-genomet = Mycobacterium_leprae.aa
--forward-hits q_s.hits --reverse-hits s_q.hits
--no-format --evalue 0,1
Find ortologer mellem alle sekvenserne i forespørgslen og er omfattet genomer ved hjælp af genomer, der allerede er formateret til blast
rsd_search -q Mycoplasma_genitalium.aa
--subject-genomet = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no-format
Find ortologer mellem alle sekvenserne i forespørgslen og er omfattet genomer ved hjælp af hits, der allerede er blevet beregnet. Bemærk at --no-format er inkluderet, fordi da de blast hits allerede er beregnet genomer skal ikke formateres til blast.
rsd_search -v --query-genomet Mycoplasma_genitalium.aa
--subject-genomet = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-hits q_s.hits --reverse-hits s_q.hits --no-format
Find ortologer for specifikke sekvenser i forespørgslen genomet. For at finde ortologer for kun nogle få sekvenser, ved hjælp --no-blast-cache kan fremskynde beregning. YMMV.
rsd_search -q eksempler / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genom = eksempler / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o eksempler / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids eksempler / Mycoplasma_genitalium.aa.ids.txt --no-blast-cache
formater
Ortologer kan gemmes i flere forskellige formater ved hjælp af --outfmt mulighed for rsd_search. Standardformatet, --outfmt -1 henviser til --outfmt 3. inspireret af UniProt DAT filer, et sæt ortologer starter med en parametre linje, så har 0 eller flere ortholog linjer, har en ende linje. De parametes er forespørgslen genom navn, emne genom navn, divergens tærskel, og Evalue tærskel. Hver ortolog er på en enkelt linje notering søgesekvensen id, emnet sekvens id, og den maksimale skøn sandsynlighed afstand. Dette format kan repræsentere ortologer for flere sæt parametre i en enkelt fil, samt sæt af parametre uden ortologer. Derfor er det velegnet til brug med rsd_search når der angives flere divergens og Evalue tærskler.
Her er et eksempel indeholdende 2 parameterkombinationer, hvoraf den ene har ingen ortologer:
PA tLACJO tYEAS7 t0.2 t1e-15
OR tQ74IU0 tA6ZM40 t1.7016
OR tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 t1e-15
//
Den oprindelige format RSD, --outfmt 1, er fastsat for bagudkompatibilitet. Hver linje indeholder en ortolog, repræsenteret som emne sekvens id, query sekvens id, og maksimal skøn sandsynlighed afstand. Det kan kun være et enkelt sæt ortologer i en fil.
Eksempel:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Også for bagudkompatibilitet er et format, der bruges internt af Roundup (http://roundup.hms.harvard.edu/), som er ligesom den originale RSD format, undtagen søgesekvensen id kolonnen før emnet sekvens id.
Eksempel:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
Krav :
- Python
- NCBI BLAST 2.2.24
- PAML 4.4
- Kalign 2.04
Kommentarer ikke fundet