Cvičenia pre biológov: Fylogenetické stromy
Praktická ukážka tvorby stromov
Viacnásobné zarovnania z UCSC browsera
- V UCSC browseri môžeme získavať viacnásobné zarovnania jednotlivých
génov (nukleotidy alebo proteíny). Nasledujúci postup nemusíte
robiť, súbor je nižšie
- V UCSC browseri si pozrieme úsek ľudského genómu (verzia hg38) chr6:135,851,998-136,191,840 s génom PDE7B (phosphodiesterase 7B)
- Na modrej lište zvolíme
Tools,Table browser. V nastaveniach tabuliek Group:Genes and Gene Predictions, Track:All GENCODE v 49., zakliknemeRegion: position, aOutput format: CDS FASTA alignmenta stlačímeGet output - Na ďalšej obrazovke zaklikneme
show nucleotides, zvolímeMAF table multiz100waya vyberieme si, ktoré organizmy chceme. V našom prípade z primátov zvolíme chimp, rhesus, bushbaby, z iných cicavcov mouse, rat, rabbit, pig, cow, dog, elephant a z ďalších organizmov opposum, platypus, chicken, stlačímeGet output. - Výstup uložíme do súboru, necháme si iba prvú formu génu
(
ENST00000308191.11_hg38), z mien sekvencií zmažeme spoločný začiatok (ENST00000308191.11_hg38) a celkovo prepíšeme skratky druhov na anglické názvy. - Výsledné zarovnanie
- Podobný postup sme ešte spravili s génom EFL1, transkript ENST00000891314.1, výsledné zarovnanie
Strom metódou spájania susedov
- So zarovnaniami vyššie skúsme zostaviť strom na stránke
https://www.ebi.ac.uk/jdispatcher/phylogeny/simple_phylogeny
- Distance correction: ako na prednáške, z počtu pozorovaných mutácií na evolučný čas - zapneme
- Exclude gaps: vynechať všetky stĺpce s pomlčkami - radšej nie
- Clustering method: UPGMA predpokladá molekulárne hodiny, spájanie susedov nie
- P.I.M. vypíš aj maticu vzdialeností (% identity, pred korekciou)
- Vo výslednom strome by sme mali zmeniť zakorenenie, aby sme mali sliepku (chicken) ako outgroup (kliknutím na sliepku a voľbou v menu)
- Výsledky pre prvé zarovnanie z programu https://www.phylogeny.fr/alacarte.cgi , ktorý
podporuje aj bootstrap:
- Výsledok s pôvodným zakorenením
- Výsledok so správnym zakorenením (chicken = outgroup)
- “Správny strom” v nastaveniach Conservation track-u v UCSC browseri podľa článku Murphy WJ et al Resolution of the early placental mammal radiation using Bayesian phylogenetics. Science 2001
- Náš strom má dosť zlých hrán: zlé postavenie hlodavcov, ale aj slona a psa. Zlé postavenie hlodavcov môže byť spôsobené long branch attraction.
- Ak chcete skúsiť zostaviť aj zarovnania, treba začať z nezarovnaných sekvencií
Zostavili sme strom aj IQ-TREE pomocou metódy maximálnej vierohodnosti na Galaxy, viď nižšie
- modely v IQ-TREE
- výsledok
- na strom v newickovom formáte (zátvorky) použijeme vizualizáciu stromov, napr. https://phylotree.hyphy.org/ aby sme ho mohli správne zakoreniť
Stromy na Galaxy
Webstránka s veľa nástrojmi https://usegalaxy.eu/
- Obsahuje veľa bioinformatických nástrojov, ktoré môžete spúšťať
- Ale na výsledky treba niekedy dlho čakať
- V ľavom stĺpci hľadanie nástroja alebo nahrávanie dát
- V pravom stĺpci zoznam nahratých dát, bežiacich programov a hotových výsledkov (výsledky si pozriete ikonou oka alebo stiahnete ikonou diskety)
- V strede nastavenia nástroja alebo prezeranie výsledkov
- Pri serióznom používaní odporúčam vytvoriť si konto a prihlásiť sa
Pre ďalšie pokusy: nezarovnané sekvencie proteínov z rôznych organizmov:
- Sekvencie
- Nájdené pomocou BLAST v Uniprote ako homológy proteínu YCF1 z S. cerevisiae
- Zarovnáme na Galaxy pomocou muscle, strom spravíme cez rapidnj alebo IQ-tree
- Dáta nahráme ikonou Upload úplne vľavo hore, v dolnom rade tlačidiel treba dať
Paste/Fetch data - Strom zobrazíme ikonkou grafu alebo cez phylotree.
- Predpočítané výsledky