Cvičenia pre biológov: Fylogenetické stromy
- Uniprot pre projekty
- Praktická ukážka tvorby stromov
- Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)
- Objavenie génu HAR1 pomocou komparatívnej genomiky
Uniprot pre projekty
- Prehľadný pohľad na proteíny, veľa linkov na iné databázy, časť vytváraná ručne
- Pozrieme sa na známy koronavírusový proteín Spike
- Nájdime ho na stránke https://www.uniprot.org/ pod názvom SPIKE_SARS2
- Pozrime si jeho stránku (vrátime sa k nej po prednáške o proteínoch)
Praktická ukážka tvorby stromov
Viacnásobné zarovnania z UCSC browsera
- V UCSC browseri môžeme získavať viacnásobné zarovnania jednotlivých
génov (nukleotidy alebo proteíny). Nasledujúci postup nemusíte
robiť, súbor je nižšie
- V UCSC browseri si pozrieme úsek ľudského genómu (verzia hg38) chr6:135,851,998-136,191,840 s génom PDE7B (phosphodiesterase 7B)
- Na modrej lište zvolíme
Tools
,Table browser
. V nastaveniach tabuliek Group:Genes and Gene Predictions
, Track:All GENCODE v 32.
, zakliknemeRegion: position
, aOutput format: CDS FASTA alignment
a stlačímeGet output
- Na ďalšej obrazovke zaklikneme
show nucleotides
, zvolímeMAF table multiz100way
a vyberieme si, ktoré organizmy chceme. V našom prípade z primátov zvolíme chimp, rhesus, bushbaby, z iných cicavcov mouse, rat, rabbit, pig, cow, dog, elephant a z ďalších organizmov opposum, platypus, chicken, stlačímeGet output
. - Výstup uložíme do súboru, necháme si iba prvú formu génu
(
ENST00000308191.11_hg38
), z mien sekvencií zmažeme spoločný začiatok (ENST00000308191.11_hg38
), prípadne celkovo prepíšeme mená na anglické názvy.
Strom metódou spájania susedov
- Otvorte si zarovnanie, ktoré vzniklo postupom vyššie s ručne upravenými menami sekvencií
- Skúsme zostaviť strom na stránke
https://www.ebi.ac.uk/jdispatcher/phylogeny/simple_phylogeny (na cvičení nefungovala)
- Distance correction: ako na prednáške, z počtu pozorovaných mutácií na evolučný čas
- Exclude gaps: vynechať všetky stĺpce s pomlčkami
- Clustering method: UPGMA predpokladá molekulárne hodiny, spájanie susedov nie
- P.I.M. vypíš aj maticu vzdialeností (% identity, pred korekciou)
- Vo výslednom strome by sme mali zmeniť zakorenenie, aby sme mali sliepku (chicken) ako outgroup
- Výsledky z programu https://www.phylogeny.fr/alacarte.cgi , ktorý
podporuje aj bootstrap:
- Výsledok s pôvodným zakorenením
- Výsledok so správnym zakorenením (chicken = outgroup)
- “Správny strom” v nastaveniach Conservation track-u v UCSC browseri podľa článku Murphy WJ et al Resolution of the early placental mammal radiation using Bayesian phylogenetics. Science 2001
- Náš strom má dosť zlých hrán: zlé postavenie hlodavcov, ale aj slona a psa. Zlé postavenie hlodavcov môže byť spôsobené long branch attraction.
- Ak chcete skúsiť zostaviť aj zarovnania, treba začať z nezarovnaných sekvencií.
Zostavili sme strom aj IQ-TREE pomocou metódy maximálnej vierohodnosti na Galaxy, viď nižšie
- modely v IQ-TREE
- výsledok
- na strom v newickovom formáte (zátvorky) použijeme vizualizáciu stromov, napr. https://phylotree.hyphy.org/ aby sme ho mohli správne zakoreniť
Stromy na Galaxy
Webstránka s veľa nástrojmi https://usegalaxy.eu/
- Obsahuje veľa bioinformatických nástrojov, ktoré môžete spúšťať
- Ale na výsledky treba niekedy dlho čakať
- V ľavom stĺpci hľadanie nástroja alebo nahrávanie dát
- V pravom stĺpci zoznam nahratých dát, bežiacich programov a hotových výsledkov (výsledky si pozriete ikonou oka alebo stiahnete ikonou diskety)
- V strede nastavenia nástroja alebo prezeranie výsledkov
- Pri serióznom používaní odporúčam vytvoriť si konto a prihlásiť sa
Pre ďalšie pokusy: nezarovnané sekvencie proteínov z rôznych organizmov:
- Sekvencie
- Nájdené pomocou BLAST v Uniprote ako homológy proteínu YCF1 z S. cerevisiae
- Zarovnáme na Galaxy pomocou muscle, strom spravíme cez rapidnj alebo IQ-tree
- Dáta nahráme ikonou Upload úplne vľavo hore, v dolnom rade tlačidiel treba dať
Paste/Fetch data
- Strom zobrazíme cez
Visualize
v hornom menu (vyžaduje prihlásenie) alebo cez phylotree. - Predpočítané výsledky
Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)
- Zobrazme si gén CLCA4
- Zapnite si štandardnú sadu track-ov (Tlačidlo
Configure
pod obrázkom, potom tlačidloDefault
v druhej sekcii stránky) - Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia.
- V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén
dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína
sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne.
- Track RefSeq a jeho subtrack RefSeq Curated treba zapnúť na pack.
- Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE. Kde bola táto histónová modifikácia v okolí génu detegovaná?
-
Všimnite si aj track ENCODE Candidate Cis-Regulatory Elements. Všimnite si jeho súvis s H3K27Ac trackom. Čo znamenajú farby v tomto tracku?
- Všimnime si track Vertebrate Multiz Alignment & Conservation (100
Species)
- v spodnej časti tracku vidíme zarovnania s rôznymi inými genómami
- v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
- v tomto tracku vidíme PhyloP, čo zobrazuje úroveň konzervovanosti danej bázy len na základe jedného stĺpca zarovnania a dva výsledky z phyloHMM phastCons, ktorý berie do úvahy aj okolité stĺpce
- Konkrétne časť Conserved elements zobrazuje konkrétne úseky, ktoré
sú najviac konzervované
- Ak chceme zistiť, koľko percent genómu tieto úseky pokrývajú, ideme na modrej lište do časti Tools->Table browser, zvolíme group Comparative genomics, track Conservation, table 100 Vert. El, region zvolíme genome (v celom genóme) a stlačíme tlačidlo Summary/statistics, dostaneme niečo takéto:
item count | 10,350,729 |
item bases | 162,179,256 (5.32%) |
item total | 162,179,256 (5.32%) |
smallest item | 1 |
average item | 16 |
biggest item | 3,732 |
smallest score | 186 |
average score | 333 |
biggest score | 1,000 |
-
- Ak by nás zaujímali iba veľmi dlhé “conserved elements”, v Table browser stlačíme tlačidlo Filter a na ďalšej obrazovke do políčka Free-form query dáme chromEnd-chromStart>=1500
- Potom môžeme skúsiť Summary/Statistics alebo výstup typu Hyperlinks to genome browser a Get output - dostaneme zoznam týchto elementov a každý si môžeme jedným klikom pozrieť v browseri, napr. takéto
- Pozrime si teraz ten istý gén CLCA4 v staršej verzii genómu hg18
- V časti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktorý obsahuje gény s pozitívnym výberom (červenou, prípadne slabšie fialovou a modrou)
- Keď kliknete na červený obdĺžnik pre tento gén, uvidíte, v ktorých častiach fylogenetického stromu bol detegovaný pozitívny výber
- Po priblížení do jedného z exónov vidíte dôsledky nesynonymných mutácií
Poznámka: Existujú aj webservery na predikciu pozitívneho výberu, napríklad tieto dva (v súčasnosti Selecton asi nefunguje):
- Selecton, článok
- Data monkey, článok
- Skúsili sme na Selecton poslať CLCA4 zo 7 cicavcov
- výsledky a ich pokračovanie (metóda ale odporúča aspoň 10 homologov)
- Nástroj HyPhy
- výber metódy
- niektoré HyPhy nástroje sa nachádzajú v Galaxy
Objavenie génu HAR1 pomocou komparatívnej genomiky
- Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
- Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutácií v človeku, ale málo inde (pravdepodobnostný model)
- 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
- Najvýznamnejší HAR1: 118nt, 18 substitúcií u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
- Nezdá sa byť polymorfný u človeka
- Prekrývajúce sa RNA gény HAR1A a HAR1B
- HAR1A je exprimovaný v neokortexe u 7 a 9 týždňových embryí, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
- Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácií kvôli rekombinácii a javu biased gene conversion)
Cvičenie pri počítači
- Môžete si pozrieť tento región v browseri: chr20:63102114-63102274 (hg38), pričom ak sa ešte priblížite, uvidíte zarovnanie aj s bázami a môžete vidieť, že veľa zmien je špecifických pre človeka