Uniprot pre projekty

  • Prehľadný pohľad na proteíny, veľa linkov na iné databázy, časť vytváraná ručne
  • Pozrieme sa na známy koronavírusový proteín Spike
    • Nájdime ho na stránke https://www.uniprot.org/ pod názvom SPIKE_SARS2
    • Pozrime si jeho stránku (vrátime sa k nej po prednáške o proteínoch)

Praktická ukážka tvorby stromov

Viacnásobné zarovnania z UCSC browsera

  • V UCSC browseri môžeme získavať viacnásobné zarovnania jednotlivých génov (nukleotidy alebo proteíny). Nasledujúci postup nemusíte robiť, súbor je nižšie
    • V UCSC browseri si pozrieme úsek ľudského genómu (verzia hg38) chr6:135,851,998-136,191,840 s génom PDE7B (phosphodiesterase 7B)
    • Na modrej lište zvolíme Tools, Table browser. V nastaveniach tabuliek Group: Genes and Gene Predictions, Track: All GENCODE v 32., zaklikneme Region: position, a Output format: CDS FASTA alignment a stlačíme Get output
    • Na ďalšej obrazovke zaklikneme show nucleotides, zvolíme MAF table multiz100way a vyberieme si, ktoré organizmy chceme. V našom prípade z primátov zvolíme chimp, rhesus, bushbaby, z iných cicavcov mouse, rat, rabbit, pig, cow, dog, elephant a z ďalších organizmov opposum, platypus, chicken, stlačíme Get output.
    • Výstup uložíme do súboru, necháme si iba prvú formu génu (ENST00000308191.11_hg38), z mien sekvencií zmažeme spoločný začiatok (ENST00000308191.11_hg38), prípadne celkovo prepíšeme mená na anglické názvy.

Strom metódou spájania susedov

Zostavili sme strom aj IQ-TREE pomocou metódy maximálnej vierohodnosti na Galaxy, viď nižšie

Stromy na Galaxy

Webstránka s veľa nástrojmi https://usegalaxy.eu/

  • Obsahuje veľa bioinformatických nástrojov, ktoré môžete spúšťať
  • Ale na výsledky treba niekedy dlho čakať
  • V ľavom stĺpci hľadanie nástroja alebo nahrávanie dát
  • V pravom stĺpci zoznam nahratých dát, bežiacich programov a hotových výsledkov (výsledky si pozriete ikonou oka alebo stiahnete ikonou diskety)
  • V strede nastavenia nástroja alebo prezeranie výsledkov
  • Pri serióznom používaní odporúčam vytvoriť si konto a prihlásiť sa

Pre ďalšie pokusy: nezarovnané sekvencie proteínov z rôznych organizmov:

  • Sekvencie
  • Nájdené pomocou BLAST v Uniprote ako homológy proteínu YCF1 z S. cerevisiae
  • Zarovnáme na Galaxy pomocou muscle, strom spravíme cez rapidnj alebo IQ-tree
  • Dáta nahráme ikonou Upload úplne vľavo hore, v dolnom rade tlačidiel treba dať Paste/Fetch data
  • Strom zobrazíme cez Visualize v hornom menu (vyžaduje prihlásenie) alebo cez phylotree.
  • Predpočítané výsledky

Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)

  • Zobrazme si gén CLCA4
  • Zapnite si štandardnú sadu track-ov (Tlačidlo Configure pod obrázkom, potom tlačidlo Default v druhej sekcii stránky)
  • Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia.
  • V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne.
    • Track RefSeq a jeho subtrack RefSeq Curated treba zapnúť na pack.
  • Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE. Kde bola táto histónová modifikácia v okolí génu detegovaná?
  • Všimnite si aj track ENCODE Candidate Cis-Regulatory Elements. Všimnite si jeho súvis s H3K27Ac trackom. Čo znamenajú farby v tomto tracku?

  • Všimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
    • v spodnej časti tracku vidíme zarovnania s rôznymi inými genómami
    • v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
    • v tomto tracku vidíme PhyloP, čo zobrazuje úroveň konzervovanosti danej bázy len na základe jedného stĺpca zarovnania a dva výsledky z phyloHMM phastCons, ktorý berie do úvahy aj okolité stĺpce
  • Konkrétne časť Conserved elements zobrazuje konkrétne úseky, ktoré sú najviac konzervované
    • Ak chceme zistiť, koľko percent genómu tieto úseky pokrývajú, ideme na modrej lište do časti Tools->Table browser, zvolíme group Comparative genomics, track Conservation, table 100 Vert. El, region zvolíme genome (v celom genóme) a stlačíme tlačidlo Summary/statistics, dostaneme niečo takéto:
item count10,350,729
item bases162,179,256 (5.32%)
item total162,179,256 (5.32%)
smallest item1
average item16
biggest item3,732
smallest score186
average score333
biggest score1,000
    • Ak by nás zaujímali iba veľmi dlhé “conserved elements”, v Table browser stlačíme tlačidlo Filter a na ďalšej obrazovke do políčka Free-form query dáme chromEnd-chromStart>=1500
    • Potom môžeme skúsiť Summary/Statistics alebo výstup typu Hyperlinks to genome browser a Get output - dostaneme zoznam týchto elementov a každý si môžeme jedným klikom pozrieť v browseri, napr. takéto
  • Pozrime si teraz ten istý gén CLCA4 v staršej verzii genómu hg18
    • V časti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktorý obsahuje gény s pozitívnym výberom (červenou, prípadne slabšie fialovou a modrou)
    • Keď kliknete na červený obdĺžnik pre tento gén, uvidíte, v ktorých častiach fylogenetického stromu bol detegovaný pozitívny výber
    • Po priblížení do jedného z exónov vidíte dôsledky nesynonymných mutácií

Poznámka: Existujú aj webservery na predikciu pozitívneho výberu, napríklad tieto dva (v súčasnosti Selecton asi nefunguje):

Objavenie génu HAR1 pomocou komparatívnej genomiky

  • pdf
  • Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
  • Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutácií v človeku, ale málo inde (pravdepodobnostný model)
  • 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
  • Najvýznamnejší HAR1: 118nt, 18 substitúcií u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
  • Nezdá sa byť polymorfný u človeka
  • Prekrývajúce sa RNA gény HAR1A a HAR1B
  • HAR1A je exprimovaný v neokortexe u 7 a 9 týždňových embryí, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
  • Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácií kvôli rekombinácii a javu biased gene conversion)

Cvičenie pri počítači

  • Môžete si pozrieť tento región v browseri: chr20:63102114-63102274 (hg38), pričom ak sa ešte priblížite, uvidíte zarovnanie aj s bázami a môžete vidieť, že veľa zmien je špecifických pre človeka