Gény, evolúcia a komparatívna genomika v UCSC genome browseri (cvičenie pri počítači)

  • Zobrazme si gén CLCA4
  • Zapnite si štandardnú sadu track-ov (Tlačidlo Configure pod obrázkom, potom tlačidlo Default v druhej sekcii stránky)
  • Po kliknutí na gén si môžete prečítať o jeho funkcii, po kliknutí na ľavú lištu alebo na názov tracku v zozname na spodku stránky si môžete prečítať viac o tracku a meniť nastavenia.
  • V tracku RefSeq genes si všimnite, že v tejto databáze má tento gén dve formy zostrihu, jedna z nich sa považuje za nekódujúcu, pretína sa aj s necharakterizovanou nekódujúcou RNA na opačnom vlákne.
    • Track RefSeq a jeho subtrack RefSeq Curated treba zapnúť na pack.
  • Nižšie vidíte track H3K27Ac Mark (Often Found Near Regulatory Elements) on 7 cell lines from ENCODE. Kde bola táto histónová modifikácia v okolí génu detegovaná?
  • Všimnite si aj track ENCODE Candidate Cis-Regulatory Elements. Všimnite si jeho súvis s H3K27Ac trackom. Čo znamenajú farby v tomto tracku?

  • Všimnime si track Vertebrate Multiz Alignment & Conservation (100 Species)
    • v spodnej časti tracku vidíme zarovnania s rôznymi inými genómami
    • v nastaveniach tracku zapnite Element Conservation (phastCons) na full a Conserved Elements na dense
    • v tomto tracku vidíme PhyloP, čo zobrazuje úroveň konzervovanosti danej bázy len na základe jedného stĺpca zarovnania a dva výsledky z phyloHMM phastCons, ktorý berie do úvahy aj okolité stĺpce
  • Konkrétne časť Conserved elements zobrazuje konkrétne úseky, ktoré sú najviac konzervované
    • Ak chceme zistiť, koľko percent genómu tieto úseky pokrývajú, ideme na modrej lište do časti Tools->Table browser, zvolíme group Comparative genomics, track Conservation, table 100 Vert. El, region zvolíme genome (v celom genóme) a stlačíme tlačidlo Summary/statistics, dostaneme niečo takéto:
item count10,350,729
item bases162,179,256 (5.32%)
item total162,179,256 (5.32%)
smallest item1
average item16
biggest item3,732
smallest score186
average score333
biggest score1,000
    • Ak by nás zaujímali iba veľmi dlhé “conserved elements”, v Table browser stlačíme tlačidlo Filter a na ďalšej obrazovke do políčka Free-form query dáme chromEnd-chromStart>=1500
    • Potom môžeme skúsiť Summary/Statistics alebo výstup typu Hyperlinks to genome browser a Get output - dostaneme zoznam týchto elementov a každý si môžeme jedným klikom pozrieť v browseri, napr. takéto
  • Pozrime si teraz ten istý gén CLCA4 v staršej verzii genómu hg18
    • V časti Genes and Gene Prediction Tracks zapnite track Pos Sel Genes, ktorý obsahuje gény s pozitívnym výberom (červenou, prípadne slabšie fialovou a modrou)
    • Keď kliknete na červený obdĺžnik pre tento gén, uvidíte, v ktorých častiach fylogenetického stromu bol detegovaný pozitívny výber
    • Po priblížení do jedného z exónov vidíte dôsledky nesynonymných mutácií

Poznámka: Existujú aj webservery na predikciu pozitívneho výberu, napríklad tieto dva (v súčasnosti Selecton asi nefunguje):

Objavenie génu HAR1 pomocou komparatívnej genomiky

  • Pollard, K.S., Salama, S.R., Lambert, N., Lambot, M.A., Coppens, S., Pedersen, J.S., Katzman, S., King, B., Onodera, C., Siepel, A. and Kern, A.D., 2006. An RNA gene expressed during cortical development evolved rapidly in humans. Nature, 443(7108), pp.167-172.
  • Zobrali všetky regióny dĺžky aspoň 100bp s > 96% podobnosťou medzi šimpanzom a myšou/potkanom (35,000)
  • Porovnali s ostatnými cicavcami, zistili, ktoré majú veľa mutácií v človeku, ale málo inde (pravdepodobnostný model)
  • 49 štatisticky významných regiónov, 96% nekódujúcich oblastiach
  • Najvýznamnejší HAR1: 118nt, 18 substitúcií u človeka, očakávali by sme 0.27. Iba 2 zmeny medzi šimpanzom a sliepkou (310 miliónov rokov), ale nebol nájdený v rybách a žabe.
  • Nezdá sa byť polymorfný u človeka
  • Prekrývajúce sa RNA gény HAR1A a HAR1B
  • HAR1A je exprimovaný v neokortexe u 7 a 9 týždňových embryí, neskôr aj v iných častiach mozgu (u človeka aj iných primátov)
  • Všetky substitúcie v človeku A/T->C/G, stabilnejšia RNA štruktúra (ale tiež sú blízko k telomére, kde je viacej takýchto mutácií kvôli rekombinácii a javu biased gene conversion)

Cvičenie pri počítači

  • Môžete si pozrieť tento región v browseri: chr20:63102114-63102274 (hg38), pričom ak sa ešte priblížite, uvidíte zarovnanie aj s bázami a môžete vidieť, že veľa zmien je špecifických pre človeka