Cvičenie pre biológov: Úvod do pravdepodobnosti
- Príklad 1: hod kockou
- Príklad 2: Dva hody kockou
- Stredná hodnota E(X)
- Pravdepodobnostný model náhodnej sekvencie
- Použitie pravdepodobnosti na analýzu potrebného pokrytia pri sekvenovaní
- Myšlienkový experiment, v ktorom vystupuje náhoda, napr. hod ideálnou kockou/korunou
- Výsledkom experimentu je nejaká hodnota (napr. číslo, alebo aj niekoľko čísel, reťazec)
- Túto neznámu hodnotu budeme volať náhodná premenná
- Zaujíma nás pravdepodobnosť, s akou náhodná premenná nadobúda jednotlivé možné hodnoty
- T.j. ak experiment opakujeme veľa krát, ako často uvidíme nejaký výsledok
Príklad 1: hod kockou
Hodíme idealizovanou kockou, premenná X bude hodnota, ktorú dostaneme
- Možné hodnoty 1,2,..,6, každá rovnako pravdepodobná
- Píšeme napr. $\Pr(X=2)=1/6$
Príklad 2: Dva hody kockou
Hodíme 2x kockou, náhodná premenná X bude súčet hodnôt, ktoré dostaneme
- Možné hodnoty: 2,3,…,12
- Každá dvojica hodnôt (1,1), (1,2),…,(6,6) na kocke rovnako pravdepodobná, t.j. pravdepodobnosť 1/36
- Súčet 5 môžeme dostať 1+4,2+3,3+2,4+1 - t.j. Pr(X=5) = 4/36
- Súčet 11 môžeme dostať 5+6 alebo 6+5, t.j. Pr(X=11) = 2/36
- Rozdelenie pravdepodobnosti: (tabuľka udávajúca pravdepodobnosť pre každú možnú hodnotu)
hodnota k: 2 3 4 5 6 7 8 9 10 11 12
Pr(X=k): 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
- Overte, ze súčet pravdepodobností je 1
Stredná hodnota E(X)
- priemer z možných hodnôt váhovaných ich pravdepodobnosťami
- v našom príklade $E(X) = 2\cdot \frac{1}{36} + 3\cdot \frac{2}{36}+ 4\cdot \frac{3}{36}+ 5\cdot \frac{4}{36}+ 6\cdot \frac{5}{36}+ 7\cdot \frac{6}{36}+ 8\cdot \frac{5}{36}+ 9\cdot \frac{4}{36}+ 10\cdot \frac{3}{36}+ 11\cdot \frac{2}{36}+ 12\cdot \frac{1}{36}=7$
- Ak by sme experiment opakovali veľa krát a zrátali priemer hodnôt X, ktoré nám vyšli, dostali by sme číslo blízke E(X)
- Iný výpočet strednej hodnoty:
- $X=X_1+X_2$, kde $X_1$ je hodnota na prvej kocke a $X_2$ je hodnota na druhej kocke
- $E(X_1) = 1\cdot \frac{1}{6} + … + 6\cdot \frac{1}{6} = 3.5$, podobne aj $E(X_2) = 3.5$
- Platí, že $E(X_1+X_2)=E(X_1) + E(X_2)$ a teda $E(X) = 3.5 + 3.5 = 7$
- Pozor, pre súčin a iné funkcie takéto vzťahy platiť nemusia, napr. $E(X_1 \cdot X_2)$ nie je vždy $E(X_1) \cdot E(X_2)$
Pravdepodobnostný model náhodnej sekvencie
- Napríklad chceme modelovať náhodnú DNA sekvenciu dĺžky n s obsahom GC 40%
- Máme vrece s guľôčkami označenými A,C,G,T, pričom guľôčok označených A je 30%, C 20%, G 20% a T 30%.
-
Vytiahneme guľôčku, zapíšeme si písmeno, hodíme ju naspäť, zamiešame a opakujeme s ďalším písmenom atď, až kým nevygenerujeme n písmen
- Vytiahnime z mechu 2x guľôčku. Prvé písmeno, ktoré nám vyjde, označme $X_1$ a druhé $X_2$
- $\Pr(X_1=A) = 0.3$, $\Pr(X_2=C)=0.2$
- $\Pr(X_1=A\mbox{ a }X_2=C) = \Pr(X_1=A)\cdot \Pr(X_2=C) = 0.3\cdot 0.2 = 0.06$
- T.j. šanca, že dostaneme sekvenciu AC po dvoch ťahoch je 6%
- Ak rátame pravdepodobnosť, že sa dve nezávislé udalosti stanú súčasne, ich pravdepodobnosti násobíme. V tomto prípade to, či $X_1=A$ je nezávislé od toho, či $X_2=C$
- $\Pr(X_1\mbox{ je A alebo C}) = \Pr(X_1=A)+\Pr(X_1=C) = 0.3+0.2 = 0.5$
- Pravdepodobnosť, že prvé písmeno bude A alebo C je 50%
- Pravdepodobnosti navzájom sa vylučujúcich udalostí ($X_1=A$ a $X_1=C$) sa môžu sčítať, čím dostaneme pravdepodobnosť, že aspoň jedna z nich nastane
- $\Pr(\mbox{v sekvencii je aspoň jedno A}) = \Pr(X_1=A\mbox{ alebo }X_2=A)$ nemôžeme počítať ako $\Pr(X_1=A)+\Pr(X_2=A)$, lebo sa navzájom nevylučujú a prípad, že $X_1=A$ a $X_2=A$ by sme započítali dvakrát
- Správne je $\Pr(X_1=A \,\mathrm{alebo}\, X_2=A)$ $= \Pr(X_1=A) + \Pr(X_1 \ne A \,\mathrm{a}\, X_2=A)$ $= \Pr(X_1=A) + \Pr(X_1 \ne A) \cdot \Pr(X_2=A)$ $= 0.3+0.7\cdot 0.3 = 0.51$
- $\Pr(X_1=X_2) = \Pr(X_1=X_2=A) + \Pr(X_1=X_2=C) + \Pr(X_1=X_2=G) + \Pr(X_1=X_2=T)$ $= 0.3\cdot 0.3+0.2\cdot 0.2+0.2\cdot 0.2+0.3\cdot 0.3 = 0.26$
- Ak u označíme pravdepodobnosť $u = \Pr(X_1=A)=\Pr(X_1=T)=\Pr(X_2=A)=\Pr(X_2=T)$ a $v=\Pr(X_1=C)=\Pr(X_1=G)=\Pr(X_2=C)=\Pr(X_2=G)$, aký bude vzorec pre $\Pr(X_1=X_2)$?
Príklad použitia modelu
Máme krátky primer AACAT. Koľko bude mať v priemere výskytov v sekvencii dĺžky 1000 v našom modeli?
- Pravdepodobnosť, ze AACAT je v náhodnej sekvencii hneď na začiatku je $\Pr(X_1=A\mbox{ a }X_2=A\mbox{ a }X_3=C\mbox{ a }X_4=A\mbox{ a }X_5=A)$ $= 0.3\cdot 0.3\cdot 0.2\cdot 0.3\cdot 0.3 = 0.00162$
- Rovnaká pravdepodobnosť aj na pozícii 2,3,…,996
- Nech V je počet výskytov v celej sekvencii (náhodná premenná s možnými hodnotami 0,1,…,996, aj keď napr. 996 to určite nemôže byť)
- Ideálne by sme chceli spočítať celú tabuľku pravdepodobností pre $V$, ale uspokojíme sa aj so strednou hodnotou $E(V)$
- Nech $V_i$ je počet výskytov na pozícii i ($V_i$ je vždy 0 alebo 1)
- $V = V_1+V_2+\dots+V_{996} = \sum_{i=1}^{996} V_i$
- $E(V) = E(V_1)+E(V_2)+\dots+E(V_{996}) = 996 E(V_1)$
- $E(V_1) = 0\cdot \Pr(V_1=0)+1\cdot \Pr(V_1=1) = \Pr(V_1=1) = 0.00162$
- $E(V) = 996\cdot 0.00162 = 1.61352$
- Takže primer AACAT sa bude v náhodnej sekvencii dĺžky 1000 s 40% obsahom GC vyskytovať v priemere cca 1,6 krát
- Primery bývajú dlhšie, takže šanca náhodných výskytov je oveľa menšia, čo je to, čo vačšinou chceme (chceme primer cieliť na konkrétnu pozíciu, nie na veľa náhodných zhôd)