バイオ・データ・マイニング/BLASTで相同性検索を行うのバックアップ(No.4)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
バイオ・データ・マイニング/BLASTで相同性検索を行うへ行く。
- 1 (2014-10-16 (木) 00:05:04)
- 2 (2014-10-16 (木) 09:00:35)
- 3 (2014-10-16 (木) 19:32:47)
- 4 (2014-10-17 (金) 07:37:08)
- 5 (2014-10-17 (金) 10:54:49)
- 6 (2014-10-19 (日) 13:19:34)
- 7 (2014-10-24 (金) 06:15:50)
- 8 (2020-10-21 (水) 13:01:43)
- 9 (2020-10-21 (水) 13:02:52)

このページはまだ書きかけです．

はじめに †

ここでは，BLASTを使って相同性検索を行います．

↑

相同性検索 †

DNAやタンパク質が進化的に共通の祖先を持つものを相同体 (homologue) といい，DNAやタンパク質が進化的に共通の祖先を持つことを相同性 (homology) といいます．

DNAデータベースの中からクエリーとして与えられた塩基配列の相同体を見つける，あるいは，タンパク質データベースの中からクエリーとして与えられたアミノ酸配列の相同体を見つけることを相同性検索といいます．

↑

BLAST †

BLASTは配列をクエリーとして相同性検索を行うツールです．

BLASTには，DNAの塩基配列をクエリーとして塩基配列を検索するblastn，タンパク質のアミノ酸配列をクエリーとしてアミノ酸配列を検索するblastp，DNAの塩基配列をクエリーとして（それを翻訳して）アミノ酸配列を検索するblastxなどが含まれています．

ここでは，タンパク質のアミノ酸配列をクエリーとしてアミノ酸配列を検索するblastpを対象にします．

↑

相同性検索の仕組み †

BLASTは，まず，クエリーとして与えられたタンパク質のアミノ酸配列を3文字ずつ（DNAの塩基配列9文字分相当）に分割します．情報科学の分野では n-gram と呼ばれている技術の n=3 のときと同じです．

たとえば，CDEFGHI というクエリー配列が与えられると，これを CDE, DEF, EFG, FGH, GHI という長さ3の部分文字列に分解します．

次に，アミノ酸置換確率行列に基づいて，生成した部分文字列の類似文字列を作成します．

たとえば，アミノ酸 I はアミノ酸 V と類似している（置換される確率が高い）とき，GHI の I を V に置換したGHV を類似文字列として作成します．

部分文字列または類似文字列に一致する個所を，タンパク質データベースのアミノ酸配列の中から探し，一致した度合いに基づいて評価値 E-value を計算します．部分文字列が一致するかどうかには有限オートマトンが使われています．

↑

E-value †

検索対象のデータベースにおいて，クエリー配列が偶然に一致するタンパク質の数の期待値を E-value といいます．

まず，検索対称のタンパク質データベースに出現するアミノ酸の数をカウントします．これによって，各アミノ酸が独立に出現すると仮定したときの出現確率が求まります．ここから，各アミノ酸が独立に出現すると仮定したときにあるアミノ酸配列が偶然に生起する確率が求まります．

各アミノ酸が独立に出現するときにランダムに生成したアミノ酸配列のアラインメントのスコアの分布は，Gumbel分布（極値分布のひとつ）になることが分かっています．そこで，Gumbel分布の上でスコアが [math]S[/math] 以上になる確率を求め，それにクエリー配列の長さ [math]m[/math] とデータベースのサイズ [math]n[/math] を乗じることによって，ランダムに生成されたスコア [math]S[/math] 以上のアミノ酸配列の数の期待値を求めます（実際には手順が違います）．

これが E-value です．

したがって，同じタンパク質データベースの中で比較すると，E-valueの値は小さい方が良い（偶然に一致するタンパク質の数少ない）です．

↑