はじめに †
FASTAは,DNA塩基配列またはたんぱく質アミノ酸配列に対して配列アラインメントを行うソフトウェアです. 配列アラインメントを行うソフトウェアとしては,BLAST同様によく知られています.
FASTAへ入力する配列はテキストで表されており,この形式がFASTAフォーマットと呼ばれています.
ちなみに,FASTAは「ファスタ」ではなく「ファストエー」と読みます.
FASTAフォーマット †
いろいろな亜種があるみたいで,完全な文法を厳密に定義するのは難しいです. ここでは,ある一つのパターンだけを説明します.
1行目はヘッダ.2行目以後が配列データです.
ヘッダ行は">"(より大きい)で始まり,その直後に空白を入れずに配列識別するための文字列(つまり,名前)が続きます. 空白がより後はその配列についての説明です. 名前と説明は省略できます.
2行目以後はアミノ酸を1文字表記で表した配列データです. 1行当たり80文字未満とすることが推奨されており,長いものは改行されます.
複数の配列を一つのファイルにまとめるときは,ヘッダと配列データが繰り返されます.
アミノ酸一文字表記に使われるアルファベット †
特定のアミノ酸を表す ABCDEFGHIKLMNPQRSTUVWYZ*1
不明あるいは任意のアミノ酸を表す X
ギャップを表す -
例 †
>AR11_XENLA/62-162 : PS50062 LLEATEEFELRYQRAFSDLTSQLHITQD.....TAQQSFQQVMGELFRDG..........-TNWGRIVAFFSFGR ALCVESANKEMTDLL..................PRIVQWMVNYLEHT....LQPWMQENGGWEA >AR1_XENLA/81-181 : PS50062 MRAAGDEFEERFRQAFSEISTQIHVTPG.....TAYARFAEVAGSLFQGG..........-VNWGRIVAFFVFGA ALCAESVNKEMSPLL..................PRIQDWMVTYLETN....LRDWIQSNGGWNG
参考文献 †
- Rapid and sensitive protein similarity searches
Lipman DJ, Pearson WR.
Science, 227(4693):1435-41 (1985).FASTAについての論文.
- バイオインフォマティクス:ゲノム配列から機能解析へ
David W. Mount著, 岡崎康司, 坊農秀雄 監訳
第2版, メディカル・サイエンス・インターナショナル (2005)バイオインフォマティクスの教科書.11,550円と高いが,バイオインフォマティクスについて学ぶなら必携.
- FASTA | Wikipedia