FASTAフォーマット

2011-02-04 (金) 18:59:29 (2452d) | Topic path: Top / バイオ・データ・マイニング / FASTAフォーマット

はじめに

FASTAは,DNA塩基配列またはたんぱく質アミノ酸配列に対して配列アラインメントを行うソフトウェアです. 配列アラインメントを行うソフトウェアとしては,BLAST同様によく知られています.

FASTAへ入力する配列はテキストで表されており,この形式がFASTAフォーマットと呼ばれています.

ちなみに,FASTAは「ファスタ」ではなく「ファストエー」と読みます.

FASTAフォーマット

いろいろな亜種があるみたいで,完全な文法を厳密に定義するのは難しいです. ここでは,ある一つのパターンだけを説明します.

1行目はヘッダ.2行目以後が配列データです.

ヘッダ行は">"(より大きい)で始まり,その直後に空白を入れずに配列識別するための文字列(つまり,名前)が続きます. 空白がより後はその配列についての説明です. 名前と説明は省略できます.

2行目以後はアミノ酸1文字表記で表した配列データです. 1行当たり80文字未満とすることが推奨されており,長いものは改行されます.

複数の配列を一つのファイルにまとめるときは,ヘッダと配列データが繰り返されます.

アミノ酸一文字表記に使われるアルファベット

特定のアミノ酸を表す ABCDEFGHIKLMNPQRSTUVWYZ*1

不明あるいは任意のアミノ酸を表す X

ギャップを表す -

>AR11_XENLA/62-162 : PS50062
LLEATEEFELRYQRAFSDLTSQLHITQD.....TAQQSFQQVMGELFRDG..........-TNWGRIVAFFSFGR
ALCVESANKEMTDLL..................PRIVQWMVNYLEHT....LQPWMQENGGWEA
>AR1_XENLA/81-181 : PS50062
MRAAGDEFEERFRQAFSEISTQIHVTPG.....TAYARFAEVAGSLFQGG..........-VNWGRIVAFFVFGA
ALCAESVNKEMSPLL..................PRIQDWMVTYLETN....LRDWIQSNGGWNG

参考文献


*1 基本20種のアミノ酸には BUZ が含まれません.
トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS