バイオ・データ・マイニング/FASTAフォーマットの変更点

追加された行はこの色です。
削除された行はこの色です。
バイオ・データ・マイニング/FASTAフォーマットへ行く。
バイオ・データ・マイニング/FASTAフォーマットの差分を削除
*はじめに [#n4ba8818]

FASTAは，DNA塩基配列またはたんぱく質アミノ酸配列に対して配列アラインメントを行うソフトウェアです．
配列アラインメントを行うソフトウェアとしては，BLAST同様によく知られています．

FASTAへ入力する配列はテキストで表されており，この形式がFASTAフォーマットと呼ばれています．

ちなみに，FASTAは「ファスタ」ではなく「ファストエー」と読みます．


*FASTAフォーマット [#j6c6a2dd]

いろいろな亜種があるみたいで，完全な文法を厳密に定義するのは難しいです．
ここでは，ある一つのパターンだけを説明します．

1行目は''ヘッダ''．2行目以後が''配列データ''です．

ヘッダ行は"''>''"（より大きい）で始まり，その直後に空白を入れずに配列識別するための文字列（つまり，''名前''）が続きます．
空白がより後はその配列についての''説明''です．
名前と説明は省略できます．

2行目以後は''アミノ酸''を''1文字表記''で表した配列データです．
1行当たり80文字未満とすることが推奨されており，長いものは改行されます．
アミノ酸の1文字表記については，参考文献を参照してください．

複数の配列を一つのファイルにまとめるときは，ヘッダと配列データが繰り返されます．


*アミノ酸一文字表記に使われるアルファベット [#jda1d1a5]

特定のアミノ酸を表す ABCDEFGHIKLMNPQRSTUVWYZ((基本20種のアミノ酸には BUZ が含まれません．))

不明あるいは任意のアミノ酸を表す X

ギャップを表す -



*例 [#aaa5fbb7]

#geshi(text){{
>AR11_XENLA/62-162 : PS50062
LLEATEEFELRYQRAFSDLTSQLHITQD.....TAQQSFQQVMGELFRDG..........-TNWGRIVAFFSFGR
ALCVESANKEMTDLL..................PRIVQWMVNYLEHT....LQPWMQENGGWEA
>AR1_XENLA/81-181 : PS50062
MRAAGDEFEERFRQAFSEISTQIHVTPG.....TAYARFAEVAGSLFQGG..........-VNWGRIVAFFVFGA
ALCAESVNKEMSPLL..................PRIQDWMVTYLETN....LRDWIQSNGGWNG
}}

*参考文献 [#o8ba24a7]
-''[[Rapid and sensitive protein similarity searches:http://www.ncbi.nlm.nih.gov/pubmed/2983426]]''~
Lipman DJ, Pearson WR.~
Science, 227(4693):1435-41 (1985).
>FASTAについての論文．

-''[[バイオインフォマティクス：ゲノム配列から機能解析へ:http://www.amazon.co.jp/gp/product/4895924262?ie=UTF8&tag=tohgorohmatsu-22&linkCode=as2&camp=247&creative=7399&creativeASIN=4895924262]]''~
David W. Mount著, 岡崎康司, 坊農秀雄 監訳~
第2版, メディカル・サイエンス・インターナショナル (2005)
>バイオインフォマティクスの教科書．11,550円と高いが，バイオインフォマティクスについて学ぶなら必携．

-[[FASTA:http://ja.wikipedia.org/wiki/FASTA]] | Wikipedia