RNA-seqワークフローと基本的な解析の紹介
目次
- 背景と動機
- ディレクトリの整理方法
- RNA-seqワークフローの紹介
- ソフトウェアツールのダウンロード、コンパイル、インストール
- RNA-seqデータの取得
- 参照ゲノムの取得とインデックス作成
- リードのアラインメント
- Stringtieを使用した遺伝子モデルの作成
- IGVを使用したデータの可視化
背景と動機
ジョナサン・ペブスナーさんによる、RNA-seqを使用した遺伝子発現解析についてのワークショップの紹介です。RNA-seqは、次世代シーケンシング技術を用いた新しい方法で、特定のトランスクリプトに限定されず、サンプル内のあらゆるRNA種を評価することができます。RNA-seqのダイナミックレンジは非常に優れており、非常に低いレベルから高いレベルまで発現されているトランスクリプトを見ることができます。また、RNA-seqは、既存のゲノムにアノテーションされていない新しいスプライスアイソフォームを特定することも可能です。
ディレクトリの整理方法
ディレクトリの組織化は、RNA-seqワークフロー全体のスムーズな実行に不可欠です。Mac OS Xを使用する場合、次のようなディレクトリ構造を作成することをお勧めします。
- PROJECTS/NCBI_NOW_RNA-seq: 全体のプロジェクトディレクトリ
- PROJECTS/NCBI_NOW/RAW_DATA: ダウンロードした生データの保存先
- PROJECTS/NCBI_NOW/REFERENCE: 参照ゲノムの保存先
- PROJECTS/NCBI_NOW/ANALYSIS: 分析結果の保存先
- PROJECTS/NCBI_NOW/PROGRAMS: 使用するソフトウェアツールの保存先
RNA-seqワークフローの紹介
RNA-seqワークフローでは、次のステップが含まれます。
- 実験デザインとRNAの取得
- リードのシーケンス取得
- リードのアラインメント
- 遺伝子モデルの組み立て
- 遺伝子発現の定量化
- データの可視化
ソフトウェアツールのダウンロード、コンパイル、インストール
次のソフトウェアツールをダウンロード、コンパイル、インストールする必要があります。
-
HISAT: RNA-seqリードのアラインメントに使用されるツールです。インストール方法は公式ウェブサイトを参照してください。
メモ: ダウンロード時にHISATのバージョンに注意してください。
-
NGS lib: HISATと連携してNCBIのデータをダウンロードするためのライブラリです。GitHubから入手できます。
メモ: ダウンロード時にNGS libのバージョンに注意してください。
-
SpringTie: 遺伝子モデルのアセンブリのためのツールです。公式ウェブサイトからダウンロードできます。
RNA-seqデータの取得
GM12878という細胞株のRNA-seqデータを使用します。NCBIのSRAデータベースからデータをダウンロードし、fastq-dumpを使用してFASTQ形式に変換します。手順は以下の通りです。
- NCBIのホームページからGM12878を検索し、SRAデータベースにアクセスします。
- RNAに関連するランを選択し、runの詳細情報を確認します。
- fastq-dumpを使用してリードをダウンロードし、FASTQ形式に変換します。
- 必要に応じてFASTQファイルをgzipで圧縮します。
参照ゲノムの取得とインデックス作成
参照ゲノムをEnsembleからダウンロードし、HISATを使用してインデックスを作成します。Ensembleのウェブサイトから、目的の染色体のFASTAファイルをダウンロードします。次に、次のコマンドを使用してHISATのインデックス作成を行います。
hisat-build -x [参照ゲノムのFASTAファイル] reference/index
リードのアラインメント
HISATを使用してリードを参照ゲノムにアラインメントします。以下のコマンドを使用してアラインメントを実行します。
hisat -x [参照ゲノムのインデックスファイル] -1 [リード1のFASTQファイル] -2 [リード2のFASTQファイル] -S [出力ファイル]
Stringtieを使用した遺伝子モデルの作成
Stringtieを使用して遺伝子モデルを作成します。以下のコマンドを使用して実行します。
stringtie -p [スレッド数] -G [参照GFFファイル] -o [出力ファイル] [アラインメントファイル]
IGVを使用したデータの可視化
IGVを使用してデータを可視化します。IGVをダウンロードしてインストールし、BAMファイルとGFFファイルをロードします。また、IGV内でデータの表示方法や色など、さまざまな設定が可能です。
以上がRNA-seqデータ解析の基本的な手順です。さらに詳細な解析や解釈には、R言語やBioconductorパッケージを使用することがおすすめです。また、ClinVarなどのバリアント解析ツールも利用することができます。