情報科学の切り口で生命の謎を解く
生物学で活躍する情報科学
情報科学と生物学には高い親和性があります。情報科学が得意とする対象のデータの一つは文字列ですが、生物学が解明しようとしている生命のシステムには、DNA配列やタンパク質のアミノ酸配列など文字列で表されるものが多くあるためです。生物学と情報科学が融合した分野は「バイオインフォマティクス」や「コンピュテーショナルバイオロジー」と呼ばれ、さまざまな生命現象の解析にコンピュータが活躍しています。その一つが「二値分類問題」と呼ばれる問題の解析です。例えば、非メチル化DNA配列とメチル化DNA配列を自動分類するための規則を見つけて、DNA配列のクラス分けを予測します。
DNA配列を拡張して解析
クラス分類の予測プログラムに、ニューラルネットワークという機械学習の数理モデルを使うことが出来ます。機械学習とは、入力と出力のデータのセットを大量に与えて、入力と出力を関連付ける関数(対応関係)を見つけるものです。ニューラルネットワークの特徴は、それまでの機械学習モデルに比べ、大量のデータがあれば任意の出力関係を表現できることにあります。ところが、調べたい領域のDNA配列の数は、ニューラルネットワークを学習させるには十分ではありませんでした。そこで、DNA配列を、英文の単語のように、ランダムな長さの単語に分割する操作を千回から一万回繰り返してデータ数を仮想的に増やす「データ拡張」を行います。その結果DNA配列の分類を約90%の精度で実現しています。
DNAの三次元構造も加味した解析
先のニューラルネットワークでは,単語間の概念の近さを元に単語をベクトルに変換する手法を使っています。これまでは自然言語と同じように一次元的なDNAの配列が解析されてきましたが、実際のDNAは立体的な構造です。ゲノム上は離れていても、立体構造では近接して相互作用する領域など、今後は三次元的のベクトル化された情報も加わった、より精度の高い予測モデルの構築を目指しています。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報
九州大学 芸術工学部 芸術工学科 未来構想デザインコース 准教授 丸山 修 先生
興味が湧いてきたら、この学問がオススメ!
計算生物学先生への質問
- 先生の学問へのきっかけは?
- 先輩たちはどんな仕事に携わっているの?