生命科学データ解析とは?
生物が持つしくみを解き明かそうとして、人類は生物を観察し、それらをデータとして記述し続けてきました。それが生命科学と呼ばれる学問分野です。その結果、現在までに多くの生命科学の知識が蓄積されてきました。それらの知識は生命科学データと呼ばれ、これまで紙媒体に記述されていましたが、現在ではコンピュータ上の電子的なデータとなっています。
生命科学データの中でも特に、生物が持つ遺伝情報全体(ゲノム)が大量に解読され続けています。ヒトにおいても各個人でゲノム配列情報が異なるため、個人のゲノムを解読する必要があります。ヒトゲノムの情報量は多く、データ圧縮しなければ数GB(ギガバイト)もの大きさとなります。
生命科学の現場は現在、コンピュータ上に蓄積された生命科学データをもとに生命の謎に挑む時代になっています。それが生命科学データ解析であり、バイオインフォマティクス(生物情報科学)とも呼ばれ、どこかで聞いたことがあるでしょう。生命科学データ解析には、それに特化した情報処理技術が必要となり、さまざまな手法が開発されてきました。
ゲノム解読が身近になった
生命科学データ解析は、これまで主に生命科学系の大学や大学院を出た方が取り組んできました。そのため、生命科学データ解析の教科書やデータ解析の手順書は、そのほとんどが生命科学研究者向けに出版されてきました。
しかし、冒頭でも触れたヒト個人のゲノムの解読が実際に行われる時代となりました。ゲノム解読の結果、得られた生命科学データを解析することによって、将来がんになりやすいかどうかはある程度予測可能になっています。たとえば2013年アンジェリーナ・ジョリーによる「乳がん予防のための乳房切除」が話題となったことは記憶に新しいでしょう。しかしながら、生命科学データ解析スキルを持つ人材は少ないのが現状です。これまでは生命科学研究者のみがそのデータ解析に取り組んできましたが、それでは全く足りてません。生命科学を修めた方だけでなく、より多くの人たちが生命科学データ解析に関わっていかねばならない状況となっています。
そこで、さらにより多くの方、特にITエンジニア向けに、生命科学データ解析の面白さやノウハウを解説したいという想いで『生命科学データ解析を支える情報技術』を出版するにいたりました。本書は、情報系のバックグラウンドを持ち、情報科学技術に軸足をおいている研究者を執筆陣に迎えているという特長があります。
本書のダイジェスト
本書は具体的な応用事例とあわせて、生命科学データ解析にいかに情報処理技術が利用されているかを紹介します。
まず生命科学データ解析とは何かについて、特にそのデータ解析の対象となるDNA配列データを中心に解説します(第1章 生命科学データ解析入門)。それは生物のゲノム情報はDNA配列データとして書き込まれているからです。
次に、生命科学データを扱う解析環境の構築方法と活用方法に関して、実際のデータ解析例を交えて紹介します(第2章 解析環境の構築)。
続く章では、体系的に学ぶことが困難な生命科学データ解析に関して理解を深めてもらうために、技術的な側面から「第3章 データベース」、「第4章 テキストマイニング」、「第5章 クラウド」、そして「第6章 可視化」をトピックとして挙げています。これらの知識を押さえておくことで、一から自力で情報を集めてくることなく、素早く生命科学データ解析の開発に取り組めることでしょう。
本書をきっかけに、生命科学分野に興味を持ち、生命科学分野の発展に貢献するエンジニアが現れることを願います。