↑ トップ頁へ

2003.3.1
 
 


インフォマティクスの遅れ(5:統合化)…

 ここまでを整理しておこう。

 ゲノム配列情報から、意味ある配列を探索するとしたら、先ずは3つの方法を使うことになる。

 1つ目が、事例との類似性を見るホモロジー検索だ。網羅的に見つけることができるから、極めてパワフルな手法である。
 しかし、事例との類似性が弱いと見つけることはできないから、これだけでは力足らずである。

 2つ目は、遺伝子領域の開始部分と終了部分に注目して、その配列を探すORF検索である。これも不可欠な手法であるが、領域がわかる以上の情報は得られない。

 そこで、どうしても3つ目の、コンピュータ予測手法が必要となる。遺伝子のモデルを考え、このモデルに合った配列を探索する方法である。どの程度一致するかを測ることで、遺伝子である可能性が見える、という理屈だ。確率的な見方で、遺伝子領域を検討する方法ともいえよう。
 しかし、この手法は、モデルをベースとするから、多種多様なものが登場してくる。しかし、どれかに統一されるというものではないから、1つの手法に注目してもそれほどパワフルなものには映らない。

 つまり、遺伝子探索に当っては、以上の3種類の手法を同時に利用するしかない。従って、この3種類の手法で検索した結果を統合する必要がある。
(現実には、この3種類の手法は遺伝子に関する配列データを基礎とするインフォマティクスの第1ステップにすぎない。しかし、このステップを抜きにしては、次ぎのステップに進めない。第1ステップでの研究方針が決まれば、立体構造や、より高次の解析の、第2ステップ以降でも、同じ考え方で方針策定ができる筈だ。)

 科学技術振興政策を考える際には、こうした全体構造の理解が不可欠である。この構造を前提にすれば、どの技術が重要なのかがわかってくる。

 先ず、ホモロジー検索が不可欠なのだから、巨大データベースが益々巨大化する。同時に、新しいデータベースが次々と構築されることになる。一方、こうしたデータベースの利用者が世界中に広がることになる。(例えば、一番の基本である塩基情報データベースは米国NCBIのGenBANK、欧州EBIのEMBL、日本の国立遺伝学研究所のDDBJと、民間企業Celeraであるが、様々な対象毎に数多くのデータベースが登場することになる。)
 一方、様々な遺伝子モデルが登場するため、検索方法が多様化する。

 ということは、研究側は、外部の様々なデータベースを活用する、独自の専用データベースを作らざるを得ないことを意味する。
 収集した実験データを逐一分析するためには、実験データ保存用のデータベースが必要なのは当然だが、外部データベースを活用して既知と未知に分別してデータを蓄積するデータベースも必要なのである。この過程で、外部データをとり込んだ、参照用データベースも作られることになろう。
 従って、外部データと対応が付き易く、長期に渡って大きな変更を要しないデータベース設計が重要となる。
 インフォマティクスを進歩させるためには、こうした個々のデータベース構築が簡単にできる技術が必要になる。

 網羅的解析という観点では遺伝子配列解析と似てはいるが、多様性と相互接続性が必要だから、特定のデータベース構築に集中的に注力しても、成果はあがりにくい構造といえる。

 つまり、インフォマティクスの技術進歩は、あくまでも知恵を組み込んだアルゴリズム開発が鍵だが、その発展を規定するデータベース構築技術を磨かない限り進歩は加速されることがないのだ。研究者が使い易く、安価で外部接続性と拡張性が担保できるデータべース構築技術が決定的に重要なのである。
 こうした技術とはRDBを意味する。当然ながら、IT分野で主流のRDBを用いることになる。
 ここで、鍵を握るのはRDBそのものの技術ではなく、活用システムの方である。

 専門家でなくても、対象データ、参照データ、結果データの関連付けと管理がITの、データ集計が、馴れているウエブ型の閲覧が、誰でもすぐに使えるものを提供できる技術が必要なのだ。これらの理屈は単純だが、実際のシステム構築には時間とお金がかかる。こうした問題を解決する技術が要求されているのである。
 要するに、システム開発支援政策が求められているのだ。特に日本では、研究実務者部隊にITの専門家が少ない。そのため、コンピュータの性能と繋がる通信回線の実態に合わせた最適システムが使われていない。入手できるものを自分達で理解できる範囲で組み合わせて利用していたり、予算を使い切る発注を行うため、無駄な機能を抱えた冗長なシステムだったりする。こうしたシステム自体は、研究の本質ではないから、使い易いシステム構築に時間と知恵をさかないのである。

 こうしたシステムのモジュール化/パッケージ化が進めば、安価で、格段に使い易くものになる。そうすると、ミクロベースで、研究の生産性は向上する。

 ミクロベースで生産性向上が進めば、数多くの試行が可能となり、結果も早く出る。新しいアルゴリズムの挑戦、斬新な検索対象の考案、等、テーマは豊富である。試行の生産性が上がれば、優れたテーマなら、兆候がすぐに現われる。
 日本の個々の研究者のレベルは高いから、沢山のテーマが走れば、優れたものが登場する。その時、即座に、大量の資源を投下すればよい。
 こうした仕組みが、日本の科学技術の進歩を支えると考えるべきである。

 欧米と日本は民間の状況が違う。日本のヘルスケア産業には、巨大なシステム開発投資負担に耐える企業が並んでいる訳ではない。産業構造が違うのだから、同じような政策は意味が薄い。どのようなシステム開発がベストかを、産業とアカデミズムの構造に合わせて考案しない限り、いくら資源を投入しても、日本の産業技術力向上には繋がらない。

 特に注意すべきは、日本の学会の閉鎖的体質だ。大量データ処理支援自体は間違いとはいえないが、こうした状況では、一部の研究者への研究費の集中化がプラスに働かない可能性が高い。斬新な研究が消えるかも知れない。
 方法論が多様化している上、研究費の集中投下先選定が曖昧なままで、研究費の集中化施策は危険な賭けといえよう。

   過去記載の
   ・「インフォマティクスの遅れ(1:ホモロジー検索)」へ (20030225)
   ・「インフォマティクスの遅れ(2:古典的技法)」へ (20030226)
   ・「インフォマティクスの遅れ(3:モチーフ検索)」へ (20030227)
   ・「インフォマティクスの遅れ(4:多重アラインメント)」へ (20030228)


 ゲノムの時代の目次へ>>>     トップ頁へ>>>
 
    (C) 1999-2004 RandDManagement.com