CBI学会第236回研究講演会
ワークショップ「ゲノム時代の創薬現場におけるIT環境」資料

基調提言:新しい技術潮流と適応、神沼二眞

最終更新日:2003.10.31

はじめに
医薬品開発には、実験科学だけでなくコンピュータを基礎とする理論的な手法やそのためのソフトウエアやハードウエアが利用されている。医薬品開発は化学や生物学が基盤となっているために、計算化学や計算生物学あるいはBioinformaticsが使われる。しかしコンピュータを基礎とする情報技術(IT、Information Technology)と情報学の技法は、研究開発のさまざまな局面で研究者の仕事を助けている。それらの手法と道具は計算化学やBioinformaticsの中にも組み込まれ、内容を豊かにしている。そうした技法とは数学手法、統計学、データ解析、パターン認識、クラスタリング、データマイニング、人工知能、グラフィクス、画像構成法、画像解析などである。
CBI学会は、そうした情報計算技法の進歩と普及を目的として1981年に設立された。それから20数年が経過しているが、その間に医薬品開発の基盤科学である化学や生物学は著しく進歩した。化学で言えば有機合成化学、Combinatory Chemistry, 質量分析法などであり、生物学はゲノム解読計画に象徴される分子生物学の進歩である。さらに化学と生物学の連係、Synchrotron Orbital Radiation (SOR)のような物理学的測定装置の応用、コンピュータが組み込まれた撮像(Imaging)装置、高分子を高密度に配列したチップなど、実験手法はますます多彩になっている。その結果一回の実験から得られるデータの量も膨大なものになり、人間が判断することが不可能ほどになっている。したがって情報計算技法への依存度はますます高くなってきたと言うことができる。すなわちコンピュータの組み込まれた機器はますます大量に研究開発の現場に導入されるようになり、情報計算技法も研究者のなくてはならない基盤的な技術や素養になっている。
一方で、ITや情報計算技法の導入や計算化学やBioinformaticsへの投資の効果をどう計ったらよいか、果たして導入はうまくいっているのか、いまのやり方でよいのか、改めるべき点があるとすればそれは何か、同じ効果をより少ない費用で実現することはできないのか、などに関する議論はあまりなされていないのではなかろうか。そもそもこうした問題は研究者や経営者にほとんど認識されていないのではなかろうか。仮に認識されたにせよ、こうした問題に対処できる部門も人もいないだろう。組織全体であれば、こうした問題はいわゆるChief Information Officer (CIO)のような人が統括する問題であるが、研究開発組織を統括するそのような専門家が置かれている例は少ないようである。
しかし、この問題はないがしろにできないと考える。次にその理由を挙げてみる。

(1) 研究開発のような創意と工夫が絶えず求められる仕事にも情報計算技法とITが深く浸透し、その度合いはますます深まっている。それらへの投資はさらに拡大し、投資と効果をどう計量するかが重要な課題になる。
(2) 医薬品開発にはますます多様な知識と実験技法が動員されるようになる。さまざまな知識を結び付け、爆発的に増大する多様な実験結果を連係して判断がなされる。同時に研究もこれまでのように探索、開発、上市後の追跡調査が独立したものでなく、連係されたものになってくる。したがってデータや知識を連係、統合することがますます求められる。だが現実には、多くの情報計算システムは自己完結的であり、使い手も少数の専門家に限られ、彼らの判断でシステムが導入され、彼らの都合で運営されていることが多い。
(3) 生物学もITも依然として猛スピードで進歩する。Nanotechnolgyと連係した化学の進歩も著しいことが予想される。これによって情報計算の要素技術と要素システム、統合技術と統合システムも猛スピードで進歩し、変化する。これにより情報計算関連の製品やサービスを提供している会社の見かけの寿命はますます短くなり、サービスの提供者と受け手との関係もますます短いものになる。顧客は自らの判断に依存する度合いを高めざるをえない。 (4)Drug discoveryの成果である医薬品は国の強い規制を受けている。製薬企業の情報計算システムもその例外ではないが、これまでは動物試験の信頼性Good Laboratory Practice(GLP)や、製造工程の信頼性Good Manufacturing Practice (GMP)などが規制の対象になってきたが、これを研究開発の一部にまで拡大しようという動きがある。
ITの進歩
上記の項目を理解するために、研究開発におけるコンピュータ利用の歴史を簡単に振り返ってみたい。

1960年代まで:IBMに象徴される汎用コンピュータMain Frameのみの時代であり、一般の研究者である利用者はコンピュータにふれることはなく(バッチ処理)、FORTRANで書き紙のカード(パンチカード)をセンターに渡して計算してもらるだけであった。

1970年代:DEC(Digital Equipment)社の実験室用のパソコンが使われるようになった。同時にMITの多くのユーザが遠隔地から対話型で利用する時分割利用の大型コンピュータ、DEC10/20を利用したLISP言語による人工知能研究が始まった。Evans & Sutherlandで代表されるGraphic Displayで分子グラフィックスが試みられた。

1980年代:仕事に使えるPCが出現した。IBMがMicrosoftと提携し、PC(AT)のスタンダードとなった。MacがZeroxのPala Alto研究所が開発したグラフィカルな操作を重視した技術を実用化した。80年代の後半には、UnixをOSとし、LAN(Local Area Network)の構築が容易なWorkstation(現在のServer)が出現した。UNIXとの関係でC言語が普及した。

1990年代:InternetすなわちTCP/IPを通信のプロトコルとする広域ネットワークが普及し、画像も扱えるWWW(World Wide Web)技術が爆発的に普及した。これと従来のPCとWorkstationの高性能化が起きた。マシン環境ではGUI(Graphical User Interface)、プログラミング言語ではNetworkに対応したJAVA、Script言語であるPerlなどが広く使われるようになった。

2000年代:Internetには、携帯電話を含むさらに多くの情報機器が接続されるようになり、Ubiquitous Computingの時代となった。あらゆる品物につけられるネットワーク端末タグも開発されている。InternetはAgentと呼ばれるような、知識を操作し意味を解釈するSemantic Networkへの発展を模索している。また、計算性能が高く価格が安い、PCやLinuxをOSとするPCを多数並列に接続したClusterが普及している。この技術はさらにネットワーク上に多数の共同利用コンピュータを置くGrid Computingへと発展している。またWWWの基礎となった言語HTMLに変わってデータの統合に容易なXMLが研究されている。

提供企業の変遷
上記のIT技術や製品の変化に伴い、それらの製品やそれを使ったサービスを提供している会社も大きく変化してきた。
汎用コンピュータ全盛の時代は、そうしたコンピュータを製造、販売していた会社が応用ソフトも含めて一括して顧客に販売していた。顧客が何をすべきかのコンサルテーションも当然こうした会社が行っていた。
PDPやVAXなどDEC社のマシンが研究開発の事実上の標準であった時代は、同社が研究開発部門に関しては事務部門における汎用コンピュータと同じ役割を果たしていた。
LANやWorkstationが全盛の時代は、DEC社の人材もそうした会社に移った例が多く、システムを統合する役割は、商社のコンピュータ部門などに拡散した。
Internet時代となるとCiscoに代表されるネットワーク基盤を安定的に構築できる技術を有するSupplierが加わることが必須の条件となった。ネットワークのSecurity対策の重要性が増すにつれ、ネットワーク技術への依存度は高まっている。
Application ソフトはPackageとして販売され、コンピュータはソフトの付属品となってきている。一方で、全体的なことに関する知識はUse研修で依存するようになっており、比較が難しくなっている。

研究開発における情報環境
研究者を中心として見た研究開発環境へのITの浸透は、最初はR&Dのバッチ処理、On lineによる文書閲覧、データベースの整備、実験や野外調査機器へのコンピュータ組み込み、実験データ管理(Laboratory Information Management System, LIMS)から始まり、次第に研究者の創造的な思考を直接的に支援する知識やデータのシステム化に移行している(図1参照)。ゲノム解読はこの傾向を加速した。タンパク質のFoldingやDocking Studyに関係する分子計算技法、Homology Search, -omicsデータの解析と解釈、Pathway/NetworkのModelingとSimulationなどは、研究者の思考と密着した支援システムである。Internet/WWWの普及は研究者にとってもっとも重要な研究データと研究原著論文へのアクセスを飛躍的に向上させた。
Grid Computing, Ubiquitous computing, Semantic Webを指向する現在のITの潮流は、研究者が必要とするデータと知識をより容易に入手することを可能にし、自分の仮説を検証するModelingの構築やそれに基づくSimulation実験がより容易に実施できるようにするだろう。

Drug discoveryにおける情報計算技法

基盤となる情報計算技法
医薬品開発の基盤科学は有機化学と関連したMedicinal Chemistryであるが、Genome時代の医薬品開発では、(分子)生物学、生化学、分析化学、構造生物学などへの依存度も高くなっている。計算化学とBioinformaticsはこれらの科学技術に関連した最も基本的な情報計算技法である。もちろん計算化学とBioinformaticsとは関係が深い。それを示す典型的な問題はタンパク質のモデリングである。CBI学会が活動を始めてからのこの20数年を省みると、計算化学を支える理論、計算手法、パケージソフトの進歩は、Bioinformaticsに較べると遅々としたものである。進歩したのは分子を立体的に表現する分子グラフィクスである。これに対してBioinformaticsは、配列解析から-omicsデータの解析、タンパクータンパク相互作用、Pathway/Networkデータベース、CellやPhysiology現象や疾病のModelingやSimulationへと研究範囲を広げ、さらに臨床医学との関係を深めようとしている。Bioinformaticsには、確率統計学の手法、データ解析、パターン認識、クラスタリング、データマイニング、人工知能、動的計画法、データベース、グラフィクスなどが含まれているが、これらは情報学の手法そのものである。この意味でBioinformaticsは、情報学、コンピュータの生物学への応用そのものである。もちろんこれらの情報学的な手法は化学の分野にも応用されている。こうした技法はCheminformaticsと呼ばれている。結局、計算化学、情報化学、Bioinformatics(生物学における情報学的な手法)、生物学における計算手法など、文字通り、情報計算化学生物学のすべてが動員されている(図2参照)。これらの技法の多くはすでにソフトウエア商品となっている。

Drug Discovery固有の技法
Drug discovery固有の技法とは、上記の情報計算化学生物学的な手法をDrug discoveryに応用したものである。その概略を表(参照)にまとめてみた。これらの内容は近未来にどう変化していくだろうか。もっとも可能性があるのは、創薬の現場と治験、治験から承認(上市)、上市後の臨床追跡調査などの連係である。そのためには、治験や臨床診療記録とそれからの知識の抽出(data mining)のためのシステムの重要性が高まり、そうしたシステムとこれまでのDrug discoveryの情報計算システムとの連係をとる必要性も高まっている。
研究開発組織とIT導入
医薬品開発にはますます多様な知識と実験技法が動員されるようになってきている。研究者は、そうしたさまざまな知識を結び付け、多様な実験結果を統合的して判断を下すようになっている。同時に研究もこれまでのように探索、開発、上市後の追跡調査が独立したものでなく、連係されたものになってきている。したがってデータや知識を連係、統合することがますます求められる。
しかし、情報計算システムの統合には常に2つの障害が立ちはだかっている。第1は異なる情報媒体に蓄積されている、異なる形式の情報をどう連結するかという情報技術の問題である。Inter-operabilityと呼ばれているこの問題に対する解決策として開発されたのがXMLである。XMLはこれまでWWWを支えたHTMLの代替技術として研究されている言語である。
第2の問題は、情報計算システムを導入、管理する研究開発の組織である。製薬企業の研究開発組織は、目的別のさまざまな「研究所」から構成されている。これらの研究所はかなりの独立性を有しているため、それぞれの情報計算システムに蓄積されているデータや知識を研究所を横断する形で自由にアクセスできるようになっていないことが少なくない。さらにいわゆるDrug designer、毒性(安全性)試験の担当者、副作用など上市後の臨床データの追跡調査や再評価に関わる研究者との間の情報知識の共有は必ずしも円滑に行われてはいなかったように見える。
これら2つの基本的な障害に加えて情報計算システムの多くは目的ごとに個別に導入され、運用される。それらの情報計算システムの提供企業にとって、他の企業の製品やサービスとの連係や統合を顧客に提案することは極めて難しい仕事である。

NIHのRoadMapとITへの投資
医薬品開発競争は国際的な舞台で行われている。米国や欧州の動きはそのまま我が国に影響を与える。NIHは、研究開発環境整備に関わるITとNetworkingに積極的に投資している。その額は、02年が約$326M、03年が$360M、04年が$390Mである。Mは100万であるから、今年の額は約400億円ほどになる。それによって以下のようなことをめざしている。

Virtual Library
大学や国立機関の電子顕微鏡、SOR(Synchrotoron Orbital Radiation)、Supercomputer, Imaging技術を結びつけ、生体の微細構造観察Telemicrospopy、生体分子構造解析Crystallography、薬分子やタンパク質デザインのための分子モデリングMolecular Modeling, 異なる研究室間でのバラツキを最小限に抑えたヒトやマウスの撮像計算法Imaging Algorithmの研究をNetworkを介して支援する。

Biomedical Information Research Network(BIRN)
全米に位置する主に大学の研究室を次世代インターネットInternet2/Abeline Networkで結び、データ収集機能をもたせ、grid-based computing、data mining toolsを提供する。これにより、例えばneuroimagingのような複数の研究所を結んだ研究にはソフトとハードの基盤を用意する。

National Electronic Clinical Trials and Research(NECTAR)
NIHのRoadmapの第3項目、Re-engineering the Clinical Research Enterpriseに対応するもので、細胞モデル、肥満や糖尿病、自己免疫疾患、神経科学など生物学と疾病の研究を支援するInternet2を基礎とする高速ネットワークと、基礎研究から臨床研究への円滑な移行を実現するデータ交換体制を構築することをめざしている。最初の実験としては脳神経系の疾患が対象となっている。

Rare Disease Clinical Research Network(RDCRN)
Office of Rare Diseases, NCRR, NICHDといくつかの大学を結ぶ、Rare Diseasesの研究とその成果の臨床への移管を円滑に進めるためのInternetを基礎にした研究体制であり、NECTARの実現例となることをめざしている。

NIHのRoadmapでは、pathway/networkの解明やそれらのpathway/networkを制御する低分子化合物の探索も含まれている。NIHのNetworkやITを基盤とする研究開発には民間企業は参加していないようであるが、これらの計画は医薬品開発を加速することに寄与するだろう。また、こうした新しい研究スタイルは民間の製薬企業の研究開発のスタイルにも影響するであろう。

人材の問題
医薬品研究開発に関わる情報計算の仕事を担う人材とはどのような能力をもっているべきだろうか。そうした人材は一般に計算化学、Bioinformatics、あるいは情報学かコンピュータの訓練を大学院で受けた者ということができよう。このうち計算化学は量子化学を専攻した者と言えるが、Bioinformatics、情報学、コンピュータの専攻には幅がある。(分子)生物学の知識あるいは経験に、一般的な数学、統計学、データ解析、パターン認識、画像解析、画像処理、人工知能、プログラミング言語、コンピュータシステムやネットワークの構築などの研究経験が求められるだろう。Bioinformaticsが話題となったのはGenome解読計画が進展し、多量の配列データを扱う必要性が高まった頃からである。そのためにBioinformaticsは配列データを扱う計算技法のように見られているが、それは狭義の定義であり、そもそものBioinformaticsは、(分子)生物学の研究を支援する情報計算技法を意味し、その範囲は広い。Bioinformaticsが遺伝子の探索とその機能解析を支援することに変わりはないが、Bioinformaticsの旬の課題は変化していくと考えるべきである。ある分野の専門家を採用しても焦点となる分野はすぐ移ってしまうかもしれない。とくに民間企業の研究所の場合、こうした変化に追随していく柔軟性が求めれれるであろう。
こうした専門家をどのように教育したらよいかは大きな問題である。MITはComputational and Systems Biology Initiativeという学際的な教育プログラムを立ち上げた。このプログラムは、RocheやMerkのような製薬企業に送り込める人材を養成することをとくに意識している。そのためMITはmolecular genetics, genomics, proteomics, structural biology, imaging, imaging informatics, microsystemsという6分野をcore competenceとする教育を行うことを計画している。
しかしBioとITの進歩の激しさを考えると如何なる教育をしてもそれで十分とは言えないだろう。むしろ自分で考え、専門を広げていく能力をもつような教育が必要であろう。このことは研究開発だけでなく企画や営業などを含め、この分野のあらゆる職種についていえることであろう。

規制の問題
Drug discoveryは純粋の科学技術の研究開発行為であり、動物の扱いやヒトを被験者とした場合の倫理の問題を除くと、一般の研究開発行為と同じように、国の規制を受けることは想定していなかった。しかし、そうした研究開発の成果である医薬品はその効用、安全性、品質保証に関し、国の強い規制を受けている。製薬企業の情報計算システムもその例外ではないが、これまでは動物試験の信頼性Good Laboratory Practice(GLP)や、製造工程の信頼性Good Manufacturing Practice (GMP)などが規制の対象になってきたが、米国FDAは、これを研究開発の一部にまで拡大しようとしており、通称”21 CFR Part 11”と呼ばれるguidanceを公表している。この規制によれば、FDAの査察官が製薬企業の情報計算部門を査察することになり、その範囲が研究開発の一部に及ぶことを意味している。ファイザーからSun Microsystemsに移ったH.R.Asherらは、Life Science関係者には全く未知のこうした動き対応することの重要性を強調している。

おわりに
Drug DiscoveryへのIT導入は、研究開発へのIT導入の一例であり、他の分野の研究開発を支援する情報計算システムと共通性がある。ただ、Drug discoveryの技法は、科学技術の分野としても各国が重要視しているNano, Bio、ITと関連しているため、Solutionを提供している企業からも、戦略的で市場の拡大も期待できる重要分野と目されている。実際に有力なIT企業はDrug DiscoveryをLife Sciencesに区分してSolution戦略を立てている。
この分野の情報計算システムの目標はさらに細分化され、種類が多くなっている。それぞれの応用課題において使われる情報学の理論や計算化学の技法の進歩はゆっくりしており、しばしば既知の手法が再登場する。しかしそれらのプログラムが走るソフトおよびハードウエアの環境Platformは、絶えず変化している。それぞれの計算技法のプログラム(コード)は、単独で商品化されるのではなく、他の計算技法と束ねられたパッケージとして流通している。
研究者は知識とデータに依存して仕事をする。このうちデータは早くから構造化されてデータベースに蓄積され、コンピュータで使えるようになっていたが、知識は研究論文のようには構造化されない印刷物の形で蓄えられていたので、コンピュータ可読にすることが難しかった。Internet/WWW技術の普及はこの状況を劇的に変化させた。研究論文は図表や写真を含めて容易にコンピュータに蓄積し、検索エンジン(全文検索システム)で検索閲覧することが可能になった。従来のデータベースより、知識が表現された知識ベースの開発が容易になり、NCBIのEntrezに象徴されるように、文献とファクトデータベースの統合が容易になった。WWWの技術はPathway/Networkのようなグラフ(ダイアグラム)表現も容易にした。分子生物学に基礎を置く生物医学と関係科学の知識は依然として爆発的に増大を続けているから、知識システムあるいは知識ベースはLife Sciences あるいはDrug Discovery分野においても最も成長が著しい領域であろう。
Clientに求められることは、増大する情報計算システムの有用性を正しく評価することであり、それらの連係や統合をどうするかを戦略的な視点で考察することである。Solutionの提供者に求められることは、Clientの仕事を理解し自らのIT SolutionがClientのどのような問題を解決し、どのような機会を提供するかを正しく認識することである。そして両者に求められるのは、自分たちを取り巻く環境の変化に適切に対応することである。これらの問題は結局、人材と教育の問題に帰着する。 最後に、FDAは製造や開発に関係する情報システムの信頼性に対する規制(GMPやGLP)を研究分野にまで拡大する意向を示している。これにどう対処するかが大きな問題となっている。
CBI学会の事業
CBI学会は関心領域への入門のためのwebsiteの構築、Drug Discoveryにおける情報計算技法とSupplierに関するwebsiteの構築、研究開発事業のためにwebsiteの構築を進めている。とくに、2番目のwebsiteには、Drug Discoveryに関わるClientとSupplierの出会う情報広場をつくり、広告を受け付けることを検討している。参考資料:図1,2,表  参考文献、参考情報 医薬品研究開発における情報計算技法の一般論:
Science誌、Drug Discovery and Biotechnology Trends,
http://www.sciencemag.org/feature/e-market/benchtop/ddbt_92603.shl
Panel Discussion: IT Infrastructure for the Life Sciences, Bio.com
http://www.bio.com/newsfeatures/newsfeatures_infocus.jhtml?InFocus=87381388&action=discussion
Knowledge assembly for the life sciences 
http://www.flagshipventures.com/presentations/genstruct/genstruct0902.pdf

計算機メーカーのLife Scienceへの取り組み:
IBM(http://www.itworld.com/itwebcast/ibm_hpc/index.html
Sun Microsystems (http://www.sun.com/index.xml)
Oracle’s Discovery Platform for Life Science (http://www.oracle.com/industries/)

NIHの動向:
J. Vaitukaitis, Overview of NIH Networking and IT Priorities, Programs, and Funding, Oct. 3, Washington, D.C.、
http://www.cra.org/Activities/conferences/nitrd.2004/vaitukaitis.pdf
神沼二眞、NIHのRoadmap、CBI NEWS、2003年No.8

学際的な研究者教育
H. Hang, Building bridges, Nature, 425, Oct.23, 2003, pp.882-883FDAのTitle 21 Code of Federal Regulations (21 CFR Part 11)については、下記のURLを参照http://www.fda.gov/ora/compliance_ref/part11/Bioinformaticsの最近の状況
Programmed for success, Nature, 425, Sept. 11, 2003, pp.209-217