*** 第191回 CBI 研究講演会 ***
「C.エレガンス研究の発展」追加資料
ご存知の通り、明日(2000.04.14)「C.エレガンス研究の発展」をテーマとした研究講演会が開催されます。今回は演者の一人でもある東海大学の石井先生に、講師の選択や話の流れなどを考えていただく一方、事務局でもできるだけの資料を用意いたしましたので、是非ご参加ください。なお最近、同じモデル生物として線虫と並び称される、ショウジョウバエの全配列が決定したとのニュースがありました。これを読んだ我々の感想を添付させていただきます。これは当日の質疑の参考資料に予定しています。

ショウジョウバエのゲノム解析の意義

国立医薬品食品衛生研究所 化学物質情報部 神沼 二眞

はじめに

「大腸菌、酵母、線虫(C. エレガンス)、ショウジョウバエ、マウス、アラビドプシスなど、いわゆる分子生物学のモデル生物と呼ばれている生物のゲノム解析の意義は何か?」これは、最近のCBIの研究講演会の企画を考える上で、常に気になっていたことである。たまたま久しぶりに線虫をテーマとする研究講演会の詳細が決まった3月末、ショウジョウバエのゲノム配列決定のニュースを新聞で眼にした。早速この記事のもとになったサイエンスの最新(2000年3月24日)号の特集記事群(主としてVol.287、pp:2182-2224と関連記事)を読んでみた。期待どおりと言うべきか、そこには、最初にあげた私の疑問に対する回答だけでなく、分子生物学のつぎの課題や、医学や医薬品開発への応用の可能性についても多くのヒントが書かれていた。そこで、4月14日の C.エレガンスの研究講演会の参考資料として急ぎ以下の拙文をまとめてみた。

ショウジョウバエのゲノム

今回発表されたのはショウジョウバエ(Drosophila melanogaster)のほぼ全ゲノムの塩基配列である。このハエは1910年、T. H. Morganが白色の眼をもつ突然変異体を見つけて以来、遺伝学の材料として、最も研究がなされてきた生物である。分子生物学の関心が、発生や行動に広がるにつれ、ショウジョウバエは最も簡便な材料として、再び注目されるようになった。線虫も後者の視点で注目されるようになり、両者は並び称される分子生物学の代表的な材料となった。 このハエには雌雄があるが、それぞれ4対の染色体をもつ。性染色体は、X、 Yで、雌はXを対でもち、雄はXとYを対にもつ。雌雄共通である常染色体は、大きな第3染色体とやや小さな第2染色体、さらに点状の第4染色体からなっている。これらの4つの染色体は部位によってHeterochromatin、Euchromatin、 Centromereに分画される。ゲノムの大きさは、180Mb(1.8億塩基)と推定されるが、そのうちの3分の1は、Heterochromatinであり、残りの120Mbが Euchromatinである。後者はほとんど第2、第3染色体とX染色体上にある。すなわちY染色体にはなく、第4染色体にはわずか1Mbしかない。Heterochromatinは主として短い配列の繰り返しである。配列決定の技術上の問題として、このような配列は安定的にクローニングすることが難しい。そこで、解析のターゲットにされたのは約120MbのEuchromatinの部分である。

ゲノム解析の過程

遺伝学あるいは分子生物学の由緒ある材料であるだけに、このハエのゲノム計画(Dorosophila Genome Project「ショウジョウゲノム計画」と呼ぶべきか)にはバークレイ、ヨーロッパ、カナダのグループが名乗りをあげていたが、彼らはすでに4分の1の28Mbの配列を決定していた。残りの4分の3を、 Celera Genomicsのグループがバークレイの共同チームの協力の下に、昨年の5 月から9月の間に解析装置を動かして決定したのである。 11月、ハエ、タンパク質、バイオインフォマティックスなどの研究者40名以上がメリーランド州のRockvilleに集まって、解析データを解釈する Annotation作業を行った。今回の発表はこの11日間にわたる解析作業(Annotation Jamboree)の結果をまとめたものである。これらの結果は Flybase (http://flybase.bio.indiana.edu) や Celera (http://www.celera.com) で見ることができる。

遺伝子の数

遺伝子を推定するプログラムにはGenscanとGenieが使われた。Genscanは 17,464、Genieは13,189の遺伝子を同定した。どちらかと言えば厳しい基準を採用しているGenieの方が正しい答えを与えている。これを専門家が見直して、最終的に13,601の遺伝子があると結論した。これはC.エレガンスの18,424 より少なく、(出芽)酵母の6241の約2倍と少ない。

タンパク質の多様性

タンパク質の多様性を議論するために、コア・プロテオームという概念を使う。遺伝子の数はタンパク質の数に対応するが、同じようなタンパク質(ファミリー、paralogなど)が存在する。そこで似たようなタンパク質は1つと数えた場合の、ある生物の総タンパク数をコア・プロテーオムと呼ぶ。これで見ると、酵母は4383、線虫は8065、ハエは9453である。この数でもハエは酵母の約 2倍でしかない。

遺伝子の重複(Paralog)

虫やハエの複雑さを特徴づけるのは、遺伝子の重複である。ハエの最大の重複クラスターは、17個の遺伝子からなるが、このタンパク質は不明である。つぎは10個の遺伝子からなるグルタチオンSトランスフェラーゼである。虫の33 の大きなクラスターのうちの11は7回膜貫通型レセプターであり、ケモセンソリーに関係しているらしい。 クラスターは染色体上の位置を考慮しているが、存在場所に関わらず、単にどれだけ重複しているかという尺度で3つをくらべてみると、虫とハエに見られ、酵母にないのがホメオボックス、分子、グアニレートシクラーゼ(guanylate)、トリプシン様のペプチターゼやエステラーゼなど、多細胞の発生に関係したタンパク質である。

モデル生物の相似性

推定だがハエの遺伝子の30%が虫に類似(ortholog)遺伝子をもっている。また20%が虫と酵母に類似なものを持っている。これらは真核生物に共通する機能を担うものであろう。ヒトの遺伝子はまだすべてが推定されていないが、 ESTs(expressed sequence tags)で見ると、ハエの約50%がヒトのそれと類似している。類似度の評価を厳しくしても、7%ぐらいはやはり類似しているということになる。3つのモデル生物に共通するトップ10のタンパク質ファミリーのうちにはZincフィンガーとキナーゼが含まれている。ハエには300のキナーゼ、85のフォスファターゼがある。虫ではキナーゼが500、フォスファターゼが185である。現在ヒトでは600のキナーゼと130のフォスファターゼが見つかっているが、これはヒトゲノムが解析されたときには1100と300にそれぞれなるだろうと予測されている。 ペプチターゼは虫で260、ハエで450である。この違いをもたらすのはトリプシン様(S1)ペプチターゼで、酵母では1つ、虫で7つ、ハエで199のクラスがある。うちハエの199のうち163は250残基の短いタンパク質であるが、残りはトリプシン様のドメインを複数もつか、モチーフのはっきりしない長い残基をもつ。このタンパク質はヒトでは消化や、complement cascade(補体反応経路)などのsignaling pathwayを司っている。ハエの場合、これらのタンパク質のあるグループは背腹パターンの形成を制御している。 マルチドメインのタンパク質の数は、酵母が672、虫が2261、ハエが2130である。こうしたタンパク質には免役グロブリンのような、細胞と細胞、細胞と気質など、細胞外ドメインをもつものが含まれている。 GPP結合タンパク質結合受容体(GPCS)も虫、ハエ、脊椎動物に共通する大きなタンパク質ファミリーである。これは虫で1100、ハエで160であり、ヒトでは少なくとも700と予想されている。その一部は受容体である。この数はハエで57(olfactory receptors)、セブラフィッシュで100(odorant receptors)、マウスは約1000である。

発生や細胞過程に関わる遺伝子

細胞同期、サイトスケルトン、細胞接着、細胞信号伝達、アポトーシス、神経伝達、免疫などに関わる遺伝子の比較もなされている。細胞信号伝達に関して言えば、虫でもハエでも既に多くの発生研究がなされているため、今回のゲノム解析で新しく見い出されたことは少ない。免疫系に関しては、例えばハエの胚の背復軸を決める遺伝子として最初に発見されたToll受容体(Toll信号系)が、ハエとマウスのカビやバクテリアへの免疫応答に必須のメディエターであることがわかっているが、今回の解析でこのToll蛋白質のホモローグがさらにいくつか発見された。

ヒトの疾病関連遺伝子

突然変異その他で、疾病の関連していると考えられているヒトの遺伝子286 の類似性遺伝子が探策された。このうちの177個がハエでorthologyが見つかった。貧血症で見られるヘモグロビンなどの遺伝子はハエにはない。また、免役グロブリンの再構成に関わる遺伝子もなく、これはハエとヒトの明らかな違いを反映している。がん遺伝子に限ると、68%がハエにorthologをもっている。その中にはホモロジーが低いもののp53類似がある。こうしたハエのがん遺伝子のorthologはほとんど虫にも存在している。ただし、p53類似は虫には見られない。 神経系疾病に関わる遺伝子の多くのorthologがハエにも見つかっている。内分泌系疾患に関したものではインシュリンパスウェイに関するorthologが見つかっている。また、卵黄(leuteinizing)ホルモン受容体と著しく類似したタンパク質がハエで見つかっている。さらに、細胞内の代謝(のパスウェイ)に関わっているヒトの疾病遺伝子のほとんどにハエのorthologが見つかっている。

解析の総論

虫やハエ(そしておそらくヒト)の複雑さは、遺伝子の数だけでは説明できない。ひとつのヒントは、細胞外ドメインが複雑なタンパク質が多細胞動物に多いことである。また、80,000と予想されるヒトの遺伝子もコア・プロテオームで見れば、虫やハエとそう違わない可能性が高い。また、これらの生物の総タンパク質のおよそ30%は、自らのタンパク質のプールにも、他のそれにも類似性をもたない。つまり、3分の1のホモロジー解析は答えを出してくれないということになる。 がんや神経疾患に関わる遺伝子のorthologがハエなどのモデル生物で見つかり、しかも単一のコピーであることは、これらの生物をモデルとした疾患の解析が可能なことを示唆している。必要ならこれらのモデル生物を「ヒト化して」使うことができる。ただし、これを効率的に進めるためには、狙った変異体を直接作成する方法の開発が必要である。最後に、ゲノム解析の結果、いまや遺伝子のネットワークを研究することが可能になってきた。

まとめ

セレーラを起こしたベンターらの提唱するショットガン法は、ゲノム解析に不向きではないかという批判が当初あった。だが、今回それが有効なことが実証された。ショットガンの有効性を支えるのは、膨大なDNAの断片配列の重なりを手掛かりに編集していく強力なコンピュータとアルゴリズムである。 今回の成果は、配列データを出したことだけでなく、Annotation(解釈)を行ったことにも支えられている。これを可能にしたのは彼らが「生物科学オタクのウッドストック」と呼んだ集まりだった。それは5か国、20の研究機関からの40名以上の分野を異にする専門家を2週間もカンヅメにした共同作業だった。歴史があり、研究仲間社会が形成されているハエの場合は、これが可能だったが、はるかに多様性に富んだヒトの場合、こうしたことをうまくやるには、相当な工夫が必要だろう。 1年前の線虫、今回のハエの成果を踏まえ、ヒトのゲノム配列決定がいよいよ大きくクローズアップされてきた。塩基対で言えば今回(120Mb=1.2億塩基対)の約30倍(30億塩基対)である。だが問題はゴールの見えた配列決定ではなく、むしろその解釈、Annotionであろう。 今回のAnnotion作業の基礎になった遺伝子の分類には、Gene Ontologyのそれが使われている。これは酵母、ハエ、マウスの各ゲノム解析計画の共同作業の産物である。この分類法は今後ヒトを含む、他の生物の遺伝子の分類にも事実上の標準として採用されていくように思われる。 今回の発表でも明らかであるが、ゲノム配列データは必ずしも正確なものでない。詳細の詰めやSNPsを含めた遺伝的なバリエーションの発見は今後に残されている。ゲノム配列データに限らず、インターネットでアクセスできる膨大なデータを理論的にだけ解析する研究者は、データの精度や信頼性によほど気をつけなくてはならないだろう。 配列データだけでは特許が認められないとの合意が米国やヨーロッパで形成されつつある。特許取得には(遺伝子としての)有用性を証明する必要がある。また、配列データは無償で公開するが、それを使いやすいように再編集したり、解説を付したデータベースは有料で提供されるになってきている。モンサントがイネのゲノムの配列データを無料で国に提供したことも、こうした動きの一環のようだ。このように素データから、それらの解釈へ、さらにそれらを活用する知識へをゲノム研究は進んでいる。そしてゲノムビジネスもそのように進むだろう。 酵母、線虫、ハエのゲノム解読の進歩により、モデル動物とヒトに共通する遺伝子やタンパク質の集合の特徴や、それらの相違と独自性が明らかになってきた。共通性は驚くべきものであり、進化の過程でそれらが保存されてきたことを物語っている。マウスだけでなく、ハエも虫のようなもモデル生物も、医学や医薬品開発に役立つことが具体的に見えてきた。 分子生物学の研究、研究成果発表、研究成果の活用において、インターネットがますます大きな役割を果たすようになってきている。生物種を横断するさまざまな解析は、それぞれの生物ごとの詳細なデータがインターネット上に提供されていることと、それらを解析する手法も公開されていることによって、はじめて効率的に遂行することができた。こうした科学研究のスタイルは、21 世紀の科学研究を先導するものである。だが、こうしたデータベースへどうアクセスし、どう活用するか、公開されているさまざまな解析手法をどのように使いこなすかは、多くの研究者にとって大きな問題である。とくに、線虫とか虫とか、特定のコミュニティに属していない者にとって、そうしたコミュニティの知的な資源の存在を知り、活用することは、そう容易なことではない。これはインターネット時代の重要な課題である。 ゲノム生物には、ウィルス、大腸菌、病原性微生物というような微生物の系列があり、酵母、線虫、ハエ、マウス、ヒトという動物の系列があり、アラビドプシス(シロイマナズナ)のような植物がある。最近の研究によれば、いわゆるバクテリアも古細菌と呼ばれた仲間は、バクテリア、古細菌、真核生物という生物の3区分の1つとして、独立したグループに分類されるようになった。したがって微生物はウィルスと従来のバクテリアだけとなる。動物ではさらにセブラフィッシュ、メダカ、フグ、ラットなどの脊椎動物等が加わる。 いずれにしても、ゲノム解析は今後多くの生物に拡がっていくと思われるが、医療や医薬品開発で役に立つモデル生物では遺伝学的な解析の成果が蓄積されている必要がある。その意味で重要なのが、酵母、線虫、マウスなどであろう。今回の結果によってそれらとヒトで共通するところと相違するところが、明瞭に浮かび上がってきた。この意味で、われわれは「モデル生物のゲノム解析の成果」を活かす、データや知識指向の新しい研究を具体的に構想できるようになった。これはCBIにとっても、焦眉の急といえる課題である。

おわりに

わが国は、ゲノム解析やSNPs計画において、欧米に大きな遅れをとっている。その理由は何か。今回の仕事のやり方を見ると、その違いは研究資金でも、研究者の数やスキルでも、設備でもない。根本的には、政策決定者や上級研究者の構想力と、サイエンス・コミュニティの違いである。前者は、太平洋戦争の敗戦要因そのままである。後者のそれは、職業のコミュニティあるいは補助金で結びついたコミュニティと好奇心(学問)で結びついたコミュニティの違いである。少なくとも後者の弱さは、わが国の研究のリーダー達が「夜郎自大」思考を脱して、専門を異にする人々と協力するようになれば、かなり克服できるだろう。 私はSNPsの動きに対してはPHII計画を、DNAチップやプロテオミックスの大量データ解析にはMicro AI計画をCBIへ提唱してきた。モデル生物のゲノム解析にはCROSS解析(Cross Species Analyses)計画を構想している。これらは相互に関係しあっているが、今回の発表を読んでさらに、具体的な示唆を多く得た。これらの計画に多くの研究者が関心を示し、参画して下さることを願っている。