はじめに
「大腸菌、酵母、線虫(C. エレガンス)、ショウジョウバエ、マウス、ア ラビドプシスなど、いわゆる分子生物学のモデル生物と呼ばれている生物のゲ ノム解析の意義は何か?」これは、最近のCBIの研究講演会の企画を考える上 で、常に気になっていたことである。たまたま久しぶりに線虫をテーマとする 研究講演会の詳細が決まった3月末、ショウジョウバエのゲノム配列決定の ニュースを新聞で眼にした。早速この記事のもとになったサイエンスの最新 (2000年3月24日)号の特集記事群(主としてVol.287、pp:2182-2224と関連記 事)を読んでみた。期待どおりと言うべきか、そこには、最初にあげた私の疑 問に対する回答だけでなく、分子生物学のつぎの課題や、医学や医薬品開発へ の応用の可能性についても多くのヒントが書かれていた。そこで、4月14日の C.エレガンスの研究講演会の参考資料として急ぎ以下の拙文をまとめてみた。ショウジョウバエのゲノム
今回発表されたのはショウジョウバエ(Drosophila melanogaster)のほぼ 全ゲノムの塩基配列である。このハエは1910年、T. H. Morganが白色の眼をも つ突然変異体を見つけて以来、遺伝学の材料として、最も研究がなされてきた 生物である。分子生物学の関心が、発生や行動に広がるにつれ、ショウジョウ バエは最も簡便な材料として、再び注目されるようになった。線虫も後者の視 点で注目されるようになり、両者は並び称される分子生物学の代表的な材料と なった。
このハエには雌雄があるが、それぞれ4対の染色体をもつ。性染色体は、X、 Yで、雌はXを対でもち、雄はXとYを対にもつ。雌雄共通である常染色体は、大 きな第3染色体とやや小さな第2染色体、さらに点状の第4染色体からなってい る。これらの4つの染色体は部位によってHeterochromatin、Euchromatin、 Centromereに分画される。ゲノムの大きさは、180Mb(1.8億塩基)と推定され るが、そのうちの3分の1は、Heterochromatinであり、残りの120Mbが Euchromatinである。後者はほとんど第2、第3染色体とX染色体上にある。すな わちY染色体にはなく、第4染色体にはわずか1Mbしかない。Heterochromatinは 主として短い配列の繰り返しである。配列決定の技術上の問題として、このよ うな配列は安定的にクローニングすることが難しい。そこで、解析のターゲッ トにされたのは約120MbのEuchromatinの部分である。ゲノム解析の過程
遺伝学あるいは分子生物学の由緒ある材料であるだけに、このハエのゲノム 計画(Dorosophila Genome Project「ショウジョウゲノム計画」と呼ぶべき か)にはバークレイ、ヨーロッパ、カナダのグループが名乗りをあげていた が、彼らはすでに4分の1の28Mbの配列を決定していた。残りの4分の3を、 Celera Genomicsのグループがバークレイの共同チームの協力の下に、昨年の5 月から9月の間に解析装置を動かして決定したのである。
11月、ハエ、タンパク質、バイオインフォマティックスなどの研究者40名以 上がメリーランド州のRockvilleに集まって、解析データを解釈する Annotation作業を行った。今回の発表はこの11日間にわたる解析作業 (Annotation Jamboree)の結果をまとめたものである。これらの結果は Flybase (http://.flybase.bio.indiana.edu)やCelera (www.celera.com)で見 ることができる。遺伝子の数
遺伝子を推定するプログラムにはGenscanとGenieが使われた。Genscanは 17,464、Genieは13,189の遺伝子を同定した。どちらかと言えば厳しい基準を 採用しているGenieの方が正しい答えを与えている。これを専門家が見直し て、最終的に13,601の遺伝子があると結論した。これはC.エレガンスの18,424 より少なく、(出芽)酵母の6241の約2倍と少ない。タンパク質の多様性
タンパク質の多様性を議論するために、コア・プロテオームという概念を使 う。遺伝子の数はタンパク質の数に対応するが、同じようなタンパク質(ファ ミリー、paralogなど)が存在する。そこで似たようなタンパク質は1つと数え た場合の、ある生物の総タンパク数をコア・プロテーオムと呼ぶ。これで見る と、酵母は4383、線虫は8065、ハエは9453である。この数でもハエは酵母の約 2倍でしかない。遺伝子の重複(Paralog)
虫やハエの複雑さを特徴づけるのは、遺伝子の重複である。ハエの最大の重 複クラスターは、17個の遺伝子からなるが、このタンパク質は不明である。つ ぎは10個の遺伝子からなるグルタチオンSトランスフェラーゼである。虫の33 の大きなクラスターのうちの11は7回膜貫通型レセプターであり、ケモセンソ リーに関係しているらしい。
クラスターは染色体上の位置を考慮しているが、存在場所に関わらず、単に どれだけ重複しているかという尺度で3つをくらべてみると、虫とハエに見ら れ、酵母にないのがホメオボックス、分子、グアニレートシクラーゼ (guanylate)、トリプシン様のペプチターゼやエステラーゼなど、多細胞の 発生に関係したタンパク質である。モデル生物の相似性
推定だがハエの遺伝子の30%が虫に類似(ortholog)遺伝子をもっている。 また20%が虫と酵母に類似なものを持っている。これらは真核生物に共通する 機能を担うものであろう。ヒトの遺伝子はまだすべてが推定されていないが、 ESTs(expressed sequence tags)で見ると、ハエの約50%がヒトのそれと類似 している。類似度の評価を厳しくしても、7%ぐらいはやはり類似しているとい うことになる。3つのモデル生物に共通するトップ10のタンパク質ファミリー のうちにはZincフィンガーとキナーゼが含まれている。ハエには300のキナー ゼ、85のフォスファターゼがある。虫ではキナーゼが500、フォスファターゼ が185である。現在ヒトでは600のキナーゼと130のフォスファターゼが見つ かっているが、これはヒトゲノムが解析されたときには1100と300にそれぞれ なるだろうと予測されている。
ペプチターゼは虫で260、ハエで450である。この違いをもたらすのはトリプ シン様(S1)ペプチターゼで、酵母では1つ、虫で7つ、ハエで199のクラスが ある。うちハエの199のうち163は250残基の短いタンパク質であるが、残りは トリプシン様のドメインを複数もつか、モチーフのはっきりしない長い残基を もつ。このタンパク質はヒトでは消化や、complement cascade(補体反応経 路)などのsignaling pathwayを司っている。ハエの場合、これらのタンパク 質のあるグループは背腹パターンの形成を制御している。
マルチドメインのタンパク質の数は、酵母が672、虫が2261、ハエが2130で ある。こうしたタンパク質には免役グロブリンのような、細胞と細胞、細胞と 気質など、細胞外ドメインをもつものが含まれている。
GPP結合タンパク質結合受容体(GPCS)も虫、ハエ、脊椎動物に共通する大 きなタンパク質ファミリーである。これは虫で1100、ハエで160であり、ヒト では少なくとも700と予想されている。その一部は受容体である。この数はハ エで57(olfactory receptors)、セブラフィッシュで100(odorant receptors)、マウスは約1000である。発生や細胞過程に関わる遺伝子
細胞同期、サイトスケルトン、細胞接着、細胞信号伝達、アポトーシス、神 経伝達、免疫などに関わる遺伝子の比較もなされている。細胞信号伝達に関し て言えば、虫でもハエでも既に多くの発生研究がなされているため、今回のゲ ノム解析で新しく見い出されたことは少ない。免疫系に関しては、例えばハエ の胚の背復軸を決める遺伝子として最初に発見されたToll受容体(Toll信号 系)が、ハエとマウスのカビやバクテリアへの免疫応答に必須のメディエター であることがわかっているが、今回の解析でこのToll蛋白質のホモローグがさ らにいくつか発見された。ヒトの疾病関連遺伝子
突然変異その他で、疾病の関連していると考えられているヒトの遺伝子286 の類似性遺伝子が探策された。このうちの177個がハエでorthologyが見つかっ た。貧血症で見られるヘモグロビンなどの遺伝子はハエにはない。また、免役 グロブリンの再構成に関わる遺伝子もなく、これはハエとヒトの明らかな違い を反映している。がん遺伝子に限ると、68%がハエにorthologをもっている。 その中にはホモロジーが低いもののp53類似がある。こうしたハエのがん遺伝 子のorthologはほとんど虫にも存在している。ただし、p53類似は虫には見ら れない。
神経系疾病に関わる遺伝子の多くのorthologがハエにも見つかっている。内 分泌系疾患に関したものではインシュリンパスウェイに関するorthologが見つ かっている。また、黄体形成ホルモン(luteinizing hormone)と著しく類似したタ ンパク質がハエで見つかっている。さらに、細胞内の代謝(のパスウェイ)に 関わっているヒトの疾病遺伝子のほとんどにハエのorthologが見つかってい る。解析の総論
虫やハエ(そしておそらくヒト)の複雑さは、遺伝子の数だけでは説明でき ない。ひとつのヒントは、細胞外ドメインが複雑なタンパク質が多細胞動物に 多いことである。また、80,000と予想されるヒトの遺伝子もコア・プロテオー ムで見れば、虫やハエとそう違わない可能性が高い。また、これらの生物の総 タンパク質のおよそ30%は、自らのタンパク質のプールにも、他のそれにも類 似性をもたない。つまり、3分の1のホモロジー解析は答えを出してくれないと いうことになる。
がんや神経疾患に関わる遺伝子のorthologがハエなどのモデル生物で見つか り、しかも単一のコピーであることは、これらの生物をモデルとした疾患の解 析が可能なことを示唆している。必要ならこれらのモデル生物を「ヒト化し て」使うことができる。ただし、これを効率的に進めるためには、狙った変異 体を直接作成する方法の開発が必要である。最後に、ゲノム解析の結果、いま や遺伝子のネットワークを研究することが可能になってきた。まとめ
セレーラを起こしたベンターらの提唱するショットガン法は、ゲノム解析に 不向きではないかという批判が当初あった。だが、今回それが有効なことが実 証された。ショットガンの有効性を支えるのは、膨大なDNAの断片配列の重な りを手掛かりに編集していく強力なコンピュータとアルゴリズムである。
今回の成果は、配列データを出したことだけでなく、Annotation(解釈)を 行ったことにも支えられている。これを可能にしたのは彼らが「生物科学オタ クのウッドストック」と呼んだ集まりだった。それは5か国、20の研究機関か らの40名以上の分野を異にする専門家を2週間もカンヅメにした共同作業だっ た。歴史があり、研究仲間社会が形成されているハエの場合は、これが可能 だったが、はるかに多様性に富んだヒトの場合、こうしたことをうまくやるに は、相当な工夫が必要だろう。1年前の線虫、今回のハエの成果を踏まえ、ヒトのゲノム配列決定がいよい よ大きくクローズアップされてきた。塩基対で言えば今回(120Mb=1.2億塩基 対)の約30倍(30億塩基対)である。だが問題はゴールの見えた配列決定では なく、むしろその解釈、Annotionであろう。
今回のAnnotion作業の基礎になった遺伝子の分類には、Gene Ontologyのそ れが使われている。これは酵母、ハエ、マウスの各ゲノム解析計画の共同作業 の産物である。この分類法は今後ヒトを含む、他の生物の遺伝子の分類にも事 実上の標準として採用されていくように思われる。
今回の発表でも明らかであるが、ゲノム配列データは必ずしも正確なもので ない。詳細の詰めやSNPsを含めた遺伝的なバリエーションの発見は今後に残さ れている。ゲノム配列データに限らず、インターネットでアクセスできる膨大 なデータを理論的にだけ解析する研究者は、データの精度や信頼性によほど気 をつけなくてはならないだろう。
配列データだけでは特許が認められないとの合意が米国やヨーロッパで形成 されつつある。特許取得には(遺伝子としての)有用性を証明する必要があ る。また、配列データは無償で公開するが、それを使いやすいように再編集し たり、解説を付したデータベースは有料で提供されるになってきている。モン サントがイネのゲノムの配列データを無料で国に提供したことも、こうした動 きの一環のようだ。このように素データから、それらの解釈へ、さらにそれら を活用する知識へをゲノム研究は進んでいる。そしてゲノムビジネスもそのよ うに進むだろう。
酵母、線虫、ハエのゲノム解読の進歩により、モデル動物とヒトに共通する 遺伝子やタンパク質の集合の特徴や、それらの相違と独自性が明らかになって きた。共通性は驚くべきものであり、進化の過程でそれらが保存されてきたこ とを物語っている。マウスだけでなく、ハエも虫のようなもモデル生物も、医 学や医薬品開発に役立つことが具体的に見えてきた。
分子生物学の研究、研究成果発表、研究成果の活用において、インターネッ トがますます大きな役割を果たすようになってきている。生物種を横断するさ まざまな解析は、それぞれの生物ごとの詳細なデータがインターネット上に提 供されていることと、それらを解析する手法も公開されていることによって、 はじめて効率的に遂行することができた。こうした科学研究のスタイルは、21 世紀の科学研究を先導するものである。だが、こうしたデータベースへどうア クセスし、どう活用するか、公開されているさまざまな解析手法をどのように 使いこなすかは、多くの研究者にとって大きな問題である。とくに、線虫とか 虫とか、特定のコミュニティに属していない者にとって、そうしたコミュニ ティの知的な資源の存在を知り、活用することは、そう容易なことではない。 これはインターネット時代の重要な課題である。ゲノム生物には、ウィルス、大腸菌、病原性微生物というような微生物の系 列があり、酵母、線虫、ハエ、マウス、ヒトという動物の系列があり、アラビ ドプシス(シロイマナズナ)のような植物がある。最近の研究によれば、いわ ゆるバクテリアも古細菌と呼ばれた仲間は、バクテリア、古細菌、真核生物と いう生物の3区分の1つとして、独立したグループに分類されるようになった。 したがって微生物はウィルスと従来のバクテリアだけとなる。動物ではさらに セブラフィッシュ、メダカ、フグ、ラットなどの脊椎動物等が加わる。 いずれにしても、ゲノム解析は今後多くの生物に拡がっていくと思われる が、医療や医薬品開発で役に立つモデル生物では遺伝学的な解析の成果が蓄積 されている必要がある。その意味で重要なのが、酵母、線虫、マウスなどであ ろう。今回の結果によってそれらとヒトで共通するところと相違するところ が、明瞭に浮かび上がってきた。この意味で、われわれは「モデル生物のゲノ ム解析の成果」を活かす、データや知識指向の新しい研究を具体的に構想でき るようになった。これはCBIにとっても、焦眉の急といえる課題である。
おわりに
わが国は、ゲノム解析やSNPs計画において、欧米に大きな遅れをとってい る。その理由は何か。今回の仕事のやり方を見ると、その違いは研究資金で も、研究者の数やスキルでも、設備でもない。根本的には、政策決定者や上級 研究者の構想力と、サイエンス・コミュニティの違いである。前者は、太平洋 戦争の敗戦要因そのままである。後者のそれは、職業のコミュニティあるいは 補助金で結びついたコミュニティと好奇心(学問)で結びついたコミュニティ の違いである。少なくとも後者の弱さは、わが国の研究のリーダー達が「夜郎 自大」思考を脱して、専門を異にする人々と協力するようになれば、かなり克 服できるだろう。
私はSNPsの動きに対してはPHII計画を、DNAチップやプロテオミックスの大 量データ解析にはMicro AI計画をCBIへ提唱してきた。モデル生物のゲノム解 析にはCROSS解析(Cross Species Analyses)計画を構想している。これらは 相互に関係しあっているが、今回の発表を読んでさらに、具体的な示唆を多く 得た。これらの計画に多くの研究者が関心を示し、参画して下さることを願っ ている。