氏名:木下 聖子
創価大学 糖鎖生命システム融合研究所 副所長
1999年 米国ノースウエスタン大学にてコンピュータ工学の博士号を取得、2000年 台湾中央研究院研究員、2003年 京都大学化学研究所研究員を経て、2006年より創価大学にて勤務。2014年 創価大学工学部生命情報工学科教授、2021年創価大学糖鎖生命システム融合研究所副所長に就任。
氏名:松井 佑介
2014年 北海道大学大学院情報科学研究科・博士課程修了(1年9ヶ月短縮修了)
2015年 名古屋大学医学系研究科 附属神経疾患腫瘍分子医学研究センター / リーディング大学院実世界データ循環学リーダー養成プログラム・特任助教
2018年 名古屋大学医学系研究科 総合保健学専攻ヘルスケア情報科学 生命人間情報健康医療学講座・准教授
2022年 糖鎖生命コア研究所 糖鎖ビッグデータセンター 数理解析部門・部門長(兼任)
氏名:テイラー 幸恵
創価大学 糖鎖生命システム融合研究所 特任講師
2016年 工学博士取得(創価大学)、同年 英Imperial Colelge London Glycosciences Lab研究員、2017年分子生物学博士取得 (豪Macquarie大学)を経て、2023年より現職。
氏名:ザッパ アキーレ
創価大学 糖鎖生命システム融合研究所(GaLSIC)の特任講師
イタリアのジェノヴァ大学にてバイオメディカルエンジニアリングの修士号を取得。さらに、同大学ならびにサンマルティノ大学病院(IST国立がん研究所)にて、バイオエンジニアリングの博士号を取得した。その後、アイルランドのゴールウェー大学データサイエンス研究にてポスドク研究員として勤務。2024年より現職。
ヒューマングライコームプロジェクト (Human Glycome Atlas project, HGA)は、東海国立大学機構、自然科学研究機構、そして創価大学の3機関が協力し、ヒトに存在する糖鎖と生合成機構を網羅するべく研究開発を行っている。ここでは、セグメント4TOHSA構築ユニットが開発しているナレッジベースTOHSAにおけるデータベースの全体像を紹介する。
糖鎖構造や機能、糖鎖ー糖鎖結合タンパク質などの相関性を解析するために、質量分析や液体クロマトグラフィー、糖鎖マイクロアレイ、レクチンマイクロアレイなどの様々な実験技術が開発されている。糖鎖インフォマティクス分野には、糖鎖関連実験データの蓄積、体系化、データベース化、さらには生物学的、生化学的データとの連携を行うことで、糖鎖構造や機能の解析、糖鎖ー糖鎖結合タンパク質のドッキングなどのシミュレーションを行う幅広い研究分野が含まれる。 現在、糖鎖関連情報をまとめたデータベースや、ユーザーがデータを登録することができるリポジトリが数多く公開されている。例えば、GlyTouCan1はユーザーが糖鎖構造を登録できる唯一のリポジトリである。 GlyTouCanでは登録された糖鎖構造にユニークなアクセッション番号が付与されるため、論文内での参照や他のデータベースとの情報連結が容易となる。現時点で、24万件以上の糖鎖構造がGlyTouCanに登録されており、年々登録数が増加している。糖鎖関連情報をまとめた様々なデータベースの一つに、GlyCosmos2,3がある。GlyCosmosは、生物種を問わず糖鎖構造(Glycan)や糖鎖遺伝子 (Glycogenes) 、糖タンパク質(Glycoproteins)、糖脂質(Glycolipids)、反応経路(Pathways)、疾患に関連する糖鎖 (Diseases) など多様な情報を一括して閲覧することができるWebプラットフォームである。現在公開中のデータベースの多くは、それぞれの目的に基づいて情報を集積し、体系化したデータの二次利用に分類される。ユーザーは体系化された情報から効率的にデータを検索することができ、またデータ解析などの三次利用へと発展させることが可能である。一方、論文などから収集したデータ形式の取り扱いが難しい場合や最新の情報ではない場合など、情報を体系化する上でデータの報告者との連携が必要となる場合がある。HGAプロジェクト4ではヒトに存在する糖鎖を網羅するべく、東海国立大学機構、自然科学研究機構、そして創価大学の3機関が連携し、糖鎖構造情報並びに生合成機構解明のためのデータを生成している。そして、本プロジェクトが掲げる目標の1つにナレッジベースTOHSA(TOtal Human Saccharide Atlas)の構築がある。私たちが所属するHGAセグメント4は統合解析基盤ユニットとTOHSA構築ユニットから構成され、セグメントリーダーである木下聖子(創価大学)のもと共同してナレッジベースTOHSAの開発を進めている5。統合解析基盤ユニットでは、ユニットリーダーである松井佑介(東海国立大学機構)が中心となり、大規模情報システムの設計と構築、並びに解析パイプラインおよび解析ツールの開発、またそのツールを用いたデータ解析を行っている6。TOHSA構築ユニットでは、ユーザーフレンドリーかつ、セマンティックウェブ7やA I技術などを組み込んだ包括的なデータベースおよびインターフェースの設計・開発を行なっている。ナレッジベースとは、データベースに保管されたデータだけでなく、その情報に関連した知識(ナレッジ)も集約したリソースである。ナレッジベースTOHSAではHGAプロジェクトで生成される実験データや大規模コホートデータ、解析ツールなどを保管(一次利用)し、さらにセマンティックウェブ技術を用いて集めた関連データと一緒に整頓して格納したのち、限定公開または一般公開としてユーザーに提供する(二次利用)。
ナレッジベースTOHSAは主に3層からなる(図 1)。第一層は「preTOHSA」と呼ばれる厳密なセキュリティが施される非公開リポジトリであり、HGAプロジェクト内において生成された全データを保管する。また、質量分析等により得られる生データから下流解析までのデータ解析、解析パイプラインやソフトウェア開発等もまた、このレイヤー内で行われる。このレイヤーにおけるデータベースの役割としては、プロジェクトにおける研究者たちが、生成したデータをサーバーシステムにアップロードして構造的にビッグデータとして格納していくことである。これによりシームレスにビッグデータ解析へと展開することを目指す。特に、ビッグデータ化後を見据えたデータの活用を考えた場合、科学的証拠の質を担保するためにメタ情報の定義と管理は重要な要素である。メタデータについて、関連するガイドラインが存在する場合は、そのガイドラインに沿った情報を保存する。たとえば、実験サンプルの調整や質量分析などの実験に伴うメタデータは、ドイツのBeilstein Institutとそれぞれの糖鎖研究分野の専門家らが集まった委員会によって推薦されたMinimum Information Required for A Glycomics Experiment(MIRAGE)8を参照した。サンプル調整ガイドライン9では、主にそのサンプルの由来、また、分離や化学修飾、精製過程という情報を記録する。質量分析ガイドライン10では、実験装置の種類および実験装置に関する制御パラメータ、データ取得プロトコールに関する記述が推奨されている。
第二層のデータベース「TOHSA」は、preTOHSAに保管されたデータから共同研究者らに共有されるデータを移行した限定公開のデータベースであり、HGAプロジェクト5年目における限定共有を目指す。TOHSAに含まれるデータには、認知症コホートや健常高齢者コホートなど、複数の大規模コホートから得られる血液サンプルのグライコーム、グライコプロテオームを定性的・定量的に分析、データ解析および整理してカタログ化したデータだけでなく、糖鎖関連データを統合・標準化するセマンティックウェブ基盤にもとづいて収集した情報も保存・管理する。
第三層のデータベース「openTOHSA」は、HGAプロジェクトにて出版公開されたデータを核としたオープンアクセスデータベースであり、本プロジェクトの終盤を目標に開発する。openTOHSAを通じて、糖鎖生物学者だけでなく生命科学に携わるすべての科学者ならびに医療研究、またこの分野を目指す学生などに幅広く活用されることを期待する。
HGAプロジェクトを通じて生成されるデータは大きく三種類に分けられる。第一に、ヒトに存在するすべての糖タンパク質を網羅するためのグライコプロテオミクスデータ、第二に大規模集団における個別のグライコプロテオミクス・グライコミクス解析データ、そして第三に生体内で合成される糖鎖の生合成機構を解析した糖鎖生合成アトラスデータである。質量分析や酵素化学、イメージング等それぞれの目的に沿った実験の結果データ、および付随する実験メタデータがナレッジベースTOHSAに格納される。
蓄積されたデータを外部データベースと連携することによって、ゲノミクスやプロテオミクスデータと関連づけたデータ解析を行う。本プロジェクトの終盤の8年目には、ヒトの関連するすべての糖鎖情報の標準が出来上がる計画となっている。openTOHSAについてはGlyCosmosや、糖鎖関連のマルチオミクスデータをコミュニティに提供することを目的の一つとした国際組織であるGlySpace Alliance11を通して他の糖鎖情報と連携していくことを計画している。
本稿では、ナレッジベースTOHSAについての概要を説明し、特にTOHSA構築ユニットが進めているデータベース開発について概説した。ナレッジベースTOHSAは本プロジェクトを通じて得られたデータをもとにカタログ化された糖鎖情報だけでなく、セマンティックウェブ技術によって収集された包括的なリソースを構築することを目指している。また、生物学者や学生などの利用者が扱いやすい、ユーザーフレンドリーなインターフェースと可視化ツールの開発も今後の課題である。統合され標準化されたグライコーム情報のセマンティック知識ベースを提供するHGAプロジェクトとTOHSAは、糖質科学研究を加速し、疾患メカニズムの解明や新規治療アプローチの開発におけるブレークスルーにつながる技術提供を目指す。