Jun. 01, 2019

GlyCosmosポータルとMIRAGE(2019 Vol.22 (2), A5)

木下 聖子

木下 聖子

氏名:木下 聖子
木下聖子は1999年に米国ノースウェスタン大学よりコンピュータ工学の博士号を取得。台湾のアカデミアシニカ(中央研究所)のポスドクを経て、ロサンゼルスにあるBioDiscovery社にて上級ソフトウェア開発者として3年間勤務。2006年からは京都大学化学研究所バイオインフォマティクスセンターに移り、糖鎖インフォマティクス研究を開始。現在は創価大学教授として、教育と研究を続けながら糖鎖コミュニティのために便利な糖鎖インフォマティクスツールを開発し、生体システムにおける糖鎖の機能解明へ応用している。

1. 要旨

本シリーズの第2回では、GlyCosmosポータルとMIRAGE構想の概要について説明します。GlyCosmos Glycoscience Portalは、糖鎖科学データリソース用のウェブポータルです。GlySpace Allianceのメンバーとして、データは一般に公開されています。GlyCosmosは、糖鎖遺伝子や糖タンパク質、パスウェイ、疾患などに関する糖鎖関連オミクスデータへのアクセスを提供します。糖鎖やグライコミクスの質量分析実験のために、それぞれGlyTouCanやGlycoPOSTなど糖鎖関連リポジトリも利用可能です。MIRAGEは、グライコミクス実験を報告するための標準ガイドラインを提供するイニシアチブです。GlycoPOSTはMIRAGEと密接に連携しているので、両方について説明します。

2. GlyCosmosポータル

GlyCosmosポータルはhttps://glycosmos.orgで利用できます。2019年4月1日にリリースされて、糖鎖科学データの公式ポータルとして日本糖質学会(JSCR)により承認されました。それでは、このポータルから利用できる様々なリソースについて説明します。

リポジトリ(Submissions)

糖鎖科学用に開発された最初のリポジトリは、国際糖鎖構造リポジトリのGlyTouCanです(Tiemeyer et al. 2017)。リポジトリはデータベースとは異なり、ユーザーがデータのアクセッション番号を取得するために、データを直接追加することができます。通常、リポジトリでは、データが公開されるまでの時間をユーザーが設定できます。その時間まで、データは個別に保存され、ジャーナル編集者や査読者などの特定の人だけが利用できるようになっています。

GlyCosmosでは、GlyTouCan、GlyComb、GlycoPOSTという3つのリポジトリへアクセスできます。前述のように、GlyTouCanは糖鎖構造のリポジトリです。GlyCombは現時点でまだ開発中ですが、複合糖質リポジトリであり、GlycoPOSTは糖鎖と糖タンパク質のための質量分析(MS)データのリポジトリです。ここでは、これらリポジトリのそれぞれについて簡単に説明します。

糖鎖(Glycans)

GlyTouCanは、全ての既知のグリコシド結合で完全に特徴付けられているか、フラグメントであるか、単なる単糖類セット(構造)であるかにかかわらず、糖鎖にアクセッション番号(頭文字「G」に続いて5桁の数字にアルファベット2文字で設定される)を付与します。ユーザーは、自分のGoogleアカウントを使用して、GlyTouCanにアカウントを登録できます。その後、グラフィカルツールを用いて、またはGlycoCTかWURCS形式の糖鎖構造を指定するテキストとして、またはそのようなテキストを含むファイルとして、糖鎖情報を登録できます。GlyTouCanは、単糖とその修飾を持つ構造のみを受け付けます。アミノ酸などの非単糖残基のようなアグリコンは、登録する前に除去する必要があります。GlyTouCanの使い方の詳細については、本シリーズの後半で説明します。

複合糖質(Glycoconjugate、準備中)

GlyCombは現在、複合糖質リポジトリとして開発されています。このようなリポジトリは現在存在していませんが、複合糖質と糖脂質にアクセッション番号を割り当てる必要があります。そこでGlyCombは、糖鎖と、その糖鎖によってグリコシル化されるタンパク質や脂質を、ユーザーが特定できるようなシステムを提供します。GlyCombは今年後半に利用開始予定なので、その詳細と使用方法についても、本シリーズの後半で説明します。

グライコプロテオミクスデータ(Glycoproteomics Data)

プロテオームの質量分析データリポジトリであるjPOST(Okuda et al. 2017)の開発者らが、グライコミクス・グライコプロテオミクスのための質量分析データリポジトリとしてGlycoPOSTを開発しています。このリポジトリでは、グライコミクス実験の質量分析データのガイドラインであるMIRAGE(後述)により指定された情報を取り扱います。ユーザーは自分の電子メールアドレスを使用してアカウントを作成した後、MIRAGEのガイドラインに従って自分の実験に関するメタデータを含む「プリセット」と、実際の生データをリンクするプロジェクトを作成することができます。GlycoPOSTの使用に関する詳細は、本シリーズの後半で説明します。

データセット(Resources)

GlyCosmosでは、以下に示すデータセットはそれぞれ独自のサブセクションに表示され、データとそのデータを表示するための標準を区別するために、「Database」か「Standard」かのいずれかの注釈が付けられています。アイコン(表 1)は、各サブセクションにあるデータのタイプを示します。

表 1:アイコンのリスト、表示されるデータ(Meaning)、および関連データを有するGlyCosmos内の厳選されたリソース(Selected Resources)

Icon Meaning Selected Resources
icon Glycogenes – any genes related to glycans, including glycosyltransferases, glycohydrolases, sugar transporters, etc. GGDB, GDGDB
icon Glycoproteins – glycosylated proteins GlycoProtDB, GlyCosmos Glycoproteins
icon Lectins – proteins that recognize and bind to glycans LfDB, GlyCosmos Lectins
icon Glycans – carbohydrate sugar chains, usually with no aglycons attached GlyTouCan (GlyCosmos Glycans)
icon Glycomes – the glycan-ome as characterized by mass spectrometry (MS) technologies of whole cells or tissues GlycomeAtlas
icon Pathways – metabolic and signaling pathways in which glycoproteins or glycans are involved GlyCosmos Pathways
icon Diseases – genetic and pathogenic diseases known to be caused by glycogenes or defects in glycan metabolism, etc. GDGDB (glyco-disease gene database)
icon Pathogens – pathogens known to bind to glycans PACDB
図1
図 1 GlyCosmosポータルのトップページのスクリーンショット
2つの主要なセクションであるリポジトリ(Submissions)とデータベース(Resources)があり、後者はさらにサブセクションに分割されています。

データセット(Resources)はデータのタイプ別に整理されています。ユーザーはデータ・タイプをクリックして階層を下るか、ページ左側のメニューから特定のデータリソースを直接クリックすることができます。関連リソースへのリンクは右側に一覧表示されています。各データ・タイプは以下のとおりです。

遺伝子/タンパク質/脂質(Genes/Proteins/Lipids)

本文を書いている時点で遺伝子/タンパク質/脂質からアクセスが可能なリソースを、表 2に示します。現在、脂質情報はないものの、LIPID MAPSデータベース(Sud et al. 2006)から糖鎖関連脂質データが蓄積されており、準備中です。このサブセクションのデータリソースの大部分は、アジアの糖鎖関連データベースのポータルであるACGG-DB(https://acgg.asia/db/)によって提供されています。これらについては、本シリーズの後半で詳しく説明します。GlyCosmosによって提供される2つのリソースは、セマンティックウェブ技術によって可能になります(Aoki-Kinoshita et al. 2013)。これにより、Protein Data Bank(PDB)(Kinjo et al. 2018)、UniProt(Bateman et al. 2017)、及びGlycoProtDB(Kaji et al. 2017)のデータを統合することができます。GlyCosmos Lectinsは、UniProtでレクチンとしてアノテートされているPDBのタンパク質エントリーのリストです。レクチンがグリコシル化されている場合は、そのグリコシル化部位の情報も表示されます。例えば、ポリシスチン-1(UniProt ID P98161)は高度にグリコシル化されたレクチンですので、グリコシル化部位数によってリストをソートするだけで容易に見出すことができます。

GlyCosmos Glycoproteinsは、UniProtで注釈が付けられている糖タンパク質のリストです。GlycoProtDBのグリコシル化部位情報と組み合わせると、各糖タンパク質のエントリーにより、それらのグリコシル化部位に対して各データベースがどのように注釈を付けたかがわかります。GlycoProtDBには実験的に検証されたデータが含まれているので、この情報はUniProtの注釈と一緒に確認できます。

表 2:遺伝子/タンパク質/脂質カテゴリで利用可能なデータリソースのリスト
各データプロバイダも一覧表示され、GlyCosmosからアクセスできます。

Data type Resource Provider
Data type GlycoGene Database (GGDB) ACGG-DB
Glyco-Disease Genes Database (GDGDB) ACGG-DB
Proteins GlycoProtDB ACGG-DB
Lectin frontier Database (LfDB) ACGG-DB
GlyCosmos Lectins GlyCosmos
GlyCosmos Glycoproteins GlyCosmos
糖鎖/複合糖質(Glycans/Glycoconjugates)

糖鎖/複合糖質セクションで、ユーザーはGlyTouCanとGlycoProtDBにアクセスできます。前述のように、GlycoProtDBはACGG-DBによって提供されるデータベースであり、LC/MSベースの技術を使用して実験的に検証された糖タンパク質(グリコシル化タンパク質)情報を含みます。これらのデータベースの使用法に関する詳細は、本シリーズの後半で説明します。

グライコーム(Glycomes)

グライコームは、1つの細胞内、組織内、または生体内の全糖鎖構造であると定義されます。グライコームを完全に同定するためのハイスループット技術はまだ初期段階にありますが、実現するために世界中のグループによって多くの努力が重ねられてきました。GlycomeAtlasリソース(Konishi and Aoki-Kinoshita 2012)は、もともとRINGS(http://www.rings.t.soka.ac.jp)で開発されました(Akune et al. 2010)。そして現在は、ヒト、マウス、ゼブラフィッシュのグライコームのための視覚化ツールを提供しています(Yamakawa et al. 2018)。このリソースも現在GlyCosmosから利用可能です。

TotalGlycomeデータベースは、古川らによって同定されたMSデータの視覚化のために開発されました(Furukawa et al. 2017)。これにはN型糖鎖やO型糖鎖、スフィンゴ糖脂質、グリコサミノグリカン、遊離オリゴ糖のグライコミクス分析からの定量的データが含まれています。蓄積してきた各種データをユーザーが比較できるようにするための様々な視覚化ツールも利用可能です。

パスウェイ/疾患(Pathways/Diseases)

GlyCosmosのこのサブセクションでは、GlyCosmos Pathways、Glyco-Disease Genes Database(GDGDB)に加え、PacDBへのアクセスを提供しています。GDGDBは、共に関連している遺伝子/タンパク質/脂質サブセクションからもアクセス可能です。GlyCosmos Pathwaysは、糖タンパク質が関与している経路の一群です。全ての経路はReactomeデータベース(Fabregat et al. 2018)から抽出されており、Signaling Pathway Visualizer(SPV)ツール(Calderone et al. 2018)を使用して視覚化されています。

PACDBは、ACGG-DBによって提供されるPathogen Adherence to Carbohydrate Databaseを表わす略語です。微生物の糖鎖結合タンパク質と宿主上の糖鎖との間の相互作用が重要な役割を果たして生じる疾患についての情報を提供しています。本文作成中の時点で、446種の病原体が記載されており、それらが結合しているか、していないかを問わず、糖鎖に関する情報が記載されています。参考文献には、データが報告されている元の出版物を引用しています。GlyCosmos PathwaysとPACDBの使用方法に関する詳細も、本シリーズの後半で説明します。

オントロジー(Ontologies)

オントロジーとは、体系化された方法でデータを説明するために使用される語彙を指します。最もよく知られているオントロジーは遺伝子オントロジー(Gene Ontology; GO)であり、これは遺伝子をその分子機能、細胞内局在、生物学的プロセスに従って編成しています。糖鎖科学では、GlycoRDFが最初に糖鎖構造を記述するためのオントロジーです(Ranzinger et al. 2015)。名称には「RDF」という用語が含まれていますが、実際はResource Description Framework(RDF)という構造ではなく、むしろRDFで糖鎖を記述できるように開発されたオントロジーであり、セマンティックウェブ用語なのです。GlycoRDFでは、GlyTouCan IDで指定された糖鎖に、出版物情報や当該糖鎖の同定に使用された実験、生物由来のものか化学合成によるものかなどの注釈を付けることができます。GlyTouCanで用いられるオントロジーはGlycoRDFに基づいており、そのうえ他の多くの糖鎖データベースもGlycoRDFを使用していることから、セマンティックウェブクエリはこれらのデータセットをまたいでわかり易く作成できます。セマンティックウェブ技術に関する詳細情報は、(Aoki-Kinoshita et al. 2013, 2015; Kawano 2017)にあります。

GlyCosmosでは、オントロジー・サブセクションから、PacOnto(PACDBでデータを記述するために開発されたオントロジー)やGGDonto(GDGDBでデータを記述するために開発されたオントロジー)はもとより、GlycoRDFに関する情報にアクセスできます(Solovieva et al. 2018)。GlycoCoO(「glī-kō-koo」と発音)は、複合糖質オントロジーであり、複合糖質の情報を標準化するために開発されました。

表記法(Notations)

表記法は本シリーズの初回に説明しました。GlyCosmosの当セクションでは、GlyCosmosが推奨する各表記法の詳細にアクセスできます。これには、WURCS、GlycoCT、およびSymbol Nomenclature for Glycans(SNFG)が含まれます。

3. MIRAGE

MIRAGEは、Minimum Information Required for A Glycomics Experimentの略称です(York et al. 2014)。これは、質量分析、糖鎖アレイ、液体クロマトグラフィーなど、グライコミクス実験を報告する際に必要な最小限の情報を規定するためにMIRAGE委員会によって定められた一連のガイドラインです。MIRAGEはドイツのBeilstein Instituteによってサポートされていて、MIRAGE委員会は、世界中の著名な糖鎖科学者とグライコインフォマティシャンから成り立っています。

提案された最初のMIRAGEガイドラインは、糖鎖の質量分析実験用でした(Kolarich et al. 2013)。このガイドラインには、グライコミクスにMSを使用した実験結果を公開するときに、ユーザーが報告に必要な項目を特定できるフレームワークがあります。UniCarb-DR(https://unicarb-dr.biomedicine.gu.se/)は、ユーザーが実験のためにMIRAGE関連情報を入力できるウェブツールを提供しており、特定のフォーマットで整形されたExcelスプレッドシートに必要な情報が入力されたファイルを入手できます。次に、GlycoPOSTはこの情報を「プリセット」としてインポートし、MS実験の基本的なMS装置に関する情報を保存します。この「プリセット」はその後に登録するMS実験のピークリストや生データと結びつけ、「プロジェクト」として登録します。

他のMIRAGEガイドラインも開発中ですので、最新情報について興味のある方は、MIRAGEホームページ https://www.beilstein-institut.de/en/projects/mirage にアクセスしてください。


References

  1. Akune Y, Hosoda M, Kaiya S, et al (2010) The RINGS resource for glycome informatics analysis and data mining on the Web. OMICS 14:475–86 . doi: 10.1089/omi.2009.0129
  2. Aoki-Kinoshita KF, Bolleman J, Campbell MP, et al (2013) Introducing glycomics data into the Semantic Web. J Biomed Semantics 4: . doi: 10.1186/2041-1480-4-39
  3. Aoki-Kinoshita KF, Kinjo AR, Morita M, et al (2015) Implementation of linked data in the life sciences at BioHackathon 2011. J Biomed Semantics 6: . doi: 10.1186/2041-1480-6-3
  4. Bateman A, Martin MJ, O’Donovan C, et al (2017) UniProt: the universal protein knowledgebase. Nucleic Acids Res 45:D158–D169 . doi: 10.1093/nar/gkw1099
  5. Calderone A, Cesareni G, Stegle O (2018) SPV: a JavaScript Signaling Pathway Visualizer. Bioinformatics 34:2684–2686 . doi: 10.1093/bioinformatics/bty188
  6. Fabregat A, Jupe S, Matthews L, et al (2018) The Reactome Pathway Knowledgebase. Nucleic Acids Res 46:D649–D655 . doi: 10.1093/nar/gkx1132
  7. Furukawa J, Soga M, Okada K, et al (2017) Impact of the Niemann–Pick c1 Gene Mutation on the Total Cellular Glycomics of CHO Cells. J Proteome Res 16:2802–2810 . doi: 10.1021/acs.jproteome.7b00070
  8. Kaji H, Shikanai T, Suzuki Y, Narimatsu H (2017) GlycoProtDB: A Database of Glycoproteins Mapped with Actual Glycosylation Sites Identified by Mass Spectrometry. In: A Practical Guide to Using Glycomics Databases. Springer Japan, Tokyo, pp 215–224
  9. Kawano S (2017) Glycobiology Meets the Semantic Web. In: A Practical Guide to Using Glycomics Databases. Springer Japan, Tokyo, pp 351–370
  10. Kinjo AR, Bekker G-J, Wako H, et al (2018) New tools and functions in data-out activities at Protein Data Bank Japan (PDBj). Protein Sci 27:95–102 . doi: 10.1002/pro.3273
  11. Kolarich D, Rapp E, Struwe WB, et al (2013) The minimum information required for a glycomics experiment (MIRAGE) project: improving the standards for reporting mass-spectrometry-based glycoanalytic data. Mol Cell Proteomics 12:991–5 . doi: 10.1074/mcp.O112.026492
  12. Konishi Y, Aoki-Kinoshita KF (2012) The GlycomeAtlas tool for visualizing and querying glycome data. Bioinformatics 28:2849–2850 . doi: 10.1093/bioinformatics/bts516
  13. Okuda S, Watanabe Y, Moriya Y, et al (2017) jPOSTrepo: an international standard data repository for proteomes. Nucleic Acids Res 45:D1107–D1111 . doi: 10.1093/nar/gkw1080
  14. Ranzinger R, Aoki-Kinoshita KF, Campbell MP, et al (2015) GlycoRDF: An ontology to standardize glycomics data in RDF. Bioinformatics 31:919–925 . doi: 10.1093/bioinformatics/btu732
  15. Solovieva E, Shikanai T, Fujita N, Narimatsu H (2018) GGDonto ontology as a knowledge-base for genetic diseases and disorders of glycan metabolism and their causative genes. J Biomed Semantics 9:14 . doi: 10.1186/s13326-018-0182-0
  16. Sud M, Fahy E, Cotter D, et al (2006) LMSD: LIPID MAPS structure database. Nucleic Acids Res 35:D527–D532
  17. Tiemeyer M, Aoki K, Paulson J, et al (2017) GlyTouCan: An accessible glycan structure repository. Glycobiology 27: . doi: 10.1093/glycob/cwx066
  18. Yamakawa N, Vanbeselaere J, Chang L-Y, et al (2018) Systems glycomics of adult zebrafish identifies organ-specific sialylation and glycosylation patterns. Nat Commun 9:4647 . doi: 10.1038/s41467-018-06950-3
  19. York WS, Agravat S, Aoki-Kinoshita KF, et al (2014) MIRAGE: The minimum information required for a glycomics experiment. Glycobiology 24:402–406 . doi: 10.1093/glycob/cwu018
top