麹菌群総合ゲノムデータベース“CAoGDX”中の人に聞いてみた

”CAoGD”というデータベースをご存知でしょうか。Aspergillus 糸状菌を扱っている多くの方は既にご存知かと思います。3月31日にリニューアルオープンした新しいCAoGDXのアップデート情報を”中の人”こと片岡さん(酒総研)に伺いながら共有したいと思います。


麴菌群総合ゲノムデータベースとは?

麴菌群総合ゲノムデータベース(CAoGD/CAoGDX)は醸造用微生物の機能解明、比較、育種などに資する情報提供データベースです。このデータベースは独立行政法人酒類総合研究所(酒総研)より提供されています。他のデータベースと大きく異なる点として、日本で利用されることの多い醸造用の黄麹菌、黒麹菌、白麹菌のデータに重きを置いていることがあげられます。

CAoGDX Webページ:https://nribf21.nrib.go.jp/CAoGDX/

プレスリリース[PDF]:https://www.nrib.go.jp/topics/pdf/nribtopi20250326CAoGDX.pdf


何がアップデートされたのか?

気になる進化ポイントは何なのか、酒総研でCAoGDXに携わる片岡さんへ伺いました。

Q. 一言で何がアップグレードされたのでしょうか?

・A. oryzae RIB40株の完全長ゲノムシーケンス情報の掲載
・麴菌群における主要な系統に含まれる23の麴菌株 (RIB40を含む) の完全長ゲノムシーケンス情報の追加

 が大きなアップデート内容になります。

Q. CAoGDXだからできるようになった有効活用の方法を教えてください

他のデータベースと異なり、CAoGDXは麴菌に特化したDBであるため、遺伝子情報はもちろんのこと、各種培養条件における発現情報などを掲載しております。また、CAoGDXではRIB40株以外に、実用株を含む、様々な系統の麴菌株ゲノムを搭載しており、他菌株との遺伝子やゲノムの比較解析が行えます。


たしかに、CAoGDには浸透圧ストレスや製麹の各ポイントにおけるRNA発現推移などの他には無い情報がありますね。

実際に使ってみた!

データベースのアップデートでどこが変わったのか見比べてみました。

CAoGDXではトップページに表示される株の数がとても増えています。反対に aor0-1, aor0-2などは削減されているようです。

A. oryzae ゲノムのトップページ

RIB40のゲノムに対応するトップページ(CAoGD:aor0-5, CAoGDX:Aoryzae_RIB40)。CAoGDXでは黄麹菌の完全長ゲノムシーケンス情報を利用する事ができます。遺伝子数なども大幅に変わっています。


FAQ

CAoGDXは現在ベータ版扱いとなっておりますが、既に使っている人も多いかと思います。事前に身近な大学生・大学院生ユーザーから疑問点・質問点を集めてみましたのでこのチャンスを利用して片岡さんに聞いてみました。


Q. 文字遺伝子名で検索するとたくさん出てきて良く分かりにくい(例えばRIB40が2つある。それぞれの違いについて。)

A. 検索結果にRIB40株の結果が複数出ることについて、2つの要因が挙げられます。

1. CAoGDXには2種類のRIB40株ゲノムデータが掲載されております。

・Aoryzae_RIB40 (aor0-7) 新しく掲載した完全長ゲノムシーケンス情報、Gene IDは"RIB40_020XXXXX”

・aor0-5 CAoGDにも掲載されているAspGD由来のゲノムシーケンス情報、Gene IDは "AO090XXXXXXXXX"

そのため、それぞれのゲノムに対しての検索結果として複数表示されます。

2. 検索に用いた遺伝子名が複数の遺伝子にアノテーションされている可能性があります。

 現在、CAoGDXのアノテーションは機械的に実施されているため、検索対象遺伝子と類似な遺伝子については同じ名前でアノテーションされている可能性があります。

<解決方法>

 検索対象としたいゲノムデータ (菌株) が決まっている場合は、ページ右上の検索ボックス横にある選択窓から検索対象ゲノムを選択し検索すると、対象のみの検索結果が得られます。


Q. Original symbol, Assigned symbol, Curated symbol, Alias とは?

A. ゲノムデータごとに若干定義は異なるのですが、ここでは上にも示した "aor0-5” と ”Aoryzae_RIB40 (aor0-7)" について説明します。

Original: ゲノムデータ出典元に記載されていた情報

"aor0-5” は、出典元のAspGDに記載された情報を記載しています。

”Aoryzae_RIB40 (aor0-7)” は、本DBが初公開ですので、出典元情報はありません。そのため、aor0-5のOriginalに記載された情報を引き継いで掲載しています。

Assigned: 本DBにゲノム情報を格納する際に、BLAST検索によりアノテーションされた情報

各CDS配列を、KOGデータベース、COGデータベース、swiss-protデータベースにてBLAST検索して得られた情報を記載しています。

Curated: 手動でアノテーションした情報

現在、A. oryzaeゲノムについてはCurated情報はありません。

Alias: 他ver RIB40における相同性の高い配列のGeneID情報

"aor0-5” では、aor0-1 (CAoGDX未搭載) のGeneID情報 (AO080XXXXXXXXX) を掲載しています。"Aoryzae_RIB40 (aor0-7)” では、aor0-5およびaor0-1のGeneID情報を掲載しています。


Q. 新しいCAoGDXに表示される緑色の山はなんですか?

例えばこの画面で下部に表示される図です

https://nribf21.nrib.go.jp/CAoGDX/ctg.cgi?prj=01949&gnm=Aoryzae_RIB40&dns=Chromosome:2&pos=1393794

A. Contig Mapページには、RIB40のRNA−seq発現解析のマッピングを時系列順に(赤・青はプラス・マイナス鎖)並べたものを示しています。また、その下にはRIB40に対する、その他黄麴菌株のゲノムシーケンスのマッピング状況(緑色の山)を示しています。

RIB40ゲノムにおいて遺伝子があるにも関わらず ”緑の山” が無い場合は、遺伝子個別のページ上のOrthologタブでも遺伝子のカウントが減っている事が確認できます(例えばシングルコピーオーソログの場合RIB40で1、その他黄麴菌株で0)。

 Contig Mapページには、各種RNA-seq情報および他菌株ゲノムデータのマッピング結果が掲載されています。

 "緑色の山" については、各シーケンス時のsequencing depthを対数スケールで示しております。


Q. これまでのCAoGDやAspGDなどで利用していたAO09から始まるゲノムやアノテーションとは異なるのか、由来や成り立ち、ID類の相互関係を教えてください

A. 今回アップデートされた完全長ゲノムシーケンスであるAoryzae_RIB40 (aor0-7) では、冒頭でご紹介いただいたように、従来多くの方が利用していたaor0-5 (AO090~) ゲノムよりもゲノムサイズが大きくなり、CDS数も増加したため、以前のverでは読みきれていなかった領域もカバーできております。

 アノテーションについては、FAQの2つ目の質問のとおり、これまでのアノテーションを引き継いだ情報 (Original) および新規アノテーション情報 (Assigned)を掲載しております。

 Aoryzae_RIB40 (aor0-7) の各遺伝子ページには、aor0-5 (AO090~) ゲノムに付されていたGeneID情報も載っており、対応があるものについては、これまで利用していたAO090~のIDを検索窓から検索をしていただくと、Aoryzae_RIB40 (aor0-7) における対応遺伝子ページがヒットします。


Q. 正式なCAoGDXとしてサービス開始すると(Genome FASTAやGFFなどの)ダウンロードや、CAoGDXにある株情報を他のレポジトリーからの利用も可能になりますか?

A. ゲノム情報 (FASTAやGFF) のダウンロードについては、酒類総合研究所で実施しております麴菌パンゲノム研究に係る論文投稿と合わせて予定しております。ユーザーの皆様にはご迷惑おかけしますが、ご了承いただけますと幸いです。

(以前より多くの方から本データについてご要望いただいており、公開をお待ちいただいている方がいることは承知しております。データベース上で公開となるまでは個別に対応いたしますので、caogdx[アットマーク]nrib.go.jpもしくは酒類総合研究所 片岡までご相談ください。)


おわりに

日本の国菌であるAspergillus oryzae, A. sojae, A. luchuensisのデータベースが利用ユーザーに制限無く利用出来る環境は、これらの遺伝資源を利活用したい人にとって非常に有用な基盤サービスになるものだと思います。利用される方々の今後の分子生物学と醸造業の健全な発達を期待し、終わりにしたいと思います。

糸若運営委員ブログ

0コメント

  • 1000 / 1000