琉球大学工学部宮田龍太助教、中央大学理工学部田口善弘教授、沖縄工業高等専門学校生物資源工学科池松真也教授らのチームで取り組んだ、藤澤孝太氏の琉球大学大学院理工学研究科博士前期課程の修士論文テーマである本研究成果がNature Research社の学術雑誌「Scientific Reports」誌に掲載されました。
<発表のポイント>
|
<発表概要>
- 誰がどのような成果を出したのか
琉球大学工学部宮田龍太助教、中央大学理工学部田口善弘教授、沖縄工業高専門学校生物資源工学科池松真也教授らの共同チームが、COVID-19に関連する遺伝子群123個を約6万個の候補の中からAIで特定した。さらに、これら123個の遺伝子の発現を上流で制御する転写因子をバイオインフォマティクス(注1)の知識を活用し特定した。今年の3月に大学院理工学研究科博士前期課程を修了した藤澤孝太氏の修士論文テーマであった本研究成果は、Nature Research社から刊行された国際誌「Scientific Reports」のオンライン版に掲載される予定である。 - 新規性(何が新しいのか)
特定した転写因子(注2)には防御システムの要であるNF-κB(図1のNFKB1とRELA)が含まれており、さらにそれらの活性がヒストン修飾(注3)で抑制されていることが解析結果から示唆され、新型コロナウイルス感染症によりヒトの免疫系機能が低下するメカニズムの一端を明らかにした。 - 社会的意義/将来の展望
いま世界中で猛威を奮っている新型コロナウイルス感染症の全容を解明し、効果的な治療法を確立するには、臨床試験だけでなく本論文のようなゲノムデータ解析をはじめとした多様な病態解析で知見を積み重ねる必要があり、今後チームは重症化や変異株に関連する遺伝子を探索していく予定である。
図1: 本論文の概要(論文本編Fig. 1を改変).
<発表内容>
①研究の背景・先行研究における問題点
現在、新型コロナウイルス感染症(COVID-19)が世界中で猛威を奮っています。SARS-CoV-2により引き起こされるこの感染症は2019年12月に中国で最初に確認され、瞬く間に多くの人命を奪い、私たちの日常を大きく変化させました。現状を打開すべく、様々な研究機関でワクチン開発や診断・治療法の確立にむけた基礎研究、後遺症についての調査など数多くの治験や臨床研究が行われており、COVID-19の詳細なメカニズムを解明することが急務となっております。
COVID-19特効薬開発の手がかりを得る方法の一つとして、遺伝子発現解析があります。この解析は患者さんと非患者さんで遺伝子の発現レベルがちがう箇所を調査し、疾患発症に関わる遺伝子をできるだけ少ない個数で特定することが目的です。
遺伝子発現解析の難しさは、候補となる遺伝子の数が数万個と膨大な一方で、サンプル(データ)数は採取するコストが高いため、数個しか手に入らないというlarge p small n問題(注4)にあります。今回使用したデータも候補となる遺伝子数は59,618個でサンプル数は34名分でした。
②研究内容(具体的な手法など詳細)
筆頭著者の藤澤氏らは、中央大学の田口教授が開発した「主成分分析に基づいた教師なし学習による変数選択法(PCA-based unsupervised feature extraction, PCAUFE1)」を使って今回のゲノムデータが抱えるlarge p small n問題を解決しました。このAI手法を適用することで、全くウイルスに感染していない通常の人と比べて新型コロナウイルス感染者の体内で発現量が異常に増えている/減っている遺伝子を検出できます。PCAUFEを被験者の血液から採取した遺伝子発現量データ2に適用したところ、表1に示す123個がCOVID-19の発症に関連する遺伝子群として特定できました。
これらの遺伝子が持つ機能をMetascape3というバイオインフォマティクスのデータベースを使って調べたところ、免疫に関連するものが多く含まれていることがわかりました。
さらに、PCAUFEで特定した123個の遺伝子の発現を制御する転写因子をEnrichr4というバイオインフォマティクスのデータベースを使って検索したところ、図2の通り、NFKB1とRELAが上位にヒットしました。これらは「防御システムの要」と言われているNF-κBに深く関係する転写因子であり、それらの活性がヒストン修飾H3K36me3で抑制されていることがわかりました。
③社会的意義・今後の予定
一連の解析で、新型コロナウイルス感染症によりヒトの免疫系機能が低下するメカニズムの一端を解明できましたが、はたして今回特定できた123個の遺伝子群に単なる相関関係に留まらずCOVID-19発症の「因果」と呼べるものが含まれているかどうか、更なる検証を重ねる必要があります。課題は山積みですが、COVID-19の効果的な治療法を確立するには臨床試験のみならず、バイオインフォマティクスをはじめとした多様な病態解析で知見を積み重ねていくことが重要だと著者一同は考えております。
上記と併せて、今後はCOVID-19重症化や変異株に関連する遺伝子群を探索する予定です。
表1:本研究で特定したCOVID-19関連遺伝子群123個。
図2:表1のCOVID-19関連遺伝子123個の発現を制御する転写因子の候補群(Enrichr TRRUST Transcription Factors 2019より)。棒グラフの長さと色の明るさはフィッシャーの正確確率(検定のP値の小ささ)を表現している。
<用語解説>
(注1)バイオインフォマティクス:生命科学と情報科学の融合分野のひとつで、DNAやRNA、タンパク質をはじめとする生命がもつ情報をコンピュータで分析することで、生命現象を解き明かすことを目的としている。
(注2)転写因子:DNAに特異的に結合するタンパク質で、ある特定の遺伝子の転写(DNAの情報をRNAに写しとる過程)レベルを増減させる機能をもつ。
(注3)ヒストン修飾:細胞の核に存在するタンパク質であるヒストンはアセチル化やメチル化など様々な化学的な修飾を受けており、それが遺伝子発現制御に関与していると考えられている。
(注4)Large p small n問題:サンプルの数が少なく、変数の数が多いデータを扱う場合に生じる問題で、通常の統計手法による解決は困難。数学の連立方程式で、式の数よりも未定係数の数が多いと解が1つに定まらない状況によく似ている。
<参考文献>
- Taguchi, Y-h. (2020) Unsupervised feature extraction applied to bioinformatics: a PCA based and TD based approach. Springer.
- Arunachalam, P. S., et al. (2020) Systems biological assessment of immunity to mild versus severe COVID-19 infection in humans. Science 369: 1210–1220.
- Zhou, Y., et al. (2019) Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Commun. 10: 1523.
- Chen, E., et al. (2013) Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics 14: 128.
<謝辞>
- 本研究は、沖縄県委託事業である令和2および3年度「健康・医療産業における情報技術活用促進事業」の一環として実施されました。
- 今回使用したデータは全て National Center for Biotechnology Information (NCBI) のGene Exression Omnibuns (GEO) から取得しました。
<論文情報>
- 論文タイトル PCA-based unsupervised feature extraction for gene expression analysis of COVID-19 patients
(COVID-19患者の遺伝子発現量解析へのPCAに基づいた教師なし学習による変数選択法の適用) - 雑誌名 Scientific Reports
- 著者 Kota Fujisawa, Mamoru Shimo, Y-h. Taguchi, Shinya Ikematsu, and Ryota Miyata*
(藤澤 孝太1, 志茂 衛2, 田口 善弘3, 池松 真也4, 宮田 龍太5
1東京工業大学生命理工学院, 2琉球大学大学院理工学研究科, 3中央大学理工学部,4沖縄工業高等専門学校生物資源工学科, 5琉球大学工学部) - DOI番号 1038/s41598-021-95698-w