単一配列からの高速構造化 (Speedy structures from single sequences)
タンパク質構造予測のための機械学習法は、多重配列アラインメント(揃え)に存在する進化的な情報を利用して正確な構造情報を導き出してきたが、単一のアミノ酸配列から構造を正確に予測することははるかに難しい。Linたちは、実験的な構造や高品質な予測構造に関する150億個に上るパラメータを使って、transformerを用いたタンパク質言語モデルを学習させた。そして、学習の規模が拡大するにつれて、原子レベルの構造に関する情報がこのモデルに出現することを見出した。彼らは、アラインメントに基づく方法とほぼ同等の正確さを持ち、大幅に高速化した、アミノ酸配列から構造への予測器であるESMFoldを作製した。この高速化により、6億個以上のメタゲノムタンパク質を含むデータベース「ESM Metagenomic Atlas」を生成することができた。(Wt,MY,kj,kh)
- 多重配列アラインメント:複数の遺伝子やタンパク質の配列を比較した時に見られる同一あるいは同等の塩基配列やアミノ酸配列。多くの多重配列アラインメントがあれば比較している対照群は進化的に近い。多重配列アラインメントはタンパク質ファミリーの保存残基を探したり、二次構造や三次構造の予測にも用いられる。
- タンパク質言語モデル:タンパク質のアミノ酸配列に対して自然言語処理における言語モデルを適用したもの。本論文のESMFoldでは、Transformerという自然言語の深層学習モデルが用いられている。