中新網合肥7月22日電 (記者 吳蘭)記者22日從中國科學技術大學獲悉,該校生命科學與醫學部教授劉海燕、副教授陳泉團隊與信息科學技術學院教授李厚強團隊合作,開發了一種基于深度學習為給定主鏈結構從頭設計氨基酸序列的算法ABACUS-R。
經過實驗驗證,ABACUS-R的設計成功率和設計精度超過了原有統計能量模型ABACUS。
研究成果北京時間7月21日發表于《自然-計算科學》(Nature Computational Science)。
劉海燕、陳泉團隊長期致力于發展數據驅動的蛋白質設計方法,先后建立并實驗驗證了對給定主鏈結構設計氨基酸序列的統計能量函數ABACUS模型,以及利用神經網絡能量函數從頭設計主鏈結構的SCUBA模型。然而,基于傳統統計能量技術的ABACUS模型在成功率、計算效率等方面仍有不足。
近期有多項研究表明,用深度學習進行氨基酸序列設計,能夠在天然氨基酸殘基類型恢復率等計算指標上超過能量函數方法。但截至目前已正式發表的工作中,對相關方法的實驗驗證結果遠未達到能量函數方法的成功率。
劉海燕介紹,利用ABACUS-R進行序列設計的方法由兩部分組成。
第一部分是一個多任務預訓練的編碼-解碼器網絡,用于對單個氨基酸的結構和化學環境進行隱空間編碼,再解碼為包括中心殘基氨基酸類型在內的多種真實特征;第二部分是把該編碼解碼網絡迭代應用于目標主鏈的每個氨基酸殘基,直到獲得最大程度自洽的全序列。
在理論驗證的基礎上,團隊嘗試了實驗表征用ABACUS-R對3個天然主鏈結構重新設計的57條序列,其中86%的序列(49條)可溶表達并能折疊為穩定單體。實驗解析的5個高分辨晶體結構與目標結構高度一致。此外,與此前報道的從頭設計蛋白相似,ABACUS-R從頭設計的蛋白表現出超高熱穩定性,去折疊溫度大多可達100℃以上。
總的來說,相較于ABACUS模型,ABACUS-R序列設計更高的成功率和結構精度進一步增強了數據驅動蛋白質從頭設計方法的實用性。ABACUS-R還提供了一種對蛋白質局部結構信息的預訓練表示方式,可用于序列設計以外的其他任務。
審稿人認為,該研究“最新穎的貢獻在于對設計的充分實驗表征,包括晶體結構,以及可溶表達的高成功率。”