20241031 Newsletter #46: AlphaFold 3: AI that predicts protein, the structure of cell universe
我們永遠不知道那「起初」的第一個原因; 要持續抱著謙卑追求真理的態度學習與研究科學。
上次我們討論蛋白質-生命的基石-對生命科學的研究以及醫學的重要性; 也了解了AlphaFold 是怎麼從原本的 AlphaGo 演變而來的。也可由今年的諾貝爾化學獎項頒發給 AlphaFold 與蛋白質的結構可知其重要性。因此,今天要來進一步了解的是AlphaFold 到底是怎麼運作的? 為何他可以有如此驚人的表現,2024年5月最新的一個版本 AlphaFold 3 又有什麼新的功能與進展呢?
在說明 AlphaFold 3 之前,我們首先需要先了解AI的深度學習原理:
How it works? DeepLearning Mechanisms
此模型運用了深度學習(DeepLearning)的技術。簡單來說,深度學習模型是一種模仿人腦神經網絡結構的機器學習算法; 其核心是神經網絡,由神經元組成基本單元。透過多層神經元之間的方式連接和運算,從大量數據中歸納複雜的模式和規律。每個神經元接收多個輸入信號,對其進行加權求和(Weighted Sum),並通過激活函數(Activation functions)進行非線性變換,最終產生輸出信號。這些機制被用於捕捉氨基酸序列中的關鍵信息,進而預測蛋白質的 3D 結構,裡面包含三個主要的機制:
第一,注意力機制(Attention mechanisms)是 AlphaFold 2 架構的一個關鍵特性。他的目的是從局部的細節脫身,來到更高的層次,以鳥瞰整個結構,專注於關鍵信息,忽略無關信息,跳脫局部最佳解的困境。
從本質上講,注意力機制使神經網路能通過學習如何選擇,輸入的哪些方面必須與輸入的哪些方面交互指導資訊,就是前面提到的每一筆資料的加權分數。注意力機制最早是在自然語言處理領域,例如翻譯系統能夠在翻譯任務的每個階段專注處理句子中最相關的部分。
第二,多序列比對(Multiple sequence alignment-MSA): 此機制就是模型會搜索已知相似胺基酸序列的立體結構,用已知的預測新進來的序列交叉比對。MSA 的主要功能是比對多個序列,並從中提取序列之間的相似性和差異性。
這作用有關空間接觸的資訊來源,包括確定 3D 摺疊中扮演關鍵作用胺基酸的接觸。這種方法最先實現於圖像識別的神經網路。此機制的根本是要確認,每次送出答案前自己先驗算結果,因過程中可能預測了太多的結構,它們可能彼此矛盾或不合科學原理。其中一個方式就是模型會基於既有的物理規則資料庫,來檢查是否為可實現的 3D 結構。這個步驟對於結構預測的準確性扮演重要角色。
第三,端到端預測(End-to-end prediction): 簡單來說,從輸入(Input)端到輸出(Output)端會得到一個預測結果,將預測結果和真實結果進行比較得到誤差後,再將誤差回報到網路的各個層之中,微調網路中神經元的權重和參數,不斷嘗試直到模型收斂到預期的效果為止,過程中所有的運作都在神經網路內部,不會再分成多個模組處理。
也就是AI把每一次的猜測結果與錯誤值等「學習過程」的資訊學習起來,在內部的黑盒子(Black Box)中成為下次預測的反饋系統,自己優化每次的過程; 這就是端到端的模型。就像下西洋棋、圍棋的AI一樣,他們好像能夠自己跟自己對弈,然後找到當中可以進步優化的空間。
最後,監督式機器學習(Supervised learning): 在當中,目標是學習從輸入到輸出(蛋白質序列到結構)的規則。透過更改參數來探索可能性,以最小化已知的實驗結果(Ground Factn)與預測輸出之間的偏差; 這種端到端的可微調性條件使所有參數都可以聯合調整,而不是將每個步驟拆分,最後才將不相連的結果拼湊,進而大大增加學習效率。
詳細字彙解釋可見註腳。
Note: 更詳細的原理可以參見下面的這兩篇論文: https://www.nature.com/articles/s41586-024-07487-whttps://journals.iucr.org/d/issues/2021/08/00/rr5212/index.html
AlphaFold 2 的成功不僅僅是學術上的突破,因為他們使PDB 擴展 200 倍以上 - 從近 100 萬個結構增加到超過 2 億個結構 - 大大增加人類對生物學的理解。將這些數據公開給全球科學家使用,也大大加速了生物學和醫學研究的進程,將原本需要數年時間的工作縮短到幾分鐘內完成。通過證明人工智慧可以大規模、在幾分鐘內準確地預測蛋白質的形狀,精確到原子精度,AlphaFold 不僅為長達 50 年的重大挑戰提供了解決方案,還證明了人工智慧可以成為加速科學發現的推手。
AlphaFold 3: 進一步預測DNA, RNA, Ligands等分子彼此的交互作用
AlphaFold 的研發至今仍然持續著, 2024 年 5 月 8 日發布了第三代的 AlphaFold 3。在了解前兩代的功能與原理後,一定會有個問題,那這次的模型與 AlphaFold 2 有何不同呢?為何預測出單一蛋白質還無法滿足科學研究呢?
因為預測單一個蛋白質就像知道一個積木的外型與功能,但是真正要發揮功能還需要組裝在一起。舉例來說,癌症就是基因變異產生出錯誤的蛋白質,要治療此病症,除了暸解病變的結構外,還需要找到能夠配對結合的結構(標靶藥物)來抑制癌細胞生長。因此AlphaFold 3 就是基於這樣的前提而產生的。這代的突破有三點:
第一,最大的突破是 AlphaFold 3 不再僅限於預測單鏈蛋白質,它還可以延伸至DNA、RNA、轉譯後修飾以及選定的配體(ligand與靶蛋白特定結合點相連觸發分子信號)和離子的蛋白質複合物的結構。
第二,另一大特點是增強對分子間複雜相互作用的理解,因而更準確的預測複雜結構。有了這項功能,研發藥物、小分子的單珠抗體、RNA 片段等等就能更有效率,還有許多抗生素、阿茲海默症等相關藥物,也都是應用與其他小分子化學物質之間的結合狀況發現的。AlphaFold 3 在預測藥物樣相互作用方面實現了前所未有的準確性,包括蛋白質與配體的結合以及抗體與其靶蛋白的結合。
因此他能夠模擬抗體與免疫可能的反應途徑,或是透過預測結構推導出可能的治療藥物,甚至賀爾蒙的分泌與分子間的關聯,DNA 修復的途徑等等,這些都能夠在AlphaFold 的server上在短短幾分鐘內完成,突破了先前看似mission impossible的任務。
為了達到這樣的成果,引入擴散模型(Diffusion Models)增加精準度,也是這次改良最大的亮點: AI能夠大量的將蛋白質中的原子座標化,涵蓋許多三維結構體的構造,再利用篩選機制過濾可能性較低的結果,自己現作預判斷。
如同Diffusion Models應用於AI生圖時的原理,把零碎的資料結合成一張符合邏輯的正常照片,排除了許多不合理的情形。要兼顧同時運算多種可能答案,有要在有限時間內收斂成最佳解,就是此次的最大創新與突破。目前 AlphaFold 3 的準確率比 PoseBusters (蛋白質-配體對接方法)基準上最好的傳統方法高 50%,無需輸入任何結構資訊,使 AlphaFold 3 成為第一個超越基於物理的生物分子結構預測工具的 AI 系統。
第三,為了提高模型精確度,克服使用生成擴散模型帶來的技術挑戰。AlphaFold 3 引入 Multimer 減少幻覺的發生(減幻覺機制: 也就是配合擴散模型的功能,檢查是否具有合理但是可能極低的結果,也就減少Hallucination的發生)。採用新的成對殘基關係編碼器(Pairformer)取代了原有的進化特徵處理單元 (Evoformer),增強了對複雜交互作用模式的建模能力; 此技術會從原子雲開始,並通過許多步驟收斂到其最終的最準確分子結構。
Ongoing Present-AI-powered biology
This computational work represents a stunning advance on the protein-folding problem, a 50-year-old grand challenge in biology. It has occurred decades before many people in the field would have predicted. It will be exciting to see the many ways in which it will fundamentally change biological research.
Professor Venki Ramakrishnan, Nobel Laureate and President of The Royal Society
這項計算工作代表了蛋白質摺疊問題的驚人進步,這是生物學領域一項已有 50 年歷史的巨大挑戰。它發生在該領域的許多人預測到的幾十年前。看到它將以多種方式從根本上改變生物學研究,這將是令人興奮的。
在 AlphaFold 於2024年5月推出後,其效能希望達到能夠推算所有蛋白質的情形,也真正的超越了現有的其他預測技術。目前為止還沒有真正對於 AlphaFold 3 模型的結果驗證(尚未開源),也還沒有真正的普及與透明化。但是應用電腦預測蛋白質結構的技術,對於結構生物學的領域可以說是研究的助力。
這些突破性的發現對科學和醫學有著深遠的影響; 通過更好地理解蛋白質結構,我們可以更深入地研究疾病的原因,並開發出更精確、更有效的藥物。在生物技術領域,這些發現為未來的創新帶來了更多的可能。AlphaFold 是人工智慧的巨大潛力開始實現在科學研究的第一步,看起來似乎解決了蛋白質結構預測的難題,並且對於生物在分子層級的運作機制有了前所未有的了解; 但是對於蛋白質摺疊的動力學過程、小分子交互作用等生命的奧秘仍有很多未解。
因此,任何的科學研究者,還有我們在學任何專業時仍然要保持謙卑,不管有多少的知識與研究; 無論我們對DNA, 蛋白質的交互作用有多少的了解,無論我們有多少關於分子生物學的認識,永遠還有那更大的奧秘等著我們去尋找答案。因為人的知識不完全,人沒有辦法作最完美的結論。人的認知很有限,我們雖然能夠做許多研究,但是我們無法做出絕對正確的結論,人可以由結果推敲原因,但是我們永遠不知道那「起初」的第一個原因; 要持續抱著謙卑追求真理的態度學習與研究科學。
Bibliography & Reference:
字彙解釋:
卷積神經網絡 (CNN)一種擅長捕捉局部特徵的深度學習模型,在圖像識別等領域取得了很大成功。
Transformer 模型一種基於自注意力機制的深度學習模型,可以捕捉輸入序列中任意兩個元素之間的長距離依賴關係。
Pairformer 模型一種簡化版的 Transformer 模型,更側重於成對元素之間的關係,例如 AlphaFold 中的成對氨基酸殘基。
擴散網絡 (Diffusion Network)一種生成式模型,可以從隨機噪聲中逐步生成目標數據。交叉蒸餾方法一種模型訓練方法,利用一個模型的預測結果來指導另一個模型的訓練。
EvoFormer 模組 AlphaFold 中的核心模組,通過學習蛋白質摺疊的語法來預測新的氨基酸序列的 3D 結構。
多序列比對 (MSA)一種生物信息學技術,用於比較多個 DNA、RNA 或蛋白質序列的相似性。氨基酸組成蛋白質的基本單位,不同的氨基酸序列決定了蛋白質的不同結構和功能。
Primary Research Papers:
Accurate structure prediction of biomolecular interactions with AlphaFold 3
Highly accurate protein structure prediction with AlphaFold
Improved protein structure prediction using potentials from deep learning
Accurate structure prediction of biomolecular interactions with AlphaFold 3
Website:
Further Reading:
AlphaFold:
AlphaFold: a solution to a 50-year-old grand challenge in biology
AlphaFold 3 predicts the structure and interactions of all of life’s molecules
Deep Learning:
Video Resources:
AI 已掌握生命秘密?甚至受諾貝爾獎肯定!Google DeepMind 推出 Alphafold-3,人類預測蛋白質結構數量暴增200倍!還能用來開發藥物!生醫產業將被顛覆?
【人工智能】Google发布AlphaFold 3 | 可预测所有生命分子组合 | 准确性提高100% | AlphaFold Server | DeepMind | Isomorphic Labs
Google DeepMind's New AI - AlphaFold 3 - Shocked The Industry - Unlocking Hidden Secrets of Life!
Googles ALPHAFOLD-3 Just Changed EVERYTHING! (AlphaFold 3 Explained)