20241024 Newsletter #45: Chemistry Nobel Prize: Developers of AlphaFold AI
predicts the structure and interactions of all of life’s molecules
諾貝爾化學獎
今天我們要接續的主題是關於AI與生命科學的研究,也是今年諾貝爾化學獎的題目-蛋白質結構與AlphaFold。此獎項頒給美國西雅圖華盛頓大學的David Baker 與英國倫敦 Google DeepMind 團隊的 Hassabis 與 Jumper 博士,原因在於他們對蛋白質設計的計算 (computational protein design) 以及蛋白質結構預測 (protein structure prediction)的貢獻 。
特別的是,當中除了一位生物化學家,其中兩位是電腦科學家。生物學方面,Baker首先提出了設計蛋白質和預測其三維結構的方法。那為什麼會有電腦科學家呢? 原因就是Hassabis 和 Jumper 開發了一個 AI 模型來解決一個 50 年前看似幾乎不可能的壯舉—那就是預測蛋白質的複雜結構。
因此這次,我們就要來看看到底為何蛋白質的結構如此重要,又為何需要應用到電腦與AI呢? 開始吧!
蛋白質: The building blocks of Life
我們可以說DNA是生命的藍圖,那蛋白質就是是生命的基石。每個植物、動物和人類細胞內部都有數十億個蛋白質分子機器(Molecular Machine)。他們由蛋白質、DNA 和其他分子組成,但沒有一個分子可以獨立運作。我們可以想像成蛋白質是最基本的積木,可以組裝成身體所需的各樣立體細胞組織,負責執行大部分的重要生理功能。從構建肌肉、製造荷爾蒙,甚至到對抗疾病,蛋白質無處不在。然而,蛋白質的奧妙之處在於他們的複雜多維度結構。
有人可能會跟我一樣好奇思索著…不是已經知道序列了嗎? 像DNA一樣,這樣不就能夠知道他們所代表的意義了嗎? 但是對蛋白質來說,除了序列,他們的結構意義重大,因為結構會決定他們的功能,透過觀察結構也能夠推測出可能的用途。甚至透過人為修飾、配對、組合,也能夠創造出具有特定需求功能的蛋白質。因此,蛋白質的結構可說是組裝的關鍵。想想看我們先前比喻的樂高積木,如果曾玩過樂高,就會知道,不同類型與大小的積木用途就會非常不一樣。如果我只告訴你上面有幾個組裝的點點,你會知道它的面積、體積、大小甚至功能嗎? 當然不可能,因此了解蛋白質的結構也是一樣,甚至還要更複雜,因為這是一個超乎所有聰明絕頂的科學家或是建築師能夠建構出來的結構,看看我們對他的了解程度是多麼的有限,就知道設計師的偉大了!
還記得我們上一篇講解關於miRNA的過程提到的分子生物學中心法則以及基因調控嗎? 現在我們來到基因調控的後半段,就是將mRNA上的序列轉譯成蛋白質。更具體的來說,mRNA轉譯後應該是先成為多肽鏈,他們像是串珠項鍊一樣,按照特定順序連接。而這些長鏈胺基酸再透過不同的作用修飾、摺疊,進而形成不同的形狀與結構,造就不同的功能,我們來看看幾個常見的蛋白質: 鈉離子通道蛋白、胰蛋白酶。
蛋白質結構之謎-Protein Folding Prediction
長久以來,科學家們一直在努力想要推測這個形狀,因為如果我們能夠準確預測蛋白質的結構,我們就能更深入的理解生命在分子層級下的運作方式;雖然科學家都知道胺基酸序列決定結構,也決定功能,但如何決定? 又如何準確預測?
最早科學家是透過X光的晶體繞射實驗,觀察蛋白質的結構,至1970年代以來至今累積了約22萬筆的資料;但實際觀測蛋白質結構的技術需要大量時間與精密技術,因為過程需要培養大量單一種類的蛋白質,還要濃縮去除水分,再凝聚成晶體,才能用X光照射。並且需要根據大量反色光形成的圖像,將平面的繞射圖形,疊加成為3D結構,慢慢建構出真實的樣貌。平均大約一種蛋白質需要耗時1~2年的時間才能養出足夠的結晶,也可能常常遇到較難培養的結構,甚至需要更久的時間。經過這樣的努力,當時PDB(Protein Data Base) 當中的20多萬蛋白質結構只有7萬是人類的蛋白質,這樣的量甚至不到人類蛋白質種類的三分之一,對於醫療或是生物研究可以說是一大困難。
就算其他動物、細菌、病毒的蛋白質種類加起來,與現在自然界已知的數十億種蛋白質相比,實在是微不足道。若繼續按照這樣的技術來研究蛋白質結構,時間就是最大的挑戰,因此生物學家一直努力在找尋能夠有工具,幫助他們透過輸入指定的胺基酸序列,就能夠生成出三維的蛋白質結構。難道問題真的無法解決嗎?
過去雖然已經有相關電腦的軟體可以大略推估,給出更接近的培養或是篩選條件,縮短工期,但仍然費工又需要大量人力物力的投注。在1990 年代也有使用神經網路做蛋白質二級結構預測的嘗試,但受限於模型的計算能力,因此進度緩慢;直到近十年內,因為電腦運算力的指數成長,AI的應用開始嶄露頭角……
History of AlphaFold-AlphaGo到AlphaFold:從圍棋到分子生物
2016年《AlphaGo世紀對決》一場奠定AI、類神經網路的里程碑,也是讓AI成為了全球話題的對人機對戰,就是Google旗下DeepMind所開發出來的 AlphaGo 4:1 打敗了世界圍棋棋王李世乭。當時在背後研發團隊就是今年諾貝爾化學獎得主Demin Hassabis爵士。在 AlphaGo 退役後,緊接著開發的 AlphaFold 讓生物學家能精準預測蛋白質結構,因此榮獲2024年諾貝爾化學獎。
最早,在IBM 開發的Deep Blue電腦擊敗了當代西洋棋冠軍後,讓他萌生了開發一個能挑戰人類圍棋棋手的電腦系統的夢想(變化可能性: 西洋棋10^123 ; 圍棋10^400)。因此他專精於傳統的樹狀搜尋技術和新興的深度神經網路(deep neural networks)技術結合,加入強化學習(reinforcement learning)訓練方法,讓AI能像人類一樣從每次經驗中學習,甚至能自己和自己對奕。Hassabis 清楚 AI 的應用絕不僅只於下棋、電腦遊戲,他發現技術的潛力應該能應用到更重要的科學領域,例如:分子生物學與醫療領域。
在2018年DeepMind推出了一款能夠預測蛋白質結構的模型名叫AlphaFold(AF)。只要輸入胺基酸序列,電腦就能夠Fold摺疊出胺基酸鏈的立體結構。摺疊蛋白質的挑戰在於,就算是相同的序列,能夠產生出的可能立體結構實在太多。在1969年,生物學家Cyrus Levinthal 就提出計算,用短短100個胺基酸的蛋白質,測量出他們中間99個摺疊,以及每個摺疊可能的角度,總共約 (3X3)^99 次方種可能。也就是說,摺疊肯定不能透過以量取勝的方式,因此需要更多參數與微調,還有在類似的情況下歸類,才能縮小可能範圍。這時就是前面提到AI深度學習派上用場的時候。
AlphaFold 1 : Mission Impossible
大致來說,AlphaFold 就是透過 PBD 已知的蛋白質結構,以 X 光繞射的三維結構來學習,分析當中胺基酸在空間中的互動關係與規律。因為生物界有22種基礎的胺基酸,人體的絕大部分由當中的 20 種組成。因此 AI 就能透過找出這些胺基酸當中的分子基團、原子會容易彼此吸引靠近,在什麼情況下用什麼樣的方式、用什麼樣的角度靠近,同時預測未知的蛋白質結構。結果如何呢?
同年,DeepMind 就把他們訓練完成的AlphaFold第一代模型參加了「蛋白質結構預測批判性評估」(CASP: Critical Assessment of protein Structure Prediction)競賽。就是參賽的每個團隊會拿到一組蛋白質序列,然後比對預測結果與實際結果。如果成績大達到 90 分以上,就代表預測的結果與實驗的結果可以相互匹配;他們的預測雖然贏得了GDT ( Global Distance Test)比賽,但準確率還不夠高。此版本採用 CNN 神經網路結構。在2018年時,AlphaFold的成果還不到60分,但是已經給科學家們留下了深刻的印象,因為 AlphaFold 出現之前,所有預測的平均分數都低於40分。
AlphaFold 2: 幾近完美的蛋白質結構預測
經過不斷改進,但是緊接著在2020年,AlphaFold推出第二代,在這一年的 CASP 競賽中他竟然得到了92.4分的成績,大幅進步了30分。其預測的蛋白質結構準確率達到了驚人的原子級精度,震驚了生物學界。這項突破就像是給了科學家一副能看清生命微觀世界的眼鏡,讓我們能夠深入了解蛋白質的工作機制。在深度學習框架內準確預測包含更廣泛生物分子(包括配體、離子、核酸和修飾殘基)的複合物的結構。已有超過數百萬的研究人員利用 AlphaFold 2 來發現瘧疾疫苗或癌症治療方式。AF2 甚至也預測了當時SARS-CoV-2 的刺突蛋白質結構,原因是什麼呢?
我們下週繼續看下去!
內容預告: How it works? DeepLearning mechanisms:
注意力機制
多序列比對Multiple sequence alignment(MSA)
端到端預測End-to-end prediction
Bibliography & Reference:
Primary Sources:
Research Papers:
Major AlphaFold upgrade offers boost for drug discovery
Protein structure prediction by AlphaFold2: are attention and symmetries all you need?
Protein structure prediction by AlphaFold2: are attention and symmetries all you need?