計算機化學(xué)將科研工作者從繁重的實驗中解脫出來,利用其強大的數(shù)據(jù)處理能力,幫助科研工作者更快地實現(xiàn)分子結(jié)構(gòu)設(shè)計模擬、實驗數(shù)據(jù)處理、合成路徑設(shè)計等問題,在化學(xué)材料領(lǐng)域已經(jīng)有十分廣泛的應(yīng)用。自2016年Alpha Go擊敗人類圍棋世界冠軍后,計算機化學(xué)領(lǐng)域中的機械學(xué)習(xí)也進入到大眾視野。機器學(xué)習(xí)可以通過獲得的實驗數(shù)據(jù)來優(yōu)化自身算法,使得可以實現(xiàn)對實驗結(jié)果的準(zhǔn)確預(yù)測,在化學(xué)材料領(lǐng)域有廣闊的應(yīng)用前景。由此可見,計算機化學(xué)在化學(xué)材料領(lǐng)域科研工作中占有越來越重要的地位。

公開or保密?計算化學(xué)遭遇“重現(xiàn)性危機”

但是,計算機化學(xué)現(xiàn)在面臨著重現(xiàn)性危機。近期,《Chemical World》的科學(xué)記者發(fā)表了相關(guān)文章。2019年10月,一個天然產(chǎn)物化學(xué)家團隊發(fā)現(xiàn)在廣泛使用的NMR軟件中發(fā)現(xiàn)問題,這個問題是存在于代碼深處的文件排序問題,這個問題使得化學(xué)位移的預(yù)測出現(xiàn)錯誤。而這個問題的發(fā)現(xiàn)導(dǎo)致了在過去五年內(nèi)發(fā)表的超過150篇文章存在不確定性。

01 “核磁位移”和操作系統(tǒng)有關(guān)?

采用“ Willoughby-Hoye” Python腳本簡化輸出文件的處理時,計算得到的天然產(chǎn)物核磁位移取決于操作系統(tǒng),運行不同的操作系統(tǒng)處理得到的核磁位移出現(xiàn)較大偏差,可能導(dǎo)致錯誤的實驗結(jié)果。

公開or保密?計算化學(xué)遭遇“重現(xiàn)性危機”

02 不是第一次!

這種問題已經(jīng)在計算機化學(xué)領(lǐng)域不是第一次出現(xiàn)了,而這個事件折射出了計算機化學(xué)中的重大危機。計算機科學(xué)領(lǐng)域的發(fā)展是十分迅速的,包括計算機硬件發(fā)展和計算機軟件的迭代更新。通常,在計算機領(lǐng)域,源代碼公開可以使得算法更新速度加快。而在計算機化學(xué)領(lǐng)域的研究成果實際上并不對普通大眾公開,這就導(dǎo)致了算法的滯后。在一方面這導(dǎo)致了計算機化學(xué)中算法的問題發(fā)現(xiàn)不夠及時,另一方面文章中的代碼跟不上編譯器和解釋器的迭代速度而導(dǎo)致在現(xiàn)有系統(tǒng)中不兼容的問題,這使得過去在計算機化學(xué)領(lǐng)域的研究成果在現(xiàn)如今的電腦上無法重現(xiàn)。

有很多努力在嘗試解決這些問題。Konrad Hinsen是法國奧爾良國家科學(xué)研究中心的研究員。幾年前,他與他人共同創(chuàng)辦了ReScience C雜志,目的在于創(chuàng)建一個空間,讓嘗試重新使用舊代碼的人們可以共享他們的結(jié)果。

公開or保密?計算化學(xué)遭遇“重現(xiàn)性危機”

 

03 代碼公開or保密?

隨著機器學(xué)習(xí)的興起,機器學(xué)習(xí)模式解決化學(xué)問題得到了越來越廣泛的研究。但是在可重復(fù)性上,機器學(xué)習(xí)更應(yīng)該制得憂慮。化學(xué)科研工作者多是用機器學(xué)習(xí)來解決之前沒有軟件解決的問題,而對于算法是否最優(yōu)的方面卻沒有過多的考量。畢竟大多數(shù)化學(xué)研究者并沒有什么成體系的編程學(xué)習(xí)的背景。在另一方面,在訓(xùn)練機器學(xué)習(xí)的過程中需要大量的數(shù)據(jù),而這些數(shù)據(jù)也不可能將其放入研究文章中,公之于眾。這就會導(dǎo)致實驗數(shù)據(jù)可能丟失的風(fēng)險增大,與此同時,其他的同行研究者也無法理解通過機器學(xué)習(xí)后得到的算法。這就使機器學(xué)習(xí)得到的算法成為了黑箱。對于機器學(xué)習(xí)得到的算法,是需要經(jīng)過大量公共數(shù)據(jù)去檢驗和改進的。麻省理工學(xué)院的Regina?Barzilay?提到:“不幸的是,這種水平的測試仍然不是AI和化學(xué)領(lǐng)域的普遍做法。我希望它會改變?!痹谶@方面的缺失,也促使了機器學(xué)習(xí)得到的算法無法重復(fù)使用。

04 沒那么簡單!

以機器學(xué)習(xí)為代表的計算機化學(xué)領(lǐng)域無法重復(fù)的問題,其解決方法不僅僅是在道德上將代碼公開就能解決的。一個復(fù)雜算法的源代碼通常包括內(nèi)存管理,處理數(shù)據(jù)集和優(yōu)化性能所需的計算,近似值和技術(shù)計算機制等等,這就導(dǎo)致了除了開發(fā)者以外無人能看懂代碼。

同時開源代碼同樣面臨著計算機化學(xué)科研工作者成果的保護問題。開源就以為著計算機化學(xué)科研工作者要將自己的工作成果無償奉獻,那怎么從法律層面去保護科研工作者的權(quán)益?同時代碼的更新也是需要大量的人力物力去處理的,這些更新代碼所需的資源從哪里來?這些爭議性的問題還有待進一步的解決。要解決以機器學(xué)習(xí)為代表的計算機化學(xué)重復(fù)性問題還有很長的路要走。

文章來源:

https://www.chemistryworld.com/news/chemistrys-reproducibility-crisis-that-youve-probably-never-heard-of/4011693.article

微信
微信
電話 QQ
返回頂部