AI可準(zhǔn)確預(yù)測(cè)反應(yīng)產(chǎn)率有望用于新藥研發(fā)
人工智能(AI)是近年來的爆款話題。在醫(yī)藥行業(yè),關(guān)于AI能否有效設(shè)計(jì)新藥的爭(zhēng)論也從未停歇。近日,發(fā)表在頂尖學(xué)術(shù)期刊《科學(xué)》上的一項(xiàng)研究,則讓我們看到了積極的一面:來自普林斯頓大學(xué)(Princeton University)和默沙東研究實(shí)驗(yàn)室(Merck Research Laboratories)的化學(xué)家們開發(fā)了一款人工智能,可以精準(zhǔn)地預(yù)測(cè)化學(xué)反應(yīng)的產(chǎn)率,這有望在新藥開發(fā)上得到廣泛的應(yīng)用。
從本質(zhì)上看,新藥的合成與制造是化學(xué)反應(yīng)?;瘜W(xué)家們?yōu)榱说玫较胍姆肿樱仨氁院线m的比例加入正確的原料,并提供恰當(dāng)?shù)姆磻?yīng)條件。這聽起來雖然很簡單,但讓機(jī)器來預(yù)測(cè)和設(shè)計(jì)高產(chǎn)率的化學(xué)反應(yīng)卻并不容易。一個(gè)典型的化學(xué)反應(yīng)需要有大量不同的化學(xué)分子參與。而每一個(gè)額外分子的加入,都會(huì)為計(jì)算添加一個(gè)維度。即便對(duì)于近年表現(xiàn)出彩的人工智能,化學(xué)家們也不是很確定它是否能勝任這項(xiàng)工作。
為了讓機(jī)器學(xué)會(huì)設(shè)計(jì)高產(chǎn)率的化學(xué)反應(yīng),我們需要幫助它建立一個(gè)多維度的模型。但從歷史上看,這一直是個(gè)瓶頸。其背后的原因在于這個(gè)模型過于復(fù)雜,而我們能用來訓(xùn)練這個(gè)模型的數(shù)據(jù)卻遠(yuǎn)遠(yuǎn)不夠。幸好,隨著默沙東在機(jī)器人系統(tǒng)上的大量投入,現(xiàn)在我們能在短短幾天內(nèi),完成數(shù)千個(gè)化學(xué)反應(yīng)。這產(chǎn)生了大量可以用來訓(xùn)練AI的數(shù)據(jù)。
▲默沙東研究實(shí)驗(yàn)室的Spencer Dreher博士(圖片來源:默沙東官方網(wǎng)站)
“我非常高興地看到,我們產(chǎn)生的數(shù)據(jù)質(zhì)量很高,能用于建立有效的模型?!蹦硸|研究實(shí)驗(yàn)室的Spencer Dreher博士說道。
在獲得了這些數(shù)據(jù),并利用程序?qū)γ恳粋€(gè)輸入進(jìn)模型的化學(xué)品進(jìn)行定量標(biāo)注后,研究人員們考量了多種統(tǒng)計(jì)學(xué)模型的準(zhǔn)確率。有趣的是,行業(yè)中常用的線性回歸模型在這一任務(wù)的執(zhí)行上表現(xiàn)并不好,而表現(xiàn)最好的是一類叫做“隨機(jī)森林”(random forest)的模型。此類模型能從訓(xùn)練數(shù)據(jù)庫中隨機(jī)提取出小量的樣本,構(gòu)建決定樹(decision tree),而每一棵決定樹都能對(duì)特定的化學(xué)反應(yīng)產(chǎn)率進(jìn)行預(yù)測(cè)。這些預(yù)測(cè)會(huì)被綜合評(píng)估,產(chǎn)生一個(gè)總體的預(yù)測(cè)產(chǎn)率。結(jié)果表明,這款模型能很好地對(duì)訓(xùn)練數(shù)據(jù)之外的化學(xué)反應(yīng)進(jìn)行產(chǎn)率的預(yù)測(cè)。
▲“隨機(jī)森林”模型表現(xiàn)最佳(圖片來源:《科學(xué)》)
▲該模型可以準(zhǔn)確預(yù)測(cè)產(chǎn)率(圖片來源:《科學(xué)》)
“只要幾百個(gè)反應(yīng)數(shù)據(jù),我們就能準(zhǔn)確地用模型預(yù)測(cè)產(chǎn)率。化學(xué)家們甚至都不需要機(jī)器人的幫助,自己就能完成這些反應(yīng)?!边@項(xiàng)研究的第一作者Derek Ahneman博士說道。
▲普林斯頓大學(xué)的Abigail Doyle教授(圖片來源:普林斯頓大學(xué))
“我們開發(fā)的這款軟件能適用于任何反應(yīng)或任何底物類型,”該研究的通訊作者之一,普林斯頓大學(xué)的Abigail Doyle教授說道:“我們希望人們能將這一工具應(yīng)用于其他反應(yīng)之中?!?br />
參考資料:
[1] Chemists harness artificial intelligence to predict the future of chemical reactions
[2] Predicting reaction performance in C–N cross-coupling using machine learning

分享到: