新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 破解生命密碼：新AI模型學(xué)習(xí)DNA的隱藏語言

破解生命密碼：新AI模型學(xué)習(xí)DNA的隱藏語言

作者：EEPW 時(shí)間：2024-08-07 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

Warning: file_get_contents(): SSL: Connection reset by peer in /var/www/html/www.edw.com.cn/www/rootapp/controllerssitemanage/ManagecmsController.php on line 2068 Warning: file_get_contents(): Failed to enable crypto in /var/www/html/www.edw.com.cn/www/rootapp/controllerssitemanage/ManagecmsController.php on line 2068 Warning: file_get_contents(https://scx1.b-cdn.net/csz/news/800a/2024/cracking-the-code-of-l.jpg): failed to open stream: operation failed in /var/www/html/www.edw.com.cn/www/rootapp/controllerssitemanage/ManagecmsController.php on line 2068

本文引用地址：http://www.104case.com/article/202408/461754.htm

Cracking the Code of Life: New AI Model Learns DNA's Hidden Language

DNA包含維持生命所需的基礎(chǔ)信息。理解這些信息是如何存儲(chǔ)和組織的，是上個(gè)世紀(jì)最偉大的科學(xué)挑戰(zhàn)之一。

通過GROVER，一個(gè)在人體DNA上訓(xùn)練的新型大型語言模型，研究人員現(xiàn)在可以嘗試解碼隱藏在我們基因組中的復(fù)雜信息。

由德累斯頓工業(yè)大學(xué)生物技術(shù)中心（BIOTEC）的團(tuán)隊(duì)開發(fā)，GROVER將人體DNA視為文本，通過學(xué)習(xí)其規(guī)則和上下文來提取關(guān)于DNA序列的功能信息。這個(gè)新工具在《自然機(jī)器智能》期刊上發(fā)表，具有變革基因組學(xué)和加速個(gè)性化醫(yī)療的潛力。

自從發(fā)現(xiàn)雙螺旋結(jié)構(gòu)以來，科學(xué)家們一直在努力理解DNA中編碼的信息。70年后，很明顯，DNA中隱藏的信息是多層次的。基因組中只有1-2%的部分由編碼蛋白質(zhì)的基因組成。

“DNA的功能遠(yuǎn)不止編碼蛋白質(zhì)。一些序列調(diào)節(jié)基因，其他的有結(jié)構(gòu)用途，大多數(shù)序列同時(shí)具有多種功能。目前，我們對(duì)大多數(shù)DNA的意義還不了解。對(duì)于非編碼區(qū)域的理解，我們似乎才剛剛開始。這是AI和大型語言模型可以發(fā)揮作用的地方，”BIOTEC研究組組長Anna Poetsch博士說。

DNA作為一種語言

像GPT這樣的大型語言模型已經(jīng)改變了我們對(duì)語言的理解。這些模型只在文本上訓(xùn)練，發(fā)展出了在許多上下文中使用語言的能力。

“DNA是生命的密碼。為什么不把它當(dāng)作一種語言來對(duì)待呢？”Poetsch博士說。Poetsch團(tuán)隊(duì)在參考人類基因組上訓(xùn)練了一個(gè)大型語言模型。這個(gè)名為GROVER（Genome Rules Obtained via Extracted Representations）的工具可以用來從DNA中提取生物學(xué)意義。

“GROVER學(xué)會(huì)了DNA的規(guī)則。用語言來比喻，我們談?wù)摰氖钦Z法、句法和語義。對(duì)于DNA，這意味著學(xué)習(xí)序列的規(guī)則、核苷酸和序列的順序以及序列的意義。就像GPT模型學(xué)習(xí)人類語言一樣，GROVER基本上學(xué)會(huì)了如何‘說’DNA，”項(xiàng)目研究人員Melissa Sanabria博士解釋道。

團(tuán)隊(duì)展示了GROVER不僅能準(zhǔn)確預(yù)測(cè)下一個(gè)DNA序列，還能用于提取具有生物學(xué)意義的上下文信息，例如識(shí)別基因啟動(dòng)子或DNA上的蛋白質(zhì)結(jié)合位點(diǎn)。GROVER還學(xué)習(xí)了通常被認(rèn)為是“表觀遺傳”的過程，即發(fā)生在DNA上的調(diào)控過程，而不是編碼在DNA中的過程。

“令人著迷的是，通過僅使用DNA序列訓(xùn)練GROVER，而沒有任何功能注釋，我們實(shí)際上能夠提取出關(guān)于生物功能的信息。對(duì)我們來說，這表明功能，包括一些表觀遺傳信息，也是編碼在序列中的，”Sanabria博士說。

DNA字典

“DNA類似于語言。它有四個(gè)字母構(gòu)建序列，序列攜帶意義。然而，不同于語言，DNA沒有定義的單詞，”Poetsch博士說。DNA由四個(gè)字母（A、T、G和C）和基因組成，但沒有預(yù)定義的不同長度的序列組合來構(gòu)建基因或其他有意義的序列。

為了訓(xùn)練GROVER，團(tuán)隊(duì)首先創(chuàng)建了一個(gè)DNA字典。他們使用了壓縮算法的一個(gè)技巧。“這一步至關(guān)重要，使我們的DNA語言模型與之前的嘗試不同，”Poetsch博士說。

“我們分析了整個(gè)基因組，尋找最常出現(xiàn)的字母組合。我們從兩個(gè)字母開始，一遍又一遍地遍歷DNA，逐步構(gòu)建出最常見的多字母組合。通過這種方式，在大約600個(gè)周期中，我們將DNA分解成‘單詞’，使GROVER在預(yù)測(cè)下一個(gè)序列時(shí)表現(xiàn)最佳，”Sanabria博士解釋道。

AI在基因組學(xué)中的前景

GROVER有望解鎖遺傳密碼的不同層次。DNA包含關(guān)于我們?yōu)楹纬蔀槿祟悺⑽覀儗?duì)疾病的易感性以及我們對(duì)治療的反應(yīng)的關(guān)鍵信息。

“我們相信，通過語言模型理解DNA的規(guī)則，將有助于我們揭示隱藏在DNA中的生物學(xué)意義的深度，推進(jìn)基因組學(xué)和個(gè)性化醫(yī)療的發(fā)展，”Poetsch博士說。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

評(píng)論

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

新聞中心

破解生命密碼：新AI模型學(xué)習(xí)DNA的隱藏語言

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)