博客專欄

        EEPW首頁 > 博客 > 特征選擇策略:為檢測乳腺癌生物標志物尋找新出口

        特征選擇策略:為檢測乳腺癌生物標志物尋找新出口

        發布人:數據派THU 時間:2023-08-04 來源:工程師 發布文章
        microRNA(小分子核糖核酸)是一類短小的單鏈非編碼 RNA 轉錄體。這些分子在多種惡性腫瘤中呈現失控性生長,因此近年來被諸多研究確定為確診癌癥的可靠的生物標志物 (biomarker)。在多種病理分析中,差異表達分析 (Differential Expression Analysis) 常被視為檢測關鍵生物標志物的有效方法,而來自意大利那不勒斯費德里科二世大學的研究人員,則提出基于機器學習的特征選擇 (Feature Selection) 策略能夠更為有效的檢測,并建議將其發現的 20 種 microRNA 作為乳腺癌診斷性生物標志物。


        根據國家衛健委發布的 2022 年版《乳腺癌治療指南》,乳腺癌是女性常見的惡性腫瘤之一,發病率高居女性惡性腫瘤之首。世界衛生組織統計,2020 年,全球共有 230 萬女性被診斷為乳腺癌,隨著治療手段的不斷提高,早期乳腺癌五年生存率可達到 90% 甚至更高。因此,乳腺癌早期的準確診斷尤為重要。
        microRNA 除了在生物方面具備諸多關鍵作用,其表達上的改變也與多種癌癥相關,因此可作為可靠的診斷性生物標志物(putative diagnostic biomarker)。來自意大利那不勒斯費德里科二世大學的研究人員基于機器學習,利用特征選擇策略,通過分析 3 種方法的穩定性和分類性能,得到了一組乳腺癌特定診斷生物標志物,同時還發現了乳腺癌疾病發展和演變中的推定關鍵基因。
        目前,這一研究成果發表在《第 18 屆生物信息學與生物統計學計算智能方法會議論文集(CIBB 2023)》上,標題為《Robust Feature Selection strategy detects a panel of microRNAs as putative diagnostic biomarkers in Breast Cancer》。
        圖片該研究成果已發表在 CIBB 2023 上
        論文地址:https://www.researchgate.net/publication/372083934
        實驗概述
        在本研究中,科研人員發現借助 3 種特征選擇方法(增益率、隨機森林及支持向量機遞歸特征消除),可以更加高效地提取診斷分子組合,他們揭示了一個包含 20 個 microRNA 的組合 (panel),其中 hsa-mir-337、hsa-mir-378c 以及 hsa-mir-483 在目前的乳腺癌診斷生物標志物中,暫未受到醫學界的廣泛關注。該方法能夠區分健康及腫瘤樣本,與常用的差異表達法相比,其分類性能更佳,更容易識別易被低估甚至忽略的特征。
        圖片圖 1: Pipeline 概述
        Workflow 包含 4 個關鍵步驟:
        (i) 在訓練 TCGA 子集上進行 Ensemble-FS 計算
        (ii) 對 TCGA/GEO 數據集進行差異表達分析
        (iii) 比較差異表達分析和特征選擇結果的分類性能,并評估特征選擇方法的穩定性
        (iv) 用計算機模擬驗證所選 signature 的前 20 種 microRNA,對樞紐基因靶點進行檢測。
        實驗詳情 
        數據集 
        實驗數據來源包含兩個渠道:美國 GDC 官網的 TCGA-BRCA 項目以及 Gene Expression Omnibus (GEO) data repository (GSE97811)。
        實驗團隊從 GDC TCGA-BRCA 項目中,合計收集了 1,881 個 microRNA-Seq 數據,并按照 8:2 的比例,分成了訓練集和測試集兩部分。這些數據與 300 個實體原發腫瘤樣本 (T) 以及 101 個正常相鄰腫瘤 (NAT) 樣本相關,都屬于導管及小葉乳腺組織。應用特征選擇法之前,這些數據都進行了方差穩定歸一化處理 (variance stabilizing normalization)。
        同時,科研人員從 GEO 數據庫 (GSE97811) 下載了一個包含 2,565 個 microRNA 的微陣列數據集 (microarray dataset),作為本次實驗的驗證集。該數據集包括 16 個正常樣本及 45 個腫瘤樣本,然后進行數據插補 (data imputation)。
        由于 GEO 數據(本實驗中的驗證集)涉及到的是成熟 microRNA 表達,TCGA 數據(本實驗中的訓練集和測試集)則包含早期形態 (precursor form),為了統一數據,科研人員在 GEO 數據樣本中只選擇了平均計數值高于其對立鏈 (opposite strand) 的可替代成熟 microRNA;同時, microRNA 的名稱也已經轉換成了相應的早期形態名稱。
        通過這一過程后,GEO 數據(驗證集)的維度減少至 1,361 個 microRNA,相應的 TCGA RNA-Seq 數據也被收集,共包括 20,404 種基因。
        1. 特征選擇法及 Ensemble 程序應用 
        科研人員選擇了 3 種特征選擇方法與差異表達分析法進行比較,分別是 Gain Ratio(增益率)、Random Forest(隨機森林)和 SVM-RFE(支持向量機遞歸特征消除)。將 3 種方法應用于 microRNA-Seq 表達 TCGA 數據的 500 個子集上,以識別能區分正常樣本和腫瘤樣本的穩健特征面板 (panel)。觀察到的結果中,按照 8:2 的比例劃分為訓練集和測試集,然后對數據通過重采樣 (resampling) 進行自助法 (bootstrapping) 處理,使其符合數據擾動集成程序 (Data Perturbation Ensemble procedure)。每次計算返回的 500 個按「importance score」降序排列的 microRNA 向量。
        |備注:importance score(重要性得分)表示用算法計算得出的每個 feature(特征)在分類中的影響。
        importance score 越高,賦予 feature 的 rank 就越低。然后科研人員通過一個聚合程序,推導出每種特征選擇方法的共識簽名 (consensus signature),最終每組 microRNA 保留得分前 200 名的 feature。
        2.穩定性測試 
        用 Kuncheva Index (KI) 和 Percentage of Overlapping Gene/Features (POG) 評估特征選擇方法的一致性,用 Stot 統計法(KI 的成對測量)確定所有方法之間的穩定性。這些統計數據是在 signature 長度逐漸增加的過程中計算得出的,feature 數量從 2 開始到 200 結束,每次重新計算增加 2 個 unit。
        圖片Stot 統計法公式
        3.差異表達分析和 DE-signature 
        對 TCGA 數據集(含 microRNA-Seq 及 RNA-Seq)進行差異表達分析,從原始計數 (raw count) 開始,使用精確檢驗 (Exact Test),然后保留 FDR <= 0.01 及 Log2FC 閾值為 |0.5| 的 DE feature。為了獲得 DE-microRNA 的 signature,將 Log2FC 值轉化為絕對值,并按照 abs (Log2FC)遞減的順序對 microRNA(保留前 200 個 feature)進行排序。
        GEO 驗證集借助 Limma 進行差異分析表達,該數據集獲取 DE-signature 的參數及程序與 TCGA 數據集一致。
        4.分類性能分析 
        為了確定每個 signature 區分健康人及癌癥患者的能力,科研人員在測試子集 (TCGA) 和驗證集 (GEO) 上對 4 個 signature(包括特征選擇 panel 和差異表達 panel)都進行了預測性分析。
        最后計算出精度平均值 (ACC)、K 統計量 (KK) 以及馬修斯相關系數 (MCC) 在各個 fold 以及每個 signature 的多個長度上的平均值。
        5.SVM-RFE microRNA-signature 靶點 (target) 檢測 
        為了識別 microRNA 潛在的基因靶點,科研人員進行了以下操作:
        1. 將前 20 個 SVM-RFE microRNA 按照其在腫瘤樣本中的上調 (up-regulated) 或下調 (down-regulated) 進行分類。
        2. 對 RNA-Seq 數據進行差異表達分析,檢測差異表達基因 (FDR <= 0.05)。
        3. 應用斯皮爾曼相關性分析,對比 microRNA 表達與差異表達基因,只保留與 down-microRNA 負相關的 up-gene,以及 up-microRNA 負相關的 down-gene (rho <= -0.5)。
        4. 收集所有經過驗證的 microRNA 基因靶點 (gene targets),且只保留那些也顯示出 DE-correlated 的。
        6.網絡中心性及樞紐基因識別
        選定失調基因的相關矩陣 (Spearman),并用其構建一個圖結構基因網絡:保留 Kleinberg's hub 中心性得分 > 75,rho > 0.8 或 rho < -0.6 的樞紐基因。對樞紐基因進行基因富集分析 (ORA),以便從 REACTOME 數據庫中探索最豐富的 pathway。FDR 調整后 pValue 值閾設定為 0.005。
        實驗結果 

        實驗表明,應用 3 種特征選擇方法后,都返回了 500 個按 importance score 降序排列的 microRNA signature,匯總后得到 3 個共識 panel。值得注意的是,排名前 3 的 microRNA(hsa-mir-139、hsa-mir-96 及 hsa-mir-145)在所有 panel 中都出現了,顯示出這些分子在區分腫瘤樣本和健康樣本中的重要性。
        |結論 1:SVM-RFE 穩定性最高
        從 KI 和 POG 在共識 panel 上的計算來看,SVM-RFE 法最具穩定性,signature 長度達到 20 個 feature 時最突出。同樣,Stot 指數的結果也顯示出 SVE-RFE 法具有最高穩定性。
        圖片圖 2: 3 種特征選擇方法的穩定性指數比較

        藍色:Random Forest(隨機森林)粉色:Gain Ratio(增益率)黃色:SVM-RFE(支持向量機遞歸特征消除)
        |結論 2: SVM-RFE signature 在分類中的表現優于差異表達 signature
        所有單獨 panel 進行分類性能分析后,無論是測試集 (TCGA) 還是驗證集 (GEO),都顯示出用 SVM-RFE 獲得的 signature 的預測能力最高。
        圖片圖 3: 前 20 個 microRNA 分類性能及維恩圖
        A:條形圖顯示了在測試子集和外部驗證 GEO 數據集上計算的平均 statisticACC:精度KK:K 統計量MCC:馬修斯相關系數
        綠色:DE(差異表達分析法,該實驗中的對照方法)粉色:GR(增益率)藍色:RF(隨機森林)橙色:RFE(SVM-RFE,支持向量機遞歸特征消除)
        B:每個 signature 的前 20 個 microRNA 的維恩圖,其中標注了 SVM-RFE panel 前 20 中的一些有趣的 microRNA--hsa-mir-337、hsa-mir-378c 及 hsa-mir-483,這 3 個 micro-RNA 在 3 種特征選擇方法中都出現了,但目前關于乳腺癌的研究中尚未完全確定其作為診斷依據是否可靠。
        |結論 3: 網絡分析揭示了疾病演變中的潛在關鍵基因
        實驗表明,CDC25、TPX2 及 KIF18B 在不同類型癌癥以及三陰性乳腺癌患者的干細胞中,都顯示高度表達,且 TGFBR2 的下調與癌癥進展相關。
        microRNA:乳腺癌早篩的又一理想候選 
        傳統的乳腺癌篩查方法仍以 X 光成像及組織活檢為主,無法對完整的癌癥基因組建立更深入全面的理解。這種方法不光侵入性強、成本高,容易產生副作用,還常給出假陽性或假陰性結果,提高乳腺癌的早篩準確度及患者體驗,仍需開發新策略來應對乳腺癌負擔。
        自 1993 年首次發現以來,micorRNA 不斷深化了人類對癌癥的理解,作為可靠的乳腺癌診斷生物標志物,它展現了巨大潛力。
        microRNA 屬于長度約 19-25 nt 的小型非編碼 RNA,可以調控多種靶點基因 (target gene),參與了多種生物學和病理學過程的調控,包括癌癥的形成和發展,有望彌補當下 X 光成像及組織活檢作為臨床上乳腺癌篩查主流診斷方法的局限性。
        然而,目前尚未完全開發出 microRNA 的成熟臨床應用,對 microRNA 使用過程中的安全評估體系也還未建立,要想讓 microRNA 成為癌癥的主流診斷依據,恐怕仍需時日。
        參考文章:[1]https://www.who.int/zh/news-room/fact-sheets/detail/breast-cancer[2]https://guide.medlive.cn/guideline/25596[3]https://www.abcam.cn/kits/micrornas-as-biomarkers-in-cancer-1[4]https://caivd-org.cn/webfile/file/20220508/20220508153691029102.pdf[5]https://www.sohu.com/a/318088245_100120288


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 九龙坡区| 定襄县| 沁水县| 鄂托克旗| 定结县| 宁安市| 万州区| 城固县| 景东| 琼结县| 丹巴县| 涟水县| 南汇区| 朔州市| 随州市| 苏尼特左旗| 金湖县| 奎屯市| 合肥市| 古蔺县| 伊通| 盐城市| 禄丰县| 秀山| 牡丹江市| 蓝山县| 汶川县| 岑巩县| 石景山区| 南通市| 灌南县| 旌德县| 崇仁县| 东山县| 沂源县| 呼伦贝尔市| 伊金霍洛旗| 南和县| 三亚市| 龙岩市| 福海县|