新聞中心

        EEPW首頁 > 智能計算 > 業界動態 > 憑借cw2vec方法,阿里健康拿下中文電子病歷實體識別全國冠軍

        憑借cw2vec方法,阿里健康拿下中文電子病歷實體識別全國冠軍

        作者: 時間:2018-08-20 來源:動脈網 收藏

          全國知識圖譜與語義計算大會(CCKS2018)8月14日至17日在天津舉行,憑借出色的專業能力,團隊在中文電子病歷命名實體識別評測任務中奪冠。

        本文引用地址:http://www.104case.com/article/201808/390772.htm

          電子病歷結構化是讓計算機理解病歷、應用病歷的基礎。基于對病歷的結構化,可以計算出癥狀、疾病、藥品、檢查檢驗等多個知識點之間的關系及其概率,構建醫療領域的知識圖譜,進一步優化醫生的工作。

          例如,基于大醫院的優質病歷數據訓練的輔助診療系統,可以在基層醫院應用以提升醫生的業務能力;根據癥狀和以往病歷記錄自動分析醫生開出的藥品是否合理,預測發生誤診的概率等等。結構化的電子病歷對于臨床醫學科研等工作也具有重大作用,醫生可以更加智能地搜索相關病歷,或者查看相似病歷,也可以對病歷進行相關統計分析,有助于醫生發現潛在的知識聯系,產生高水平的臨床研究論文。

          此次CCKS2018的電子病歷命名實體識別的評測任務,是對于給定的一組電子病歷純文本文檔,識別并抽取出其中與醫學臨床相關的實體,并將它們歸類到預先定義好的類別中。組委會針對這個評測任務,提供了600份標注好的電子病歷文本,共需識別含解剖部位、獨立癥狀、癥狀描述、手術和藥物五類實體。

          目前主流的中文實體識別方法主要沿用自英文和其他語言的通用方法,并沒有把中文的特色發揮出來。而正如英文中可以根據單詞的詞根詞綴來猜測其意義和性質一樣,漢字的筆畫及偏旁部首中也蘊含著大量信息。團隊以兩種序列標注算法為基礎,首次在醫療文本領域采用了的方法構建詞向量矩陣,基于全部的非標注文本和標注文本集訓練詞向量,以解決新字無法識別的問題;同時改進了漢字結構和拼音的特征的一般方案。最終,團隊以嚴格指標0.8913取得了第一名的好成績。


        憑借cw2vec方法,阿里健康拿下中文電子病歷實體識別全國冠軍


          “醫療命名實體識別只是我們團隊工作的一小部分,也是我們面向醫院和醫生提供醫療人工智能服務的基礎。”人工智能實驗室主任范繹說,阿里健康團隊長期專注通過實體識別、實體鏈接、關系提取等手段從電子病歷中識別信息,并在此基礎上對信息進行融合和整合,以知識圖譜的呈現形式,為其他服務提供數據基礎。在此之上,基于電子病歷數據,阿里健康打造了大數據科研平臺、臨床輔助決策引擎等針對醫院和醫生的多款產品,為廣大醫生和用戶提供更加智能的用戶體驗,幫助其提升專業水平和工作效率。

          CCKS是由中國中文信息學會語言與知識計算專業委員會(CIPS)定期舉辦的全國年度學術會議,致力于促進中國語言與知識計算領域的學術研究和產業發展,為從事相關領域理論和應用研究的學者、機構和企業提供廣泛交流的平臺,已經成為國內知識圖譜、語義技術、語言理解和知識計算等領域的核心會議。



        關鍵詞: 阿里健康 cw2vec

        評論


        技術專區

        關閉
        主站蜘蛛池模板: 贡觉县| 恭城| 三门县| 芦溪县| 安西县| 垦利县| 施秉县| 辽宁省| 山东省| 云龙县| 浮山县| 潞城市| 明水县| 石楼县| 抚远县| 太谷县| 家居| 旬邑县| 筠连县| 天门市| 郑州市| 长子县| 华坪县| 阳谷县| 东乌珠穆沁旗| 中方县| 阿坝| 将乐县| 同心县| 肥东县| 和硕县| 周宁县| 湾仔区| 望奎县| 桂林市| 榆中县| 宁河县| 朝阳县| 巴彦淖尔市| 广安市| 筠连县|