博客專欄

        EEPW首頁 > 博客 > 處理醫(yī)學(xué)時(shí)間序列中缺失數(shù)據(jù)的3種方法

        處理醫(yī)學(xué)時(shí)間序列中缺失數(shù)據(jù)的3種方法

        發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-09-18 來源:工程師 發(fā)布文章

        來源:Deephub Imba

        這些方法都是專為RNN設(shè)計(jì),它們都經(jīng)過了廣泛的學(xué)術(shù)評估,而且十分的簡單。

        圖片
        大量醫(yī)療數(shù)據(jù)例如心電圖、體溫監(jiān)測、血壓監(jiān)測、定期護(hù)士檢查等等本質(zhì)上都是時(shí)間序列數(shù)據(jù)。在這些醫(yī)學(xué)圖表的趨勢、模式、高峰和低谷中嵌入了大量有價(jià)值的信息。醫(yī)療行業(yè)要求對醫(yī)療時(shí)間序列數(shù)據(jù)進(jìn)行有效分析,這被認(rèn)為是提高醫(yī)療質(zhì)量、優(yōu)化資源利用率、降低整體醫(yī)療成本的關(guān)鍵。
        一種有前途的醫(yī)學(xué)時(shí)間序列分析形式是通過RNN來實(shí)現(xiàn)。RNN 因其建模能力和可以處理可變長度輸入序列的能力而受到醫(yī)學(xué)研究人員的歡迎。研究人員通常將時(shí)間序列數(shù)據(jù)劃分為均勻的時(shí)間步長,例如 1 小時(shí)或 1 天。一個(gè)時(shí)間步長內(nèi)的所有數(shù)據(jù)點(diǎn)將通過平均或其他聚合方案聚合。這種處理方式有兩個(gè)優(yōu)點(diǎn)。首先,它減少了時(shí)間序列數(shù)據(jù)序列的長度。其次,原始原始數(shù)據(jù)點(diǎn)通常在時(shí)間上間隔并不規(guī)則,這種方式可以對時(shí)間上下文進(jìn)行歸一化。在這個(gè)預(yù)處理步驟之后,數(shù)據(jù)幾乎可以用于 RNN 處理。但是有一個(gè)非常現(xiàn)實(shí)的問題:如果在給定的時(shí)間步長內(nèi)沒有數(shù)據(jù)怎么辦?
        上述問題在醫(yī)療環(huán)境中很重要,因?yàn)閬G失的醫(yī)療數(shù)據(jù)通常不是隨機(jī)丟失的。數(shù)據(jù)本身的缺失具有臨床意義。例如,醫(yī)院工作人員可能會停止測量被認(rèn)為已經(jīng)穩(wěn)定的患者的體溫。或者也許患者的情況需要另一種不同類型的測量來取代以前的測量方法。因此,通常的零填充或插補(bǔ)方法往往會產(chǎn)生次優(yōu)性能。
        在這篇文章,我們將回顧 3 種簡單的方法來處理與 RNN 一起使用的時(shí)間序列研究中缺失的醫(yī)學(xué)數(shù)據(jù)。后一種方法都是建立在前一種方法的基礎(chǔ)上,具有更高的復(fù)雜性。因此強(qiáng)烈建議按照它們出現(xiàn)的順序閱讀。


        簡單缺失編碼
        假設(shè)每個(gè)時(shí)間步的輸入變量是 x 并帶有下標(biāo) t。變量有 d 維,用上標(biāo) d 表示。輸入的示例如下圖1 (a)所示,簡化為d=1。陰影部分是缺失的數(shù)據(jù),我們應(yīng)用前向插補(bǔ)來填充它們最近的觀測值。前向插補(bǔ)是可行的因?yàn)橐坏┽t(yī)院工作人員認(rèn)為某個(gè)指標(biāo)穩(wěn)定后,他們通常會停止對指標(biāo)進(jìn)行進(jìn)一步測量,在這種情況下,最近觀察到的值可以作為未來的實(shí)際值。


        這篇論文(arxiv:1606.04130)提出的簡單缺失編碼方法表明,應(yīng)該明確編碼給定數(shù)據(jù)點(diǎn)實(shí)際上是估算的而不是實(shí)際觀察到的值。這種顯式編碼為RNN提供了一個(gè)信號,可以讓RNN注意到數(shù)據(jù)的缺失。如圖1 (b)所示,其中m表示x的缺失,其中1表示存在,0表示不存在(如公式1所定義)。輸入是x和m的拼接。
        圖片
        確認(rèn)值是否缺失的公式:
        圖片
        這種方法對該研究論文中提出的實(shí)驗(yàn)產(chǎn)生了有意義的改進(jìn)。雖然數(shù)據(jù)有可能不同,但這是一個(gè)非常簡單直觀的想法,值得一試。

        時(shí)間距離編碼


        在上述方法的基礎(chǔ)上,除了顯式編碼缺失之外,這篇論文(https://www.nature.com/articles/s41598-018-24271-9)還建議顯式編碼一個(gè)值與最近觀察到的值之間的時(shí)間距離。所以現(xiàn)在的RNN的輸入是所有三個(gè)值編碼的串聯(lián),即輸入 x、缺失信號 m 和時(shí)間距離值 δ。公式 2 和圖 2。
        以下是時(shí)間距離的計(jì)算公式:
        圖片
        根據(jù)論文中提出的實(shí)驗(yàn),該方法在缺失的顯式編碼之上帶來了很好的改進(jìn),結(jié)果如下所示。
        圖片

        引入衰減


        再次以上述方法為基礎(chǔ),同一篇論文提出了一種估算值的衰減機(jī)制。第一步我們應(yīng)用前向插補(bǔ)來使用最近的觀察值但是如果缺失值的時(shí)間很長怎么辦?我們應(yīng)該無限期地使用那些舊的觀察值嗎?考慮一下現(xiàn)實(shí)世界的場景:醫(yī)院工作人員停止跟蹤指標(biāo),因?yàn)樗麄冋J(rèn)為它已經(jīng)穩(wěn)定。但指標(biāo)值可能仍處于正常范圍的遠(yuǎn)端,但相信它最終會回到一個(gè)好的中位數(shù)。這意味著在沒有觀察到的數(shù)據(jù)的情況下,有充分的理由相信當(dāng)前的指標(biāo)值會持續(xù)一段時(shí)間,但最終會“衰減”回良好的醫(yī)療默認(rèn)值。
        衰減因子 γ 由權(quán)重矩陣 W 和偏差 b 確定,應(yīng)用于時(shí)間距離 δ(參見公式 3),然后發(fā)送到上限為 1 的反向 exp 函數(shù)。W 和 b 在時(shí)間步長和在訓(xùn)練期間共同學(xué)習(xí)。
        下圖是衰減因子的計(jì)算公式:
        圖片
        在任意給定的時(shí)間步長t,如果x被觀測到,我們使用x。否則,我們使用t′最后一次觀測的值,衰減為x的均值。RNN的最終輸入見公式4。
        圖片
        該論文文還將類似的衰減機(jī)制應(yīng)用于它們的RNN模型的隱藏狀態(tài),也產(chǎn)生了最好的結(jié)果。但是由于我們討論的是RNN輸入的原始數(shù)據(jù)的處理,就不詳細(xì)說明了。

        總結(jié)


        在這篇文章中,我們介紹了醫(yī)學(xué)時(shí)間序列數(shù)據(jù)研究的背景,并提出了3種專為rnn設(shè)計(jì)的缺失數(shù)據(jù)填補(bǔ)的簡單方法,這三種方法都可以產(chǎn)生更好的結(jié)果,如果你有興趣可以在實(shí)際應(yīng)用中實(shí)驗(yàn)一下。
        作者:Eileen Pangu



        *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

        高通濾波器相關(guān)文章:高通濾波器原理


        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 白山市| 荆门市| 嵊州市| 华阴市| 乌拉特中旗| 屯昌县| 克东县| 万宁市| 呼图壁县| 朔州市| 浦县| 吴旗县| 山东| 西和县| 阿拉善左旗| 贵州省| 宝兴县| 泸州市| 禹州市| 正阳县| 鄱阳县| 德阳市| 宿州市| 武安市| 祁连县| 阳谷县| 农安县| 南溪县| 南和县| 宁陵县| 内丘县| 临朐县| 贵南县| 射阳县| 蓝山县| 会宁县| 兴安盟| 枝江市| 自贡市| 云梦县| 福贡县|