博客專欄

        EEPW首頁 > 博客 > 數據流通利用 | 數據開放利用應當遵循FAIR原則

        數據流通利用 | 數據開放利用應當遵循FAIR原則

        發布人:數據派THU 時間:2022-11-20 來源:工程師 發布文章

        以下文章來源于清華大學智能法治研究院 ,作者王勤

        數據要素的重要價值在于支持科學研究和技術創新,以可查找、可訪問、可互操作、可重用為內容的FAIR原則有助于充分發揮數據的要素價值。中央全面深化改革委員會第二十六次會議審議通過的《關于構建數據基礎制度更好發揮數據要素作用的意見》提出:促進數據高效流通使用、賦能實體經濟,統籌推進數據產權、流通交易、收益分配、安全治理,加快構建數據基礎制度體系。在數據流通利用的立法中,必然要提出數據流通利用的幾項基本原則,FAIR原則應當納入未來的數據流通利用立法之中。本文對FAIR原則的具體內涵、落實應用等情況予以總結。

        1

        數據FAIR原則的具體內容


        FAIR原則在2014年1月荷蘭萊頓舉辦的洛倫茲研討會(Lorentz workshop)上首次被提出[1],隨后2016年3月Wilkinson等學者在《科學數據》(Scientific Data)上發表文章《科學數據管理中的FAIR指導原則》(FAIR Guiding Principles for Scientific Data Management and Stewardship)首次對它進行了系統性論述。FAIR由Findabilty(可查找),Accessibility(可訪問),Interoperability(可互操作)和Reuse(可重用)四個單詞首字母的組成,代表了FAIR原則的四項基本原則,即可查找、可訪問、可互操作、可重用。FAIR原則要求在科學研究中取得的數據都需符合上述四項基本原則。自提出以來,FAIR原則很快在科學界引發了廣泛討論,并且在世界各地的政策制定者、資助者中贏得了廣泛認同。


        1. 可查找(Findability)

        FAIR原則的首要原則是F(Findability)原則,即數據的可查找性。如果無法識別和查找數據,則無從談論數據的訪問、互操作和重用。數據要符合Findability原則需滿足四個子原則,以下分別用F1、F2、F3、F4表示。


        F1:(元)數據被分配有一個全球唯一且恒久的標識符。

        F1原則是所有原則的基礎。如果沒有一個全球唯一且恒久的標識符,FAIR的其他方面便很難實現。


        全球唯一且恒久的標識符消除了數據的歧義。許多數據存儲庫會自動為已存儲的數據生成全球唯一且恒久的標識符。標識符可以幫助人們準確理解數據的意思,幫助計算機以一種有意義的方式解釋數據。標識符對人機交互至關重要,而人機交互正是開放科學的前景所在。標識符可以幫助他人在重用數據時正確引用該數據。


        標識符需滿足兩個特征:

        全球唯一。人們可以通過注冊表服務獲得數據的全球唯一標識符,該注冊表服務使用的算法可以保證標識符的唯一性。不存在有兩個不同的數據擁有同樣的標識符。


        恒久存在。標識符對應的網絡鏈接應一直存在。維護網絡鏈接需要成本,隨著時間的推移,很多網絡鏈接往往會失效。而人們通過注冊表服務獲得的標識符可以(在某種程度上)保證網絡鏈接在未來一直存在。


        標識符通常是一個****,即URI(Uniform Resource Identifiers)。常見的標識符類型共有四類,分別是:DOI、ARK、Identifiers.org和PURL。DOI全稱為數字對象標識符(Digital Object Identifiers,DOI)。DOI系統由國際DOI基金會維護,由各區域中心的注冊機構(RA)提供支持,其中最重要的注冊機構是DataCite。加入DataCite的會員有權每年創設一定數量的DOI。ARK全稱存檔資源密鑰(Archival Resource Keys)。ARK由加州數字圖書館、DuraSpace提供支持。ARK的工作原理與DOI類似,但在設計上更為寬松。超過500個注冊組織已經創建了超過32億個ARK。注冊或解析ARK不收取任何費用。PURL全稱為持久性統一資源定位器(Persistent Uniform Resource Locator,PURLs),PURL是在https://purl.org上創建和解析的標識符,該網站自2016年起由 OCLC移交給Internet Archive主管。DOI、ARK、Identifiers.org和PURL具體可以見如下示例[2]


        圖片


        目前對標識符來說最大的挑戰即為確保它的壽命,尤其是確保由不同項目或社區創建的標識符在該項目結束或者社區結束后仍能存在。因此需要保證標識符與這些項目或社區相獨立。[3]


        F2:數據使用了豐富的元數據進行描述。

        描述數據的元數據應當非常豐富,應當包括數據的背景、質量、狀況或特征等等情況。豐富的元數據可以讓計算機自動完成日常且繁瑣的分類和排序任務,這些任務目前耗費了研究人員大量的精力。F2原則背后的基本原理是,即使沒有數據標識符,人們也應該能夠根據元數據提供的信息找到數據。遵守F2原則能夠幫助人們定位數據,并增加該數據的重用和引用。


        F3:元數據清晰且明示地包括了它們所描述數據的標識符。

        元數據和它們描述的數據集通常處于不同的文件夾中,元數據文件和數據集文件夾之間通過在元數據中提到數據集的全球唯一且恒久標識符相聯系。F2要求數據使用元數據進行描述,F3表明元數據除了包含用以描述數據的元數據,還應包含被描述數據的標識符,用以確定數據的位置。


        F4:(元)數據已在可檢索的資源中注冊或者建立了索引。

        標識符和豐富的元數據并不能確保數據在互聯網上“可查找”。如果數據不可查找,那么再完美的數據也將失去價值。使得數據資源可查找的方法很多,比如建立索引。谷歌通過爬蟲“讀取”網頁并自動將它們建立索引,便可以讓人們通過谷歌搜索查找到網頁。對于大多數普通搜索者而言,谷歌搜索已是足夠,但對于學術研究數據的檢索,人們仍需要建立更明確的索引。F1-F3原則為這類索引的建立提供了核心要素。


        2. 可訪問(Accessibility)

        FAIR原則中的第二個原則為A(Accessibility)原則,即數據的可訪問性。用戶在查找到所需的數據后的下一步即需訪問該數據,訪問可能需要進行身份驗證并獲得授權。數據要符合Accessibility原則需滿足四個子原則,以下分別用A1、A2、A3、A4表示。


        A1:(元)數據可通過標識符使用標準化的通信協議進行檢索。

        A1原則指出,FAIR數據的檢索不需要專門或專有的工具或通信方法,使用標準化的通信協議即可。標準化的通信協議有TCP、http(s)、HTP等。大多數網絡用戶通過點擊鏈接來檢索數據。鏈接是一個名為TCP協議的高級接口,計算機執行該協議進而在用戶的web瀏覽器中加載數據。http(s)、HTP則是構成現代互聯網主干的協議,它們建立在TCP協議基礎之上,但請求和提供數字資源比其他通信協議更容易。


        A1.1:協議開放、免費、普遍可實現。

        為最大限度地實現數據重用,FAIR數據使用的通信協議應當免費、開放、可在全球范圍內實現。任何人只要有一臺電腦與互聯網鏈接,就至少可以訪問元數據。這一原則將影響人們對共享數據的存儲庫的選擇。


        A1.2:協議在必要時允許認證和授權程序。

        A1.2原則是FAIR原則中關鍵但經常被誤解的一個原則。FAIR原則中的“A”并不必然意味著“開放”或“自由”。即使受到嚴格保護的私有數據也可以是符合FAIR原則的。“A”意味著應當提供數據可訪問的確切要求。理想狀況下,機器可以自動理解訪問數據的要求然后自動執行該要求或提醒用戶注意該要求。有些數據存儲庫會要求用戶在存儲庫中創建用戶帳戶,這可以讓存儲庫得以驗證每個數據集的所有者(或貢獻者)的身份,并可以根據用戶的不同創設不同的用戶權利。A1.2原則也將影響人們對共享數據存儲庫的選擇。


        A2:即使數據不再可用,元數據仍然可以被訪問。

        維護數據資源的在線需要成本,隨著時間的推移,網上的數據常常會減損,鏈接會失效。而存儲元數據往往比存儲數據更方便、成本更低。因此,A2原則要求保證元數據應持續存在,即使數據本身不再存在。A2原則與F4原則中描述的注冊和索引問題有關。


        3. 可互操作(Interoperability)

        數據通常需要與其他數據進行集成。此外,數據還需要與應用程序或工作流進行互操作,以進行分析、存儲和處理。數據的互操作即是指通過結合相互獨立的數據以獲得整體的分析結果。[4]數據要符合Interoperability原則需滿足三個子原則,以下分別用I1、I2、I3表示。


        I1:(元)數據使用一種正式、可訪問、共享和廣泛適用的語言來表示知識。

        正如人類之間需要能夠交換和理解彼此的信息,計算機之間也需要能夠互相交換和理解彼此的數據。因此數據應當是機器可讀的,并且不需要借用專門或特別的算法、翻譯器或映射來進行數據的轉換。每個計算機至少需要了解其他計算機的數據交換格式。為實現這一點,以及為確保數據的自動可查找和互操作,需要:(1)使用常見、受控的詞匯、本體和主題詞表(具有可解析的全球唯一且恒久標識符);(2)使用良好的數據模型。



        I2:(元)數據使用的詞匯表符合FAIR原則。

        用于描述數據集的受控詞匯表需適用全球唯一且恒久標識符進行記錄和解析,并且能夠輕松地被任何使用該數據集的人查找和訪問。


        I3:(元)數據包括對其他(元)數據的限定引用。

        限定引用是一個解釋了其意圖的交叉引用。例如,X是Y的監管者是比X與Y有關系、或者X也能看到Y更恰當的引用。限定引用可以在元數據之間創建有意義的連接,豐富人們對數據背景的了解,可以讓人們明確一個數據集是否建立在另一個數據集之上,是否需要額外的數據集來完成目前的數據集,或者互補信息是否存儲在不同的數據集中。


        I原則需要注意兩點:第一、根本上而言,實現數據的互操作性不是為了連接不同的數據,而是為了實現數據用戶的互操作。第二、為實現數據的互操作,描述它的元數據也應當可以互操作。[5]


        4. 可重用(Reuse)

        FAIR原則的最終目的是實現數據的可重用。數據要符合Reuse原則需滿足兩個子原則,以下分別用R1、R2表示。


        R1:(元)數據被多個準確且相關的屬性所描述。

        添加了很多標簽的數據將更易被發現和重用。R1原則與F2原則相關,但R1關注的是用戶(機器或人)判斷數據在特定場景中是否真的有用的能力。數據發布者不僅應提供讓數據能被發現的元數據,還應提供豐富的描述數據生成場景的元數據,比如實驗協議、生成數據的機器或傳感器的制造商和品牌等等。數據發布者不應試圖預測數據消費者的身份和需求,而是應當盡可能多地提供元數據,即使提供的元數據看起來與數據不甚相關。


        R1.1:(元)數據在發布時需提供清晰且可訪問的數據使用許可(usage license)。

        許可中應當清晰地描述數據使用的范圍。重用數據的組織都在努力遵循數據使用的種種限制和規范,如果數據使用的范圍描述不清,將會嚴重限制數據的重用。而隨著涉及到更多許可考慮的自動搜索技術的發展,許可狀態的明確將變得更加重要。因此必須讓機器和人都清楚數據可以使用的條件。前文提到的I原則描述的是數據在技術上的可互操作性,R1.1關于的是數據在法律上的互操作性。


        R1.2:(元)數據有詳細的來源。

        重用數據的人應當清楚數據來自哪里,需如何引用或作者希望如何被承認。數據應當包括生產它的完整工作流:誰生成或采集了這些數據、它們是如何處理的、它們以前是否發布過、它們是否包含其他人的數據。理想情況下,這個工作流應當是機器可讀的。


        R1.3:(元)數據符合相關領域的社區標準。

        如果數據集相似,它們將更容易重用。例如,相同類型的數據、以標準化方式組織的數據、完善和可持續的文件格式、遵循通用模板且使用通用詞匯表的文檔(元數據)。如果存在數據歸檔和共享的領域標準或最佳實踐,則應該遵循這些標準或實踐。例如,許多社區都有最低限度的信息標準(例如:MIAME、MIAPE)。FAIR數據至少應符合這些標準。有些情況下,提交者提交的數據可能會偏離這一類型數據的標準,這時他們都會提供有效且明確的理由。FAIR原則并不解決數據的可靠性問題。數據的可靠性取決于使用者,并且與數據的應用目的有關。


        以上的FAIR原則以及它的十五個子原則并未為FAIR數據的生成提供具體的技術指引,但為提高數字資源的可查找性、可訪問性、互操作性和可重用性提供了指導。如何實現以上要求,不同的利益相關者當有自己不同的方式。[6]



        2

        數據的FAIR化(FAIRification)


        有學者在論文中提出了數據FAIR化的七個步驟[7]:1)確定FAIR目標;2)分析數據;3)分析元數據;4)定義數據和元數據的語義模型;5)讓數據和元數據可鏈接;6)托管FAIR數據;7)評估FAIR數據。


        1. 確定FAIR目標

        第一步是確定FAIR目標,這屬于FAIR化工作流程的前階段。這一步需要訪問數據。如果數據是敏感數據,即是數據管理員也不能訪問其實際信息的數據,則可以使用匿名或模擬數據樣本進行訪問。這一步還需要對數據集有大致了解,并且大致熟悉FAIR原則。FAIR的目標可以是出版商、資助者或利益相關者的具體要求,也可以是提高不同來源數據的使用效率,還可以是提高數據的可查找性、可訪問性和重用性等等。


        2. 分析數據

        第二步是分析數據以為數據將來的FAIR化作準備。這同樣是FAIR化工作流的前階段。這一步包括:(1)調查可用的數據,檢查數據格式,確認數據元素的含義是否明確;(2)檢查數據是否已經包含FAIR特征,比如數據元素中是否有唯一且恒久標識符。


        3. 分析元數據

        第三步是分析元數據,這一步同樣處于FAIR化工作流的前階段。這一步包括:1)調查描述數據的元數據,如果不存在元數據,則去確定應該收集什么元數據;2)檢查元數據是否已經包含FAIR特征,例如是否有豐富的元數據和來源描述。提高元數據的可查找性、可訪問性和可重用性要求在元數據中包括諸如許可證、版權聲明、貢獻聲明之類的細節,并對數據使用條件和訪問方式進行描述。


        4. 定義數據和元數據的語義模型

        第四步是定義數據和元數據的語義模型,該步驟處于工作流的FAIR化階段。語義模型是將數據和元數據轉換為機器可讀格式的模板。生成語義模型通常是數據FAIR化過程中最耗時的步驟。不過隨著時間的推移,生成語義模型的難度在逐步減小,因為目前正有越來越多的模型可供重用。 首先需檢查數據和可能被重用的元數據是否已經存在一個語義模型。如果沒有既存的語義模型,則需要生成一個新的語義模型。


        構建一個語義數據模型需經過三步:


        第一步,創建一個概念模型,列出將要FAIR化的數據元素的主要概念和它們之間的關系。


        第二步,用機器可讀的類和屬性表示數據元素的概念和它們之間的關系。這些類和屬性通常來自于來自本體知識庫、詞匯表和主題詞表,可以通過本體查找服務(OLS)、BioPorta和BARTOC等搜索引擎進行查找。


        第三步,使用概念模型和本體術語創建語義數據模型。語義數據模型以機器可讀的術語表示了數據的含義。這使得轉換后的FAIR數據能夠方便地應用到其他系統和應用程序之中。構建語義模型需要在數據集和語義數據建模方面的專家。數據集領域的專家可以確保建模者能夠理解數據的確切含義,數據建模方面的專家則可以確保語義模型能夠正確地表示數據。



        5. 讓數據和元數據可鏈接

        第五步是使數據和元數據可鏈接,這一步處于工作流的FAIR化階段。使數據和元數據可鏈接的方法高度依賴于應用程序和具體的使用案例。但至關重要的是在一個可以由全球機器可理解的表示框架中對數據和元數據進行描述,即將數據和元數據轉換為機器可讀的形式。


        將數據轉換為機器可讀的形式需要語義數據模型以及完成這一過程的專門工具,如FAIRifier、Karma、Rightfield和OntoMaton。將元數據轉換為機器可讀的形式同樣需要語義元數據模型以及專門工具,如FAIR元數據編輯器(FAIR Metadata Editor)、CEDAR 和生物架構生成器(BioschemasGenerator)。


        6. 托管(Host)FAIR數據

        第六步是托管FAIR數據,即使數據可供使用,這一步處于工作流的FAIR化階段。經過這一步,數據便可由人、機通過不同的接口進行訪問。有許多不同的方法來在線訪問和管理FAIR數據資源。FAIR Data Point(FDP)提供的通用FAIR數據訪問器即是其中之一。該訪問器的人機界面為一個簡單的網頁,它提供了一個指向FDP提供的相關元數據層的鏈接,點擊該鏈接,即可獲得一個機器可讀的RDF文檔。


        7. 評估FAIR數據

        第七步是評估FAIR數據,這一步處于FAIR化工作流的后階段。此過程可能包括:1)檢查步驟1中確定的目標是否實現,如果沒有實現,工作流中的某些步驟可能需要重新進行;2)使用FAIR評估工具檢查數據和元數據的FAIR狀態,并將其與第二步和第三步中評估的FAIR狀態進行比較。


        以上七步工作流程適用于任何類型數據的FARI化,并已被“Bring Your Own Data(BYOD)”工作坊所采用。但它們并非數據FAIR化的定式,只是一種可以作為參考的模版。隨著應用程序社區對特定數據管理問題認識和理解的增加,數據FAIR化的流程仍將繼續發展。



        3

        FAIR原則在實踐中的應用


        FAIR原則在被提出之后,逐漸被應用到科學研究的各個領域。例如,生命科學研究(尤其是生物醫學、衛生、生物多樣性、農業領域的研究)、核能研究、氣候變化研究、海洋研究、人文學科研究、經濟學研究、空間科學和礦物學研究、數據科學研究等。在數據科學研究中則被應用到本體映射、機器學習算法、基于本體的訪問協議、自動化技術以及世界各地數據中心的數據管理等細分領域。


        FAIR原則雖然起源自歐美,80%關于FAIR原則的文獻也來自歐美,但是FAIR原則的實踐已經完全超越了歐美國家,擴散到中國、拉丁美洲、非洲等區域。


        此外,很多國際組織都在致力于推動FAIR原則的實施和基礎設施建設。如:研究數據聯盟(Research Data Alliance, RDA)、科學技術數據委員會(The Committee on Data for Science and Technology)、歐洲研究基礎設施戰略論壇(European Strategy Forum on Research Infrastructures, ESFRI)和AGU和IUPAC。[8]


        歐盟在其開放科學戰略中全面采納了FAIR原則。在2014年1月啟動的“地平線2020”(Horizon 2020)科技計劃中,歐盟研究委員會啟動了“開放研究數據試點”項目,要求Horizon 2020資助項目的數據管理遵循FAIR原則。2016年2月,《歐盟開放科學議程》確立的五項行動之一是“建設支持開放科學的基礎設施”,其目標是通過實施FAIR原則,到2020年全面實現歐盟范圍的跨學科、跨機構的科學數據訪問、共享和重用。2020年2月,歐盟委員會新的《數據戰略》的核心內容之一是“數據訪問和使用的跨部門治理框架”,首要任務是在2020年第四季度建立歐洲共同數據空間治理的立法框架。


        專業的FAIR服務市場正在形成。GO FAIR基金會和Phortos顧問公司組建了FAIR服務提供商聯盟(FSPC)。迄今為止,已有十余家公司加入并同意通過培訓FAIR數據管理員和知識本體專家來提升提供FAIR服務的能力。部分公司正在考慮建立一個FAIR能力中心。FSPC承諾遵守GO FAIR規則,遵循GO FAIR實施網絡制定的最佳實踐。FSPC提供的服務范圍包括FAIR意識(FAIR Awareness events)、數據的FAIR化、語義和本體建模、構建與FAIR化兼容的工具、FAIR數據管理培訓和協助公司的GO FAIR進程。[9]


        許多FAIR工具正在被開發出來。為了推動數據的FAIR化,工業界需要提供專業的產品和服務來支持FAIR數據的創建和使用。目前,實現數據FAIR化的過程仍包括許多手動步驟,這些步驟其實完全可以實現自動化。使用FAIR工具一方面可以減輕提供FAIR數據的負擔,另一方面也可以減輕消費數據的負擔,使用FAIR工具可以幫助生產更多的FAIR數據,用戶也因而可以查找、訪問、互操作并最終重用更多的數據。[10]



        4

        FAIR原則的意義

        FAIR原則的提出回應了歐洲“開放科學”運動的要求。科學研究數據具有很高的價值,它是創新的關鍵因素,可以用于替代能源的尋找、疾病的治療等等關鍵領域的研究,帶來巨大的社會效益。在FAIR原則公布之前,不同領域、部門的科學數據在存儲內容、格式等方面都存在很大差異。采用FAIR原則,可以讓數據能夠更易查找、更易訪問、更易互操作和重用,可以幫助消除數據孤島,克服學科間的界限造成的數據不易流通問題。


        此外,FAIR原則實現了數據的機器可讀,可以為將來人機交互、人工智能的發展奠定基礎。




        注釋:

        [1] Mons, Barend, et al. "The FAIR principles: First generation implementation choices and challenges." Data Intelligence 2.1-2 (2020): 2.

        [2] Juty, Nick, et al. "Unique, persistent, resolvable: Identifiers as the foundation of FAIR." Data Intelligence 2.1-2 (2020): 30-39.

        [3] Jacobsen, Annika, et al. "FAIR principles: interpretations and implementation considerations." Data intelligence 2.1-2 (2020): 15.

        [4] Guizzardi, Giancarlo. "Ontology, ontologies and the “I” of FAIR." Data Intelligence 2.1-2 (2020): 183.

        [5] Guizzardi, Giancarlo. "Ontology, ontologies and the “I” of FAIR." Data Intelligence 2.1-2 (2020): 182.

        [6] Jacobsen, Annika, et al. "FAIR principles: interpretations and implementation considerations." Data intelligence 2.1-2 (2020): 11.

        [7] Jacobsen, Annika, et al. "A generic workflow for the data FAIRification process." Data Intelligence 2.1-2 (2020): 56-65.

        [8] Mons, Barend, et al. "The FAIR principles: First generation implementation choices and challenges." Data Intelligence 2.1-2 (2020): 3.

        [9] van Vlijmen, Herman, et al. "The need of Industry to go FAIR." Data Intelligence 2.1-2 (2020): 282.

        [10] van Vlijmen, Herman, et al. "The need of Industry to go FAIR." Data Intelligence 2.1-2 (2020): 281.


        參考文獻:

        1.    https://www.go-fair.org/fair-principles/

        2.    Mons, Barend, et al. "The FAIR principles: First generation implementation choices and challenges." Data Intelligence 2.1-2 (2020).

        3.    Juty, Nick, et al. "Unique, persistent, resolvable: Identifiers as the foundation of FAIR." Data Intelligence 2.1-2 (2020).

        4.    Jacobsen, Annika, et al. "A generic workflow for the data FAIRification process." Data Intelligence 2.1-2 (2020)

        5.    van Vlijmen, Herman, et al. "The need of Industry to go FAIR." Data Intelligence 2.1-2 (2020)

        6.    Guizzardi, Giancarlo. "Ontology, ontologies and the “I” of FAIR." Data Intelligence 2.1-2 (2020)

        7.    Jacobsen, Annika, et al. "FAIR principles: interpretations and implementation considerations." Data intelligence 2.1-2 (2020)




        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 开远市| 万全县| 大方县| 潜江市| 贵定县| 苏尼特右旗| 大荔县| 长沙市| 囊谦县| 中卫市| 乌拉特前旗| 孙吴县| 将乐县| 栖霞市| 宜州市| 万州区| 民县| 长汀县| 沂南县| 进贤县| 房产| 望都县| 新津县| 修水县| 本溪| 横峰县| 商洛市| 东辽县| 湟源县| 达州市| 大安市| 平江县| 织金县| 安国市| 拜泉县| 尤溪县| 胶州市| 许昌县| 明溪县| 肥西县| 宁晋县|