作者:張建軍,中國電科首席專家,神州網信技術總監
本文約7100字,建議閱讀10+分鐘
本文主要介紹數據與數據分類、數據確權規則、數據的所有權與其他權利等方面內容,并進行案例分析。
2022年12月發布的《關于構建數據基礎制度更好發揮數據要素作用的意見》(以下簡稱“數據二十條”)提出了需要“構建數據基礎制度”,而數據確權、價值評估、流通監管是建立數據制度的三個基本問題。為分析這三個問題,需要建立一個理論模型和分析方法,并在此基礎上,提出基本的確權規則、流通規則、入表規則和監管方法,目的是為前述三個問題的分析和解決提供一種在法律、經濟和技術上邏輯清晰的架構和方法,推動相關問題的落地解決。
本文是系列文章的第一篇——數據與確權。
先說結論:按照現代信息系統的基本工作機理,數據是指有一定結構和含義的二進制數字集合;數據可以分為指令類數據和非指令類數據;非指令類數據可以進一步分為:原始數據(次原始數據),模型數據,結論類數據,自動執行類數據。依據數據的分類和數據處理的特點,對非指令類數據提出數據所有權確權的4條規則:
確權規則一:原始數據(次原始數據)中完全取決于實體本身的屬性、狀態,邏輯上不依賴特定數值化活動的數據屬于對應的主體(被數值化的主體或物的擁有者);原始數據中依賴于特定數值化活動的數據,屬于對應主體和實施數值化活動的主體,數據可以去關聯后分屬相關主體。
確權規則二:主體(人或機構)的原始數據(及次原始數據)的所有權無法改變,但可以設置類似“用益物權”的權利;物的原始數據(次原始數據)的所有權隨物的所有權變化而變化;數據集按照“按份共有”的原理確定權屬。
確權規則三:結果數據的權屬在遵守規則一、二的前提下,可依照《民法典》“添附”規定確定權屬(或權益)的歸屬,默認屬于輸入數據所有者和處理者共同。
確權規則四:新產生的模型數據、統計/推測/預測結論、研判/決策結論、自動執行數據按照規則三確權,后續可以改變。
一、數據與數據分類
現代信息系統都是基于現代數字計算機技術構建的,因此計算機體系的特點決定信息系統中數據的特點,因此后面的討論中不在區分信息系統和計算機系統。
在現代計算機系統中只有二進制的數。人們設計這些系統時,賦予了這些二進制數一定的結構(即:數的排列方式)和含義(即:編碼規則),這些有結構和含義的二進制數字集構成為數據。
數據基本可以分為兩大類,即:指令類數據和非指令類數據。
指令類數據就是直接控制電子開關工作的數據。計算機系統就是通過指令實現基本的四則運算、邏輯判斷的。
計算機里面除了指令類數據之外都是非指令類數據。
編程人員按照一定的處理邏輯,編排計算機的各種指令,就構成為“計算機程序”。計算機程序是“指令類數據”最主要的形式。
現代信息系統與現實世界的關系可以抽象為如下模型:
數據存在于“賽博空間”中,“賽博空間”是一個“人造”空間,現實空間與賽博空間的交互,本質仍是人與世界的交互作用,這一特性決定了賽博空間的所有規律都與現實空間有著本質和聯系,這也是數據相關問題研究和分析的最基本原則。
現實空間主要由人、組織和物所構成。
現實空間和賽博空間有三個非常重要的作用點,即:編程、數值化、現實化。
人通過“編程”活動,在賽博空間形成指令類數據集,用于對賽博空間內的數據進行處理。
賽博空間的非指令類數據主要分為“原始數據”和“衍生數據”兩大類。“原始數據”是現實空間對象在賽博空間的最初始“映射“,”衍生數據“則是”原始數據“和其他數據在賽博空間內處理后生成的數據。
考慮到數據“處理”過程的特點,上述模型可以進一步細化為如下圖:
現實空間的實體對象可以分為:人、組織、物(包括:自然物和人造物)。人和組織又被稱為主體對象,簡稱為主體。
現實空間的實體通過數值化過程,其狀態、屬性等會被賽博空間的數據所表示和記錄,這些最原始的數據就構成為“原始數據”。數值化的手段一般有兩種,一種是人工輸入的方式實現原始數據的采集,另一種是使用工具完成原始數據的采集(如:各種數字傳感器)。原始數據一般會涉及實體的當前狀態、屬性、關聯關系等,也包括原始數據產生(或采集)的時間、地點等。數值化活動一般會發生在兩種情況下,一種是在基于信息系統的業務活動中,另一種則是專門的數據采集活動。
原始數據可能因為各種原因,需要進一步的清洗、整理、校準、匯集等,才能形成對現實對象更為真實、全面的反應,這些經過進一步處理的后形成的、對現實實體反映的數據稱為“次原始數據”。理論上,對同一現實對象,按照時間順序排列的原始數據和次原始數據就構成為該對象的“歷史數據”,再結合對應的空間信息,就構成該現實對象在賽博空間的“完整反應“。
原始數據和次原始數據與現實空間對象的固有關聯關系是不可改變和消除的,這是賽博空間所有數據處理的基礎。后面關于原始數據和次原始數據的確權規則就是根據這一特點制定的。
人們為了發現規律、分析問題,會匯集各類原始和次原始數據,對其進行分析和處理——即:建模過程,從而可以形成用于分析各種規格和模型的模型數據。模型類數據往往承載了人們發現的現實世界的事實或變化規律與規則。
使用模型數據,可以對原始和次原始數據進行各種處理,主要有兩類:一是分析,包括:統計類分析、推測預測類分析,其結果則為各類統計類數據,對未來的推測類數據;二是決策,使用模型,針對原始數據或次原始數據所反應的現實情況,做出某些方面的決策,結果即為:結論類數據。
在很多場景下(如自控控制、自動駕駛),結論類數據會被進一步處理成可以自動執行的數據。
現實化環節是賽博空間數據作用于現實世界的關鍵環節。數據主要通過兩種途徑影響現實世界,一是通過影響人的行為,人們根據主動或被動接收到的、由數據轉化而來的、可理解的信息或指令,做出行為或直接執行決策;二是可自動執行數據被輸入到各類自動執行裝置中,觸發形成各種可以影響現實世界的物理、化學過程。
小結一下本節的結論:賽博空間數據可以分為指令類數據和非指令類數據,非指令類數據可以進一步分為原始數據、次原始數據、模型類數據、統計預測類數據、決策結論類數據、自動執行類數據。各類數據有與現實實體有著特有的關聯關系,這些關系決定了其所有權確權的規則(見第二節)。現實空間和賽博空間的三個交互點,這些節點以及賽博空間內的處理過程構成數據所有者數據相關的基礎權利(見第三節)。
二、數據確權規則
數據所有權是數據其他相關權利的基礎,因此本節重點描述數據所有權的確權規則。
數據分為指令類數據和非指令類數據。
對指令類數據而言,其主要的形式就是“計算機程序”,又被稱為“軟件”,在知識產權相關的法律中,相關權利的保護有明確規定。本文不再做討論。
對非指令數據而言,針對第一節中描述的不同種類數據,提出如下所有權確權規則:
確權規則一:原始數據中(次原始數據)完全取決于實體本身的屬性、狀態,邏輯上不依賴特定數值化活動的數據屬于對應的主體(被數值化的主體,或物的擁有者);原始數據中依賴于特定數值化活動的數據,屬于對應主體和實施數值化活動的主體,數據可以去關聯后分屬相關主體。
數值化活動是現實空間與賽博空間交互的重要環節之一,原始數據是數值化活動的結果。數值化活動涉及三類主體,即:實施數值化活動的主體、被數值化的主體(人或機構)、被數值化的物的所有者。
原始數據和次原始數據與現實實體有著固有和不可分割的關聯關系,因此原始數據和次原始數據中完全取決于實體本身的屬性、狀態,邏輯上不依賴特定數值化活動的數據屬于對應的主體(或客體的擁有者)。比如:人的姓名、年齡、性別,物的重量、體積等。這些屬性、狀態可能會被不同的主體多次數字化,這些屬性、狀態也可能會隨時間變化,但無論被如何數值化、如何變化,這些屬性、狀態與對應實體的關聯關系是無法改變的,如果關聯關系一旦被改變,數據就失去了價值。所以,此類數據天生決定了屬于對應主體,即:被數值化的主體或被數值化的物的所有者。
原始數據還包括大量的與數值化活動相關的數據。數值化活動會發生在兩種場景下,即:業務活動和專門數據采集活動。這些活動的數據與實施數值化活動的主體和被數值化主體之間有著固有的關聯關系,因此這些數據屬于實施數字化活動的主體和對應主體共有。例如:在網站平臺上的原始訪問記錄屬于訪問者和網站所共有。對于共有的原始數據,如果將其與某一主體去關聯后,則該數據屬于剩下所關聯的主體。(關于數據去關聯的規則,另文討論)。
確權規則二:主體(人或機構)的原始數據(及次原始數據)的所有權無法改變,但可以設置類似“用益物權”的權利;物的原始數據(次原始數據)的所有權隨物的所有權變化而變化;數據集按照“按份共有”的原理確定權屬。
主體固有屬性、狀態所形成的原始數據(即:主體固有原始數據),因其與特定主體(人/機構)特有的不可改變的關聯關系,其所有權是無法改變的。即使這些數據被去標識后,這種關聯關系也是無法改變的,因此其所有權也是無法改變的。
物的原始數據根據物的歸屬關系,屬于物的所有主體。如果物的所有主體發生變化,物的原始數據所有權也相應改變。
對于不同權屬的具有相同或類似結構數據匯聚成的“數據集”,可以按照“按份共有”的原理確定該“數據集“權屬比例。
對于無法改變所有權的原始數據和次原始數據,可以通過法律、合同等手段設置類似“用益物權”的權利。通過類似“用益物權”的權利設置,不僅可以解決主體消失(如:人死亡后)后,其固有原始數據和次原始數據開發利用的問題,也可以為物的權屬轉移導致的數據權屬變化提供一種解決的方法。
確權規則三:結果數據的歸屬在遵守規則一、二的前提下,可依照《民法典》“添附”規定確定權屬(或權益)的歸屬,默認屬于輸入數據所有者和處理者共同。
結果數據是指對輸入數據進行處理所所生成的數據,結果數據的確權涉及輸入數據的所有者和數據處理者兩類主體。
次原始數據是對原始數據綜合處理(如:清洗、糾正、去重等)后形成的結果數據,但次原始數據處理的目的是更為準確反應現實實體的屬性、狀態及其歷史變遷,因此需要按照規則一、二對次原始數據歸屬進行確權。
除次原始數據外,其他的結果數據,在沒有法律規定、主體之間也沒有協議約定的情況下,《民法典》中“添附“是可以適用的規則。如果按照添附規則仍無法確定權屬的,結果數據默認由數據所有者和處理者共同擁有。
《民法典》中將“添附”分為了三種情況,即:加工、附合和混合。《民法典》中的”加工”,非常類似于簡單的數據收集、匯集工作,結果數據往往是輸入數據的簡單“合并”和簡單變換,或者結果數據只是輸入數據的子集和簡單變換;“附合”則非常類似結果數據中“嵌入了”部分(或全部)的輸入數據,一旦將所嵌入的輸入數據剔除掉,結果數據就失去了使用價值;“加工“對應于結果數據中不包括任何的輸入數據的情況。
確權規則四:新產生的模型數據、統計/推測/預測結論、研判/決策結論、自動執行數據按照規則三確權,后續可以改變。
模型類數據、各種統計類/分析類/決策類/結論類數據、自動執行數據都是基于一定的輸入數據,經處理后生成的,可以根據規則三進行確權。這些數據的所有權可被改變,即:這些數據的所有權可以轉讓。
三、數據的所有權與其他權利
所有權是數據的基本屬性,也是數據其他權利的基礎。辨析數據相關的其他權利與所有權之間的關系,則是數據合理流通、合理利用的基礎。
從第一節的模型可以看到,非指令類數據相關的基本權利可以分為三個,即:數值化的權利、處理的權利和現實化的權利。賽博空間的數據只有兩個用途:被處理以產生新的數據,被現實化以影響現實世界。
另外和數據相關的還有一個權利就是,數據的持有權。這是由數據的特點所決定的。數據是存在于賽博空間的,因此數據都需要依附一定的載體而存在。在現代網絡化的信息系統中,這些物理載體的所有者和數據的所有者可能并不是同一個主體,從而產生了數據的持有者與數據的所有者并不是同一個主體的情況——數據持有權。數據在載體上的存在可能有兩種情況:密文態和明文態。
另外,持有權和處理權之間有著非常微妙的關系:處理者必須持有數據才可能對數據進行處理,這是現代信息技術特點所決定的。在同態計算技術沒有成熟之前,處理者還必須明文持有數據。
本節討論這四項權利數據所有者對這四項權利授權情況。
(1)數值化的權利
數值化的權利決定了現實世界實體能否被賽博空間的數據所描述和反應,因此該權利屬于現實空間的主體和物的所有者,即:“現實主體“。
現實主體在業務交互場景中,為保證業務的完成,在業務交互的過程中隱含將數值化的權利授予了業務運營者,從而能夠實現業務的交互,共同完成相關的業務活動。在這種場景下,現實主體的隱含授權僅僅是業務完成所需的最少量數據,這就是很多法律、法規中提出“最小必要原則”的根本原因。除業務的“最小必要原則”外,現實主體還會根據相關法律規定的監管要求,隱含授權采集一些額外的信息。換另一句話說就是:現實主體對數字化權利的授權僅僅限于業務“最小必須“和”法律監管”兩個方面。
現實主體在專門的數據采集場景中,則是根據與數據采集者達成的協議,授權數據采集者數值化的權利。
在實際社會活動中,存在業務運營者(或數據采集者)超授權進行數值化活動的情況(即:超范圍采集數據)。另外,對一些特殊的數值化活動(如:攝像、錄音等)則存在直接和間接侵犯現實主體數值化權利的情況(即:未經授權的數字錄音、錄像)。
(2)處理的權利
對原始數據和次原始數據而言,數據所有者的授權往往是基于業務交互隱含完成的,換另一個角度來說,原始數據和次原始數據的所有者是基于業務交互的必須,授權業務提供者對原始數據和次原始數據進行處理的。從嚴格的意義上來說,數據主體并未授權業務提供者對這些原始數據和次原始數據進行業務活動不直接相關的處理,更沒有授權進行無關的處理。至于何為業務相關的處理,需要在實踐中給出更為清晰和明確的界定。這對于現實主體和業務提供者才是公允的。
對模型類數據和其他數據而言,只需其所有者授權,相關處理者即可進行進一步的處理,生成新的數據。
(3)現實化的權利
現實化是一個非常特殊的環節,是賽博空間數據作用于現實空間的關鍵環節,因此其授權需要更為細致,才有利于保護數據所有者的權益,同時也有利于防止數據被濫用。
對可現實化的數據而言,數據擁有者首先應考慮被授權者的身份,并將實施現實化的手段、方式、時間、物理和邏輯地域(或位置)、過程、對現實空間的作用范圍等因素作為授權的內容。
(4)持有的權利
前面提到了持有權利和處理權利之間的微妙關系,因此,當數據所有者授予處理權的時候,就意味著授予了明文持有的權利。
常見的單獨數據持有權利授權發生在存儲的委托數據傳輸、數據存儲、數據備份、數據恢復等服務場景中。在這些場景中,被授權者只是持有數據,不會對數據做任何處理。
在明文數據持有的場景,數據所有人與授權持有人可能只有合同和協議的約束,并沒有更加有效的技術保護手段,因此數據存在被非授權復制的風險,從而損害數據所有者的權益。
在密文持有數據的場景中,如果相關技術手段(尤其是密碼技術)得到了有效和正確的使用,可以有效降低數據非授權復制的風險,有效保護所有者權益。
在實際社會活動中,存在利用免費明文數據持有服務(如:各類免費網盤服務)換取數據處理授權的商業模式。在此類商業模式中,并沒有對數據處理范圍清晰和明確界定,因此此模式存在對數據所有者權益侵害的風險。
四、一些場景案例
下面提供兩個場景中數據權屬的確定案例。這兩個案例描述了按照前面所述規則,場景中所產生的主體原始數據和次原始數據的歸屬。
(1)網站購物的原始數據和次原始數據歸屬
人們在一個購物網站瀏覽時,與購物網站進行了很多的互動,這些互動會產生大量的原始數據,這些數據一般可以分為兩類:記錄購物者與網站交互行為的數據,比如:登錄網站的時間、瀏覽的貨品記錄等;以及購物者提供的自身特有的數據,以便網站完成相關服務,常見的有:個人的身份信息、身體尺寸信息、物流地址等信息。
按照前面的確權規則,“記錄購物者與網站交互行為的數據“應屬于網站和購物者共同擁有。網站可以在去除購物者標識后,將這些數據轉化為網站自己擁有。對購物者也是一樣,購物者可以將自己的網上購物記錄,去掉網站標識后,轉化為自己的數據。
至于購物者特有的信息,則屬于購物者所有。
舉例來說:
比如網站的一條記錄“某時間段、某IP地址、某賬號用戶、瀏覽了A、B、C……等商品“,就是屬于網站和用戶共有的數據。網站可以在去除”某IP地址“和”某賬號用戶“后,將該數據轉化為自己所擁有的數據。
對用戶而言,有一條記錄“某個時間段、在某網站、瀏覽了A、B、C……等商品“,也是屬于用戶和網站共同擁有。用戶可以在去除”在某網站“信息后,將該條數據轉化成自己所有。
(2)病人醫院就診的數據歸屬
隨著醫院信息化覆蓋的范圍原來越廣,病人在醫院就醫越來越方便,整個就診過程在醫院的信息系統中留下了大量的數據。這些數基本可以分為兩類,一類是病人與醫院設施、醫生交互所產生的數據,比如:掛號的記錄、醫生的診斷、處方等,這些數據應該是屬于醫院和病人共有的;另外一類是病人癥狀、身體狀態等的記錄,這些數據一些來自與醫生的詢問、觀察,一些來自于各種醫療檢查設備、儀器的檢測,如:X光片子、血檢的各項結果等,這些數據應屬于病人,而非醫院,根據本文前面的確權規則,這些數據完全取決于病人,而非醫院的檢測手段,病人為診斷和治療而允許醫院對這些數據的采集(數值化)和處理,但這些數據僅僅與病人相關,病人在任何一家規范的醫院進行檢測都會得到同樣的數據。這也是很多地方進行的檢測信息跨醫院互通使用的基礎。
編輯:文婧
校對:邱婷婷