- 相關推薦
簡析一種分層次的數據溯源安全模型論文
數據溯源是一個新興的研究領域,誕生于20 世紀90 年代,由“Data Provenance”翻譯而來。起初,部分文獻將其稱為數據標志或數據檔案,在后期的發(fā)展過程中,逐漸演變?yōu)閿祿菰,表示追蹤數據的起源和重現數據的歷史狀態(tài)。通過對大量相關文獻進行調研發(fā)現,國內學者對數據溯源模型研究較少,主要集中在以下3 個方面: 語義層上,沈志宏綜述了語義環(huán)境下數據溯源在表達模型與技術上的研究進展; 邏輯層上,陳穎提出一種基于DNA 雙螺旋結構的數據起源模型; 安全層上,李秀美研究了數據溯源本身特有的安全需求以及加密方案,構建了新的數據溯源安全模型。因此不難發(fā)現,數據溯源的相關研究都局限于單個層次,鮮少有研究將3 個層次銜接起來。筆者通過分析3 種模型的優(yōu)缺點,將數據溯源的過程總結歸納為3 個層次: 語義層、邏輯層、安全層,層層遞進,構建了分層次的數據溯源安全模型。
1 數據溯源相關理論
1. 1 數據溯源的概念與定義
最初,數據溯源的“溯源”通常是與某件藝術品或文學相聯系,在藝術品的鑒賞中,數據溯源能夠幫助確定某件藝術作品的真實性,可以確定一個作品的歷史重要性,也可以確定藝術作品持有者的合法性。數據溯源是一個重載的學術術語,最近一項研究總結了數據溯源在學術上的不同定義,其中部分學者將數據溯源理解為數據的起源; 與此同時,另外一些學者的觀點是將“數據溯源”視為記錄實驗過程的工作流,注釋和筆記的元數據; 在國外的研究中,工作流中數據的產生過程是研究數據溯源需要的主要實體; 明華,張勇等學者認為,數據溯源強調的是一種追本溯源的技術,根據追蹤路徑重現數據的歷史狀態(tài)和演變過程,實現數據歷史檔案的追溯。
1. 2 數據溯源的分類方法
通過調研發(fā)現,主流的數據溯源分類方法中,消極型溯源法與積極型數據溯源法相對應,增量法與時間標志法相對應。消極型數據溯源法在對溯源信息有需求時去追蹤數據溯源信息。通過對查詢或轉換過程進行分析,反向推導得到數據溯源信息。積極型數據溯源法在事先得到并攜帶數據溯源信息,即用標記來記錄數據的出處,并讓標注傳播到結果數據中,通過查看數據的標注即可得到數據的數據溯源信息。增量法通過增量定義數據溯源信息; 時間序列法以時間標志定義兩個版本之間的增量信息。在增量法中,需事先確定一個參照版本( 通常會是第一個版本或者最后一個版本) ,隨后在一系列版本中將版本與版本前后的一系列增量記錄下來,從而形成記錄在案的數據溯源信息。理想狀態(tài)下,需保證每一個變化都記錄在案,因此每一個增量都要讓它的單位與粒度盡可能小。在時間序列法中,一個強大的儲存器將所有的版本記錄在案,并且在這個過程中,在任意不同的時間點,時間標志會用來標志數據因素的存在。
1. 3 數據溯源的應用意義
對于數據溯源的應用意義,不同學者理解各異。Simmhan 和Plale 等認為,數據溯源的應用意義分為4 點:
( 1) 根據數據溯源信息確定數據質量; ( 2) 認清錯誤來源; ( 3) 允許派生的自動重新更新; ( 4) 在商業(yè)領域,深入到數據倉儲中探尋數據的來源,跟蹤知識的創(chuàng)建過程,為達到監(jiān)管的目的,提供一個審計跟蹤。在此基礎上,數據溯源的應用意義進一步明晰化,主要體現在以下方面: ( 1) 數據質量。數據溯源可以根據數據來源和轉換過程來評估數據質量和數據可靠性,它可以為數據的來源提供有力證據。( 2) 審計跟蹤。數據溯源可以用來跟蹤審計的數據,監(jiān)測是否有錯誤數據生成。( 3) 復制副本。詳細的數據溯源信息允許數據來源重復,幫助維持數據的時效性是數據復制的秘訣。( 4) 屬性。建立數據的版權和所有權,使其能夠被引用,在數據錯誤的情況下能夠確定責任。( 5) 情報性。用于數據發(fā)現的元數據查詢,可以根據數據溯源信息來解釋數據。
2 數據溯源典型模型分析
當前,對于數據溯源的相關研究處于初級階段,通過全面梳理和對比3 種典型的數據溯源模型,以此為分層次的數據溯源安全模型的構建提供一定的理論基礎。
2. 1 數據溯源本體模型
數據溯源本體模型是比較基礎的數據溯源模型,該模型雖然只是一個簡單的構架,但是它幾乎涵蓋了數據溯源信息的所有語義內容,其重要性不可忽視。在數據溯源本體模型中,數據溯源語義信息被概念化,包含了7 個相互關聯的元素,這7 個元素分別是溯源記錄、操作者、操作時間、操作位置、操作內容、操作原因、操作工具。在數據溯源本體模型中,每一個數據溯源信息被定義為一個七元組,這個七元組的函數形式為: 數據溯源信息= { ( 溯源記錄、操作者、操作時間、操作位置、操作內容、操作原因、操作工具) } !八菰从涗洝北硎驹跀祿苌^程中,影響數據的某個事件; “操作時間”表示這個事件發(fā)生的時間; “操作位置”是指事件發(fā)生的具體位置; “操作內容”是指導致這個事件的動作; “操作者”是這個事件發(fā)生過程中涉及到的代理; “操作工具”是指在事件發(fā)生過程中涉及的程序和技術; “操作原因”是指事件發(fā)生的原因。
2. 2 開放型數據溯源模型
開放型數據溯源模型的提出最初是針對科學工作流,且其設計目標是為不同的系統(tǒng)提供可交換的溯源信息,并允許開發(fā)人員創(chuàng)建并共享操作該模型的工具。開放型數據溯源模型同時從技術角度定義了溯源,支持對任何事物( 不僅僅是針對計算機系統(tǒng)) 的溯源,并允許多級描述同時共存。開放型數據溯源模型旨在描述構件中的因果依賴關系,在開放型數據溯源模型中,有4 個主要概念如下: ( 1)狀態(tài): 指代某個狀態(tài),可以是物理的一個對象,也可以是計算機系統(tǒng)的一個數字化表達。( 2) 過程。狀態(tài)與狀態(tài)之間轉換引起的一個或者一系列的動作。( 3) 參與者。用以促進、控制和影響過程的執(zhí)行。( 4) 角色。一個過程可能會產生多個狀態(tài),不同的狀態(tài)擁有不同的角色。在開放型數據溯源模型中,主要的幾個邏輯步驟如下: ( 1) 過程觸發(fā)過程。某些過程是不可分割的,一個過程執(zhí)行完成才能觸發(fā)下一個過程的執(zhí)行。( 2) 參與者控制過程。某些過程需要有參與者控制,參與者控制這個過程的開始與結束。( 3) 狀態(tài)推斷狀態(tài)。狀態(tài)與狀態(tài)之間也是無法分割的,一個狀態(tài)的產生才能推斷出下一個狀態(tài)的產生。( 4) 過程促進狀態(tài)。狀態(tài)與過程不可分割,需要啟動某個過程才能產生特定的狀態(tài)。開放型數據溯源模型是狀態(tài)與過程的相互作用,參與者促動過程的執(zhí)行,其簡要融入了數據溯源本體模型的相關元素。
2. 3 基于DNA 雙螺旋結構的數據溯源模型
陳穎提出的基于DNA 雙螺旋結構的數據溯源模型將生物學與數據溯源模型相結合,提出了一種較為新穎的數據溯源模型,將數據溯源信息分為數據和操作兩部分并對應起來,為數據溯源的研究與發(fā)展提供了一種較新的思路;贒NA 雙螺旋結構的數據溯源模型分為二級結構,一級結構對應DNA 的立體結構圖,二級機構對應DNA的平面結構圖。在一級結構中,雙螺旋結構中的兩條鏈分別代表數據序列和作用在數據之上的操作序列。連接兩條鏈間的堿基代表能唯一確定數據及其操作之間關聯的屬性,用來在數據及其操作之間建立直接的對應關系,其結構具有一定的穩(wěn)定性。在二級結構中,引入4 個維度: ( 1) 層次維。對數據所做操作所在層次。( 2) 空間維。相應組件所在位置。( 3) 時間維。操作活動發(fā)生的時間。( 4) 數據流維。操作活動過程中數據產品消費和生產的數據;贒NA 雙螺旋結構的數據溯源模型二級結構圖。基于DNA 雙螺旋結構的數據溯源模型在數據溯源研究領域有許多爭議,盡管如此,將DNA 中堿基的配對結構與數據序列和數據操作序列聯系起來的思想非常有邏輯性。在開放型數據溯源模型與基于DNA 雙螺旋結構的數據溯源模型中,對應關系是二者的共同特點。
2. 4 對3 種典型模型的評估
數據溯源本體模型從語義上涵蓋數據溯源信息7 個層次的內容,詳盡周全,其概念結構清晰簡單,易于理解,存儲方便,適用于關系數據庫。數據溯源本體模型的不足之處在于其著眼點只在于語義層,沒有實現與溯源信息其他層次的銜接。開放型數據溯源模型定義溯源的方式精準且與技術無關,不論其是否由計算機系統(tǒng)產生,都支持對任何事物溯源的數字化描述。在開放型數據溯源模型中,狀態(tài)與過程相互作用,參與者起操控作用,結構清晰簡單易于理解,然而開放型數據溯源模型只涉及邏輯層次上的框架模型,語義層次的信息不夠詳盡;贒NA螺旋結構的數據溯源模型的優(yōu)點在于數據及操作之間的可相互推導,有效解決了數據與操作之間的對應關系,直觀地揭示了數據序列及操作序列變化,同樣,基于DNA 雙螺旋結構的數據溯源模型著眼于邏輯層次上的框架模型,而語義層次的信息不夠詳盡。
綜上所述,3 種數據溯源模型著眼于不同的關注點。通過對國內外有關數據溯源的文獻進行廣泛調研,筆者發(fā)現對數據溯源的研究主要集中在建模、計算、存儲、查詢等工作上,然而對確保數據溯源信息安全方面的研究極少。隨著電子數據可信度重要性的日趨增強,確保數據溯源信息安全比以往更加重要。隨著數據及其溯源信息在不可信環(huán)境中經過不同用戶和任務時,數據溯源信息極易被非法更改,為起源溯源提供完整性、機密性保障就變得非常重要。因此,在提出的數據溯源模型中,安全層的考慮必不可少。
3 分層次的數據溯源安全模型
通過對國內外有關數據溯源的文獻進行廣泛調研發(fā)現,對于數據溯源模型的研究仍然處于概念層面,因此,從系統(tǒng)化的視角對數據溯源整體框架的研究顯得相當必要。該文中的分層次的數據溯源安全模型融合了國內外數據溯源領域不同的研究視角,在國內外學者對數據溯源的研究基礎上,將語義層次、邏輯層次、安全層次銜接起來形成一個整體,且對每一個層次涉及的數據記錄進行簡單的總結,為數據溯源領域的深入研究提供一定的基礎。
3. 1 模型內涵
筆者通過對國內外數據溯源的文獻進行調研,總結數據溯源相關的文獻內容分為3 類: ( 1) 語義層數據溯源;( 2) 邏輯層數據溯源; ( 3) 溯源信息安全問題。調研發(fā)現,大多數文獻在探究數據溯源問題時,僅僅涉及到3 個層次中的某一個層次,視角不夠全面,系統(tǒng)性不強。因此,在分層次的數據溯源安全模型中,3 個層次逐層遞進,安全層處于最外層,邏輯層處于中間層,語義層為最里層,總體模型如下:
3. 1. 1 語義層
在分層次的數據溯源安全模型中,數據溯源信息可以作為數據對象的一種屬性。在該模型中,數據溯源信息為數據從狀態(tài)i 到狀態(tài)j 的轉換過程,定義為溯源過程( i,j) 。語義層次對數據對象的溯源過程進行了詳細的結構定義,并參考數據溯源本體模型里面的“操作者”、“操作時間”、“操作地點”、“操作內容”、“操作原因”、“操作工具”對之進行定義。因此,溯源記錄結構表示為: 溯源記錄{ 操作者、操作時間、操作地點、操作原因、操作工具} 。
3. 1. 2 邏輯層
在邏輯層次中,數據對象的基本信息和數據對象的溯源信息既相互獨立又相互依賴。兩者之間的獨立性表現在數據對象的描述結構上,數據對象的結構表示為,數據對象{ 基本信息、溯源信息} ,在數據對象的基本信息這一欄中,不同類型的數據對象對應的基本信息表示有所差異,例如結構化數據、半結構化數據、非結構化數據各有其對應的表示模式,數據對象的溯源信息則作為另外一個集合,不論數據對象為何種類型,數據對象的溯源信息都表示為該數據對象狀態(tài)與狀態(tài)之間的轉換過程集合。因此,數據對象的基本信息與數據對象的溯源信息之間有一定的獨立性。兩者之間的依賴性體現為數據對象的基本信息與數據對象的溯源信息密不可分,準確地說,數據對象的溯源信息是用來更好地描述數據對象的。因此,在該模型中的數據對象表述結構中,除去傳統(tǒng)的數據信息,還應包含一項“處理過程”,該“處理過程”是連接數據對象的基本信息與數據對象的溯源信息的連接點,也是兩者的相互依賴之處。在訪問某個數據對象的數據溯源信息時,先找到相對應的數據對象,數據對象對應相應的處理過程,即數據對象的溯源過程,亦是數據對象狀態(tài)之間的轉換過程。在邏輯層次中,數據溯源信息,即數據對象所經歷狀態(tài)轉換過程的信息,對應語義層次的溯源記錄;诖,語義層次與邏輯層次得以連接。
3. 1. 3 安全層
安全層次主要用于有效預防外來侵擾和防止內部人員操作不當。因此筆者參考了訪問控制模型,訪問控制模型由一個狀態(tài)集和施加在這些狀態(tài)上的原始操作集合組成。每個狀態(tài)包括一個主體集S,一個客體集O,以及一個訪問矩陣A。對每個主體S 和客體O,A[S,O]是一個訪問權限集合。訪問控制矩陣A 中的行代表主體S,列代表客體O。這樣每個元素代表某主體對某客體的訪問權限,Aij 代表主體Si 對客體Oj 有訪問權限,即主體Si 對客體Oj 有訪問權限,此訪問權限可以限制非法人員進入系統(tǒng)惡意篡改數據對象信息。在訪問矩陣模型的基礎上,為了防止內部人員操作不當,設置了安全記錄,其結構是: 安全記錄{ 相關人員、數據標識、溯源記錄} 。安全記錄的設置記錄了合法操作人員的操作記錄,預防和減少合法人員操作不當引起的數據變動,加強了數據的可恢復性,更深層次地鞏固了數據溯源信息的安全性。
3. 2 模型特點
在參考數據溯源本體模型、開放型數據溯源模型與基于DNA 雙螺旋結構的數據溯源模型的基礎上,該模型充分體現了3 個模型的優(yōu)勢,其具體特征如下。
3. 2. 1 系統(tǒng)性,連貫性
在分層次的數據溯源安全模型中,安全層為數據對象的數據溯源信息提供了有力保障; 邏輯層描述了數據對象基本信息與數據對象溯源信息的對應關系并以數據對象狀態(tài)與狀態(tài)之間的轉換過程定義了數據溯源信息; 語義層詳盡論述了數據溯源過程中涉及到的語義信息。在3 個層次相對獨立的基礎上,該模型將數據溯源過程有機統(tǒng)一起來,層層遞進,系統(tǒng)化地呈現了數據溯源的過程,為數據溯源的進一步發(fā)展提供了一定的基礎。
3. 2. 2 數據溯源信息簡單化
在邏輯層中,數據對象溯源信息即該數據對象狀態(tài)與狀態(tài)之間的轉換過程的集合。不論是何種數據類型,邏輯層定義溯源的方式精準且與技術無關,支持對任何事物溯源的數字化描述,實現了數據溯源信息的簡單化。如,某生物數據庫的一個存檔圖片的顏色背景變動可以形成一個溯源記錄,該溯源記錄是“紅色”到“綠色”的轉換過程,參照語義層的溯源記錄格式,該溯源記錄為{ A 操作人員,2016. 01. 01,B 數據庫,紅色變綠色,清晰度需要,Photoshop} 。
3. 2. 3 安全性能高
在分層次的數據溯源安全模型中,盡管安全層沒有很復雜的邏輯,但是該模型將數據溯源的安全問題獨立為一個層次,并且運用了計算機技術中的訪問控制模型和身份認證雙重保障,既防止了無關人員對數據溯源信息的惡意篡改,也能夠實現內部人員的訪問及操作記錄歸檔在案,保障了數據對象信息的可恢復性和數據溯源信息的安全性。
4 結語
在對數據溯源模型進行大量調研之后,參考數據溯源本體模型、開放型數據溯源模型、基于DNA 雙螺旋結構的數據溯源模型,構建了一種分層次的數據溯源安全模型,對模型的語義層、邏輯層、安全層進行了定義和解釋,說明了模型具有的特點和意義。該模型強調了數據溯源過程的連貫性,系統(tǒng)化地將安全層、邏輯層、語義層連接成了一個整體,突出了溯源信息安全性的地位,由于其概念結構清晰,為數據溯源在其他領域的應用提供了參考。
【簡析一種分層次的數據溯源安全模型論文】相關文章:
簡析管理與文秘論文05-02
簡析莫扎特C大調的論文05-03
簡析教與學之中的樂趣論文05-03
繼母在影視中的形象簡析論文05-03
簡析稅法的脫法性論文05-04
簡析電影《香水》的泅渡與解脫論文05-04
簡析高職英語語音教學論文04-30
簡析大學特色的本質論文05-02
模擬水氡觀測數據快速整理軟件簡析04-27
有關簡析植物保護對糧食安全的影響論文05-04