資料治理Data Governance

2024-09-07

汪志堅・國立臺北大學資訊管理研究所特聘教授

資料不只是要管理,更要治理。大數據的年代,資料治理的重要性不言可喻。不重視資料治理的後果,可從外遇專用交友平台Ashley Madison在2015年被駭客攻擊並有3600萬名會員資料外洩的個案談起。該平台遊走倫理界線邊緣,專門撮合婚外情,既然切入這麼敏感的服務範圍,就更需要縝密的資安與全面的資料治理,但該平台卻沒有重視資料治理,資安搞得亂七八糟。Ashley Madison自知婚外情偷情撮合是很敏感的服務,因此在出事之前,還在平台上強調公司資安無虞,且提供使用者付費刪除資料的服務,只要花19美元就能夠將個人資料全部刪除。許多使用者付了19美元,希望永久刪除在該網站上留下的足跡,但平台卻收錢沒辦事,並未實際刪除使用者的所有資料。Ashley Madison因為女性會員不足,還讓員工偽造虛假的女性帳號來吸引男性會員。缺乏資料治理的Ashley Madison終於因為不重視資料治理,而自食後果。

可以從Netflix紀錄片「外遇偷情大曝光:性、謊言與醜聞」提到的資料外洩談起,這個AshleyMadison平台目前仍活著,但資料外洩的陰影仍在,已非熱門的婚外情外遇交友服務。

資料治理涵蓋的範圍

資料治理Data Governance涵蓋的範圍,包括但不局限於資料管理、資料安全,涵蓋層面包含資料收集、儲存、操作、存取、應用、刪除的政策、操作程序與人員管理,以確保資料被準確、合規、適當地處理。

資料治理至少包括以下項目

  • 資料:與資料庫有關的所有項目。
  • 組織:將資料治理的負責主管、資料庫與資料庫系統負責人、資訊人員、各種資料使用者組織起來。
  • 標準:為資料建立標準。
  • 政策:為資料的收集與存取建立符合法律規範的管理政策。
  • 監督:監督落實資料治理的執行。

資料庫管理只是資料治理的一部分

資料治理、資料管理、資料庫管理意思有點接近,但資料管理與資料庫管理,重點都在於資料進入資料庫之後的管理工作,但更宏觀的層面,則較少被討論。

資料治理是很重要的基礎建設,以刪除用戶資料為例說明

缺乏良好的資料治理,會有很多負面的效果。例如會很難有辦法刪除這個人的個人資料與數位足跡。但法規上其實有要求:「個人資料蒐集之特定目的消失或期限屆滿時,應主動或依當事人之請求,刪除、停止處理或利用該個人資料。但因執行職務或業務所必須或經當事人書面同意者,不在此限。」(個人資料保護法第11條第3項),因此,如果一個使用者要求刪除他的個人資料,如何刪除呢?

以Ashley Madison網站平台為例,當Ashley Madison提供付費19美金就能刪除所有資料的同時,Ashley Madison應該要充分掌握一個使用者進入到平台後,所會留下的所有數位足跡。這些數位足跡是以資料的方式,存在於各個資料庫內。這些數位足跡不一定直接連到個資,而是透過個人連到帳號後,再連到連線紀錄,或者其他使用者的瀏覽這位用戶資料的紀錄,或者其他使用者單向傳送訊息給這位用戶或雙向溝通的紀錄,這些資料都必須要被充分掌握,才有辦法消除數位足跡。另外,系統的log檔,是紀錄系統運作的最終資訊,log檔內牽涉到關於這位希望刪除數位足跡的用戶的資料,是否要跟著刪除?法規上是否允許刪除這樣的log檔資料,都是資料治理需要事先討論清楚的。

還好,法律上並不是要我們刪除數位足跡,而是要刪除個人資料。這比刪除數位足跡簡單一點。我們的法規規定的個人資料,是指:自然人之姓名、出生年月日、國民身分證統一編號、護照號碼、特徵、指紋、婚姻、家庭、教育、職業、病歷、醫療、基因、性生活、健康檢查、犯罪前科、聯絡方式、財務情況、社會活動及其他得以直接或間接方式識別該個人之資料(個人資料保護法第2條第1項第1款)。訂單資料可能不算在可以識別該個人的資料。因此,在刪除個人資料的同時,不必去修改廠商的訂單資料庫。

這裡,就出現一個問題,跟資料治理密切相關。如果我們要允許使用者可以刪除他的資料,也就是姓名、聯絡方式資料可以被刪除,那電子商務網站在處理個資時,就不能把姓名、聯絡方式直接轉存一份到廠商的訂單資料表,而是要用欄位帶入的方式。當資料被刪除時,該訂單資料表內的姓名、聯絡方式,就會因為帶不到資料,而變成空白。如果不這樣安排,就是必須在用戶要求刪除資料之後,將所有訂單資料清理一次,把這位用戶買過的所有物品的訂單資料內的姓名、聯絡方式資料都刪除。但在刪除的過程中,不能採取訂單資料直接刪除,否則廠商的訂單資料表就會出現錯誤。

刪掉資料說起來很簡單,實際上卻很困難,這也是為何Ashley Madison收了用戶19美金,卻並沒有將資料刪乾淨的原因之一。

資料模型

資料模型是資料治理的最基礎作業,也是資料庫規劃的重點工作。如果不重視資料模型,而只是直接進行資料庫管理,則會只把重點放在資料庫軟體操作,只是進行操作層次的管理。

最常見的資料庫模型,還是關聯式資料庫,所有的SQL資料庫,都是以關聯式資料庫為主。但近年來,Jason形式的資料儲存,以及非關聯資料庫、影音、圖像資料庫,比重愈來愈高。

ER model與資料模型圖示

ER模型Entity-relationship model,中文可以稱為實體聯絡模型、實體關係模型或實體聯絡模式圖,但更常直接使用英文。這個模型很早就被提出,但仍被持續使用。

ER在概念結構設計階段,用來描述要儲存在資料庫中的資料類型。ER model內的元素包括實體entity,類似於資料表,以及關係relationship,也就是資料表之間的關係。

在SQL資料庫中,使用的資料模型圖示比ER模型再簡單一點,通常就是資料表,以及資料表中的資料欄位與其他資料表的資料欄位之間的關係。

資料庫正規化

關聯式資料庫長得很像Excel試算表,沒學過資料庫的人,很容易把資料表想像成Excel試算表,這看起來也沒多大問題,但資料庫內的各張資料表,是彼此連結的,而且資料是經過正規化處理的。

正規化的觀念很早就已被提出,是資料庫設計的一系列原理和技術,主要是要做到資料盡量不重複儲存,減少冗餘,因為資料不重複儲存,因此改一個地方的資料,就能讓全部的資料一起更改,因此可以維持資料的一致性。

資料庫正規化的做法,是利用資料模型,把會重複使用的資料,放到一張資料表,以避免反覆紀錄同樣資料產生的資料冗餘。舉例來說,一個使用者,有一個使用者代號,只有一份聯絡資料,而每一個使用者可以下很多筆訂單,每個訂單可以連結到不同廠商。這時,訂單資料表的資料內容雖有使用者名稱、使用者代號、聯絡資料、購買商品、商品供應廠商,但這並非儲存在同一張資料表,因爲使用者代號、聯絡資料,是放在使用者個人資料檔,購買商品則放在商品資料表,商品供應廠商則放在廠商資料表,另外這筆消費者訂單要連結到多筆廠商訂單,每筆廠商訂單都只連接到一家廠商。

第一正規化

資料不重複出現。沒有任何兩筆以上的資料完全重複。

第二正規化

資料不重複出現,而且非鍵欄位必須完全相依於主鍵。

例如在成績資料表上面,如果有以下資料

學號、學生姓名、學生科系、課程代號、課程名稱、學分數、成績、老師代號、老師姓名。

這樣的成績表,基本上第二正規劃可分割成三張資料表:

成績資料表:學號、課程編號、成績。學號與課程編號是主鍵。決定了學號與課程編號,就可找到成績。

學生資料表:學號、學生姓名、學生科系。學號是主鍵,決定了學號,就可以找到學生姓名與學生科系。

課程資料表:課程代號、課程名稱、學分數、老師代號、老師姓名。課程代號是主鍵,決定了授課代號,就可以找到課程名稱、學分數、老師代號、老師姓名。

第三正規化

符合第二正規劃,且各欄位之間沒有相依。也就是某個欄位決定了之後,另一個欄位也跟著決定。

例如在前述的課程資料表裡面,有老師代號與老師姓名這兩個欄位,但是代號與姓名是相依的,只要決定了代號,就可決定老師姓名。因此,可以增加一個老師資料表。

老師資料表:老師代號、老師姓名。老師代號是主鍵,決定了老師代號,就可以找到老師姓名。

放棄正規化的情況

有時,基於處理速度的考量,會刻意地放棄正規劃,允許資料的累贅冗餘。例如,需要快速處理的商品庫存增減或剩餘點數之類的資訊。

UML Unified Modeling Language

有人在提到資料模型時,也會提到UML,UML(Unified Modeling Language)是一種建模語言,用於軟體開發的過程中,描述、設計和分析系統,提供標準化的圖表和符號表示方式。UML雖說是一種語言,但其實更像是一種圖形表示法,提供了一套統一的標準語言,以及圖形表示法,主要目的是讓非資訊系統開發背景的人,都能夠在軟體開發過程中,利用圖形與文字來溝通。

UML常見的圖形包括

使用個案圖(Use Case Diagram):陳述資訊系統將如何被使用

序列圖(Sequence Diagram):陳述資訊系統的流程順序

類別圖(Class Diagram):陳述各個元件、類別、屬性、方法之間的關係。

活動圖(Activity Diagram):陳述系統中的活動流程

狀態圖(State Chart Diagram):陳述各個使用對象的狀態。

XML Extensible Markup Language

XML是一種資料檔案格式,跟UML沒啥關係,XML的規則,使XML可被人類閱讀,同時也是機器可讀。XML是一種標準資料檔案格式,用以取代之前各家廠商都使用自己特定資料格式的做法。

Word的二進位檔案格式是doc,Excel的二進位檔案格式是xls,Powerpoint的二進位檔案格式是ppt。採用XML觀念之後,Word的xml檔案格式是docx,Excel的XML檔案格式是xlsx,Powerpoint的XML檔案格式是pptx。但這些docx、xlsx、pptx都還不是標準的XML檔,而只是XML 檔案格式的doc、xls、ppt檔。

資料標準

資料標準化是一種資料處理的流程,將不同資料庫結構轉換成一個共同格式的資料。

資料標準化的目的,是希望保持資料的內部一致性,資料有相同的格式與標籤,讓每個人得以使用。

資料標準則是資料標準化過程中所設定的標準,以供各相關人員與相關系統來遵循。

企業內部很難只用一套資訊系統就搞定所有的業務,但不同資訊系統之間,可能希望能夠進行資料交換,此時,就需要設定資料標準。資料標準可以用於打破資料孤島,建立資料交換能力,確保資料完整性(integrity)、可用性(usable)、一致性(consistent)、正確性(accurate)。

典型的資料標準包括以下組成分:

  • 資料欄位
  • 與其他資料欄位的關係
  • 資料型態(日期、文字、整數、浮點數、清單、陣列、座標...)
  • 是否為唯一值與主鍵
  • 資料組成是否有特定規則(例如身分證字號的第一個字只能是字母,且只能是哪些字母,身分證字號的數字的規則與必須包含幾碼?)
  • 與其他系統的對應關係

舉例來說,政府部分的很多資料,需要讓各個部門使用,各界也都有可能會使用到政府資料,因此政府資料建立了很多標準

https://schema.gov.tw/lists 

舉其中一個標準為例,健康食品許可證的資料標準為:https://schema.gov.tw/lists/133

資料品質管理

常見的資料品質指標:

  • 正確性(Accuracy):
    資料必須正確。有些時候,資料會被有意或無意的錯誤登錄。例如有些門市會鼓勵顧客用電話號碼加入會員,但顧客不一定提供正確的姓名,或者店員不一定輸入正確姓名。或者店員在輸入顧客資料時,隨意輸入。
  • 即時性(Timeliness):
    資料必須是最新的,才是高品質的資料。有時資料在當時是正確的,但在現在是過時的,資料已不存在意義。舉例來說,會員的聯絡電話,可用於傳送促銷簡訊,但會員可能更換電話,此時,必須要適時更改,傳送的促銷簡訊才能發揮效果。
  • 一致性(Consistency):
    同一筆資料,在不同資訊系統中,必須一致,才是高品質的資料。舉例來說,訂單資料在顧客關係系統、物流送貨系統、帳務會計處理系統的資料必須一致,當訂單因故必須修改時,必須確保所有資料維持一致性。
  • 完整性(Completeness):
    資料必須完整,才算是高品質的資料。舉例來說,門市鼓勵顧客用電話號碼加入會員,但若門市受限於避免影響顧客排隊結帳時間的現實考量,將所有欄位都跳過,只輸入電話號碼,就完成會員帳戶建立,這樣的不完整會員資料,並非高品質的資料,未來的應用場合有限。
  • 唯一性(Uniqueness):
    完全相同的人、事、物,應有唯一的資料,避免重複建檔。符合高度唯一性的資料,才是高品質的資料。舉例來說,同一個使用者,不應該重複加入會員。同一筆訂單,不應只是使用者點選了兩次確認,就變成兩筆訂單、成立了兩次交易。
  •  有效性(Validity):
    資料的範圍、類型、格式應該要符合定義,才是高品質資料。舉例來說,email欄位資料,必須要有@符號,也要有@之後的
  • 合理性(Reasonability):
    資料符合預期範疇,如果資料明顯不合理,就不是高品質的資料。舉例來說,許多標錯價的網路購物平台,就是導因於資訊系統未能及時挑出不合理的資料,例如價格標示過低,已低於平均售價若干個百分比,此時售價資料可能有不合理的狀況,或者銷售額過高,高出每日平均銷售額的某一倍數,此時就有可能是標錯價格。單一使用者單次購買商品過多,屬於不合理的購物資料,也可能是導因於系統被入侵,或是商品標錯價。
  • 可存取性(Accessibility):
    資料能被使用者方便、快速的存取,才是高品質的資料。如果資料難以被存取,例如網路連線造成資料庫經常無法連到,而無法存取,就是該資料缺乏可存取性。

資料來源:

https://www.cio.com.tw/cdo-column-data-is-the-oxygen-of-the-business/ 

https://medium.com/@goydon6a/淺談資料品質管理-data-quality-與資料治理-data-governance-以金融產業為例-5ba6e07aaa37 

資料分布和存儲

資料治理的範圍,包括資料分布與資料存儲的決策。

集中式與分散式資料庫的決策

資訊系統背後連接到資料庫系統,這些資料連接到資料庫伺服器。有兩種可能做法:集中式資料庫、分散式資料庫

集中式資料庫

所有系統都連到同一個資料庫的作法,稱為集中式資料庫系統,因為資料集中在同一台機器,易於管理,但風險較高。這台資料庫伺服器因為必須負擔眾多工作,因此功能需要較為強大,伺服器負擔重。而且,資訊系統的運作效率會受限於資料庫的回應時間,而回應時間會受到資料傳輸速度影響。基本上,集中式資料庫最大的問題,在於效率與資訊安全。

分散式資料庫

將資料存儲於多個伺服器的做法,稱為分散式資料庫。這些分散在不同伺服器的資料庫,可以串接成一個資料庫。分散式資料庫將多個資料庫單元連接起來,組成的一個邏輯上的資料庫。每個被連接起來的資料庫,是資料庫的一個節點。分散式資料庫具有可擴充的特性,資料規模增加時,較容易擴充。而且分散式資料庫可以進行平行處理,提升效率。

公司有很多台資料庫伺服器,並不就是具有分散式資料庫,而是這些資料庫串接成邏輯上的一個資料庫,才是分散式資料庫。對於資訊系統來說,分散式資料庫還是被視為是一個資料庫,只是在資料庫儲存資料時,會將資料分散到許多不同的資料庫伺服器上,做法是先將資料進行前處理,將資料分割成較小的單位,以進行分散儲存,而分散儲存的過程中,也進行同步資料備份。因此,單一一台資料庫伺服器主機故障或暫時離線,不會影響運作。

分散式資料庫的儲存最大的好處是避免資料損毀,單一一台資料庫伺服器主機的硬體故障或網路斷線,不會造成資料毀損,也不會造成資訊系統癱瘓。

資料備份是分散式資料庫系統的重點,在主資料庫和複製資料庫之間,需要定時進行同步更新,才能確保資料安全。但資料庫的備援並不等於分散式資料庫。資料庫備援只是資料庫複製一份的概念,集中式資料庫也可以進行資料備援。分散式資料庫是資料儲存於多台資料庫伺服器主機,避免單一主機的問題造成資料庫的無法使用。

資料來源:

https://www.stockfeel.com.tw/什麼是分散式資料庫?有哪些好處?/

https://en.wikipedia.org/wiki/Distributed_database

公有雲、私有雲、混合雲

分散式資料庫,其實已有雲端的精神,只是專用於資料庫,不包含網站主機伺服器。如果連主機都是用分散式的架構,基本上就是一種雲端架構。

有專門的公司,提供有雲端的架構,直接提供公司使用,這就是一種公有雲,Amazon Web Services (AWS)、Microsoft Azure、Google Cloud Platform (GCP)等公司,都有提供這種公有雲。許多廠商也有提供雲端服務,這些廠商中,有些是自己擁有機房,有些則是代理AWS、Azure或Google公司的雲端。

如果這台主機真實存在,就是公司自建伺服器,把很多伺服器組織起來,供公司專用,這就是自建私有雲。如果雲端公司將一些虛擬存在的主機(當然也可以是實體存在的主機),串接起來給公司使用,就是公有雲。公有雲的實體機器上,有其他使用者。私有雲則只有單一公司使用。

根據法規的差異,以及資安防護的需求,某些產業可能需要自建機房,或者自建機房後組成私有雲,或者在雲端運算中心內由實體機器組成私有雲。私有雲在可擴展性方面,並沒有那麼靈活,當系統需要擴增時,硬體採購並不可免,突然之間的爆量流量,私有雲若沒有擴充硬體將難以應付。但尖峰旺季過後,資料庫的流量趨於平淡,此時額外採購的硬體設備便成為虛耗成本的關鍵。

因此,介於公有雲與私有雲之間的混合雲,變成為另一種選項。具體的做法是私有雲仍能負擔時,使用私有雲。但在必要時,引進公有雲的資源,讓系統資源擴大。

延伸閱讀:

https://www.nutanix.com/tw/info/private-cloud

資料安全

大數據的時代,資料是組織的重要資產,但資料安全處理的不好,很容易成為組織的負債。

常見的資料安全保護措施,與資訊安全的保護措施類似。要確保資訊安全,可採取以下之步驟:

  • 進行資訊安全風險評估
  • 擬定資訊安全政策
  • 部署資訊安全程式,針對弱點進行改善
  • 培養組織成員資訊安全意識
  • 針對資訊安全事件預先擬訂因應策略
  • 針對突發事件進行因應

確保資料安全的具體做法

確保資料安全,至少包括以下作法

  • 存取控制即身份驗證:避免不具有權限者取得資料。
  • 資料備份:避免資料毀損。
  • 資料加密:即使資料外洩,也無法被讀取。但資料加密會影響資訊系統的資料取用速度。
  • 最小化敏感個資資料:不必要的敏感資料不要收集。
  • 屏蔽資料:將部分資料屏蔽,例如信用卡末四碼不呈現。
  • 代碼化:將資料代碼化,尤其是在不需要存取真實資料的系統中,使用代碼,而非真實資料。
  • 匿名化:將資料匿名化,避免使用真實資料。代碼化與匿名化仍有不同,匿名化不提供可辨識個人的資料,代碼化仍可辨識個人,但辨識出來代碼,而非真實資料。
  • 監控:隨時監控資料庫,即使找出異常的資料存取活動。
  • 定期資安檢測:以各種防護檢測,避免資料庫漏洞。

個人資料保護法

目的是為了規範個人資料之蒐集、處理及利用,以避免人格權受侵害,並促進個人資料之合理利用。

台灣最早在1995年就已公佈實施個人資料保護法,並逐步修正,近期最主要的修正包括2015年與2023年的修正。

個人資料包含範圍:

個人資料指自然人之姓名、出 生年月日、國民身分證統一編號、護照號碼、特徵、指紋、婚姻、家庭 、教育、職業、病歷、醫療、基因、性生活(包括性取向)、健康檢查 、犯罪前科、聯絡方式、財務情況、社會活動等及其他得以直接或間接 方式識別該個人之資料。

個人資料保護法的重點包括:

  • 不只是保護電腦資料,所有個人資料都保護。
  • 不限定行業別,任何自然人、法人或團體都需要進行個人資料保護。
  • 嚴格限制醫療、基因、性生活、健康檢查、犯罪前科等五類特種資料之蒐集、處理及利用
  • 增修個人資料蒐集、處理與利用之合法要件、告知義務、書面同意意涵、個資外洩通知、拒絕接受行銷權利等規範。

GDPR General Data Protection Regulation 一般資料保護規則

2016年推出,2018年5月25日生效的GDPR,要求跟歐洲做生意的所有企業,不限企業所在地,都必須遵循GDPR的規範。

GDPR保護的資料

GDPR保護的資料,主要是個人資料,包括:

  • 可識別個人身份的資料,諸如:電話號碼、地址、車牌等。單純只有某個資料,若無法連結到個人,則不在保護範圍
  • 個人的生物特徵資料:諸如:病歷資料、指紋、臉部辨識、視網膜掃描、相片等
  • 個人的網路使用電子紀錄,諸如:Cookie、IP 位置、行動裝置 ID、社群網站活動紀錄

GDPR給予使用者以下權力

  • 被遺忘權 (Right to be forgotten):用戶可以要求企業刪除關於用戶自己的資料,並包括資料的副本或複製品。
    這相當於Ashley Madison交友平台先前提供的19美金付費刪除個人資料的服務。Ashley Madison資料被竊的當時,仍無GDPR,因此Ashley Madison網站採取付費後可以幫助刪除資料的方式,將此遺忘權包裝成一個商品來銷售。
  • 取用權 (Right to Access):用戶可要求知道廠商建立收集自己的哪些資料,以及這些資料之使用方法、地點及目的。
  • 資料可攜權 (Right to data portability):用戶可以將自己的資料,以通用、機器可讀的形式,下載後轉移到其他服務。
  • 隱私始於設計 (Privacy by design):組織需在最初階段,就對隱私及資料保護問題,進行預測及因應,並且實施嚴格的身分驗證及授權機制。

延伸閱讀:

https://www.oracle.com/tw/security/database-security/what-is-data-security/ 

https://zh.wikipedia.org/zh-tw/歐盟一般資料保護規範

https://www.checkpoint.com/tw/cyber-hub/cyber-security/what-is-data-security/

https://www.taipeinet.com.tw/tw/news/show.aspx?num=1672&kind=14

https://turingcerts.com/zh/information-security/

資料治理的展望

數位轉型的過程,讓數位化的資料愈來愈多,大數據處理技術的提升,使得資料的價值更為提升。而人工智慧的發展,讓資料更有機會被加值應用。

另外,各界對於資料隱私保護的要求愈來愈高,法遵的要求愈來愈多,這也是資料治理所面對的未來挑戰。

1. 人工智慧對資料治理的挑戰

未來的資料治理會更加依賴自動化工具與人工智慧(AI),這些自動化工具與人工智慧,可以協助資料分類、管理、法遵檢查等。例如,並用於自動識別敏感資料、監控資料流動,並根據及時風險警示。

人工智慧不但可以協助資料治理,但也衍生資料治理的新課題,這包括哪些資料可以作為資料集以訓練人工智慧模式,以及人工智慧所產生的資料是否包含隱私資料與違反法律規範之資料。

2. 更嚴格法遵要求

全球各地的隱私法規(如歐盟的GDPR和台灣的個人資料保護法)不斷演進,在資料處理、儲存和共享資料時,法律要求遵守更高的標準。

3. 雲端資料治理

企業逐漸轉向私有雲、公有雲、混合雲環境,資料分佈於不同的雲端和本地系統中。未來的資料治理將更加強調如何有效管理和整合,同時保持一致的安全和隱私標準。

4. 資料道德與透明性

隨著資料應用的增加,社會對於資料使用的透明性和道德性要求會變得更加嚴格。企業需要清晰地解釋他們如何收集、處理和分析資料,以避免不當使用或隱私侵害。資料治理將越來越注重建立對資料使用的信任。

5. 資料可視性與資料血統管理

資料血統(Data Lineage)和可視性是未來資料治理的核心要素。隨著資料來源越來越多,追蹤資料的源頭、流向以及使用情況變得至關重要。這有助於確保資料的準確性、合規性和問責性。

6. 物聯網、邊緣計算與資料治理

IoT與邊緣計算的普及,使得即時資料治理變得必要,資料治理將需要擴展到物聯網設備,以確保資料的安全和隱私性。

7. 資料治理即服務(DGaaS)

資料治理服務化(DGaaS)會成為一種趨勢,許多企業將選擇外包其資料治理需求,從第三方服務提供者那裡獲取專業的資料管理工具和法遵服務,減少資料治理的複雜性。

延伸閱讀:土地的持有,資料若不正確怎麼辦?

漫談政府資料治理與大數據應用,從一張「丈單」開始。
https://www.ndc.gov.tw/Content_List.aspx?n=18CF7D4B24026157

看完上述這篇「漫談政府資料治理與大數據應用,從一張「丈單」開始」文章,再看看這一則新聞,有沒有發現,如果資料治理好一點,這件烏龍就不會發生。

民地沒登記被政府「強占」違憲 彰化大村日照中心剛完工恐被拆
https://udn.com/news/story/7325/7675933

1965年政府辦理土地總登記時,土地未完成申報,土地被登記為國有。ˇ但政府對他們課稅到1979年,後來卻把他們依竊占國土移送法辦後獲緩起訴。如果土地是民眾的,政府還繼續課稅到19˙79年,只是因為資料沒有治理,稅捐處認定是私有地,地政處認定是國有地,政府如何主張這個土地是無主地,所以是國家的?

閱讀後評量:

選擇題

(     )1. 資料治理涵蓋哪些層面?

  • A. 資料收集、儲存、操作、存取、應用、刪除
  • B. 只涵蓋資料收集與儲存
  • C. 只涵蓋資料操作與存取
  • D. 資料收集與刪除 

(     )2. 下列何者不屬於資料庫正規化的目標?

  • A. 減少資料冗餘
  • B. 提升資料的一致性
  • C. 提供資料備份
  • D. 維持資料的完整性 

(      )3. GDPR要求企業遵守的隱私保護原則中,不包括哪一項?

  • A. 被遺忘權
  • B. 資料可攜權
  • C. 隱私設計自始
  • D. 強制加密所有資料

(       )4. 資料標準化的目的是什麼?

  • A. 增加資料存取的速度
  • B. 提高資料的安全性
  • C. 保持資料的內部一致性
  • D. 減少數據處理中的錯誤

(       )5. 下列哪一項是資料品質的關鍵指標?

  • A. 資料的大小
  • B. 資料的一致性
  • C. 資料的存取速度
  • D. 資料的類型 

簡答題:

1. 請說明GDPR中的"被遺忘權"是什麼,它對企業有什麼影響?


參考答案:

選擇題:1. (A), 2. (C), 3.(D), 4 (C), 5. (B)

簡答題:
被遺忘權是指用戶可以要求企業刪除關於用戶自己的資料,並包括資料的副本或複製品。