您的位置: 首页> 资讯 > 正文

数据治理与安全合规的实践现状与挑战-每日快报

2023-05-10 16:14:09 来源:DataFunTalk

引言

数据治理的核心领域包括哪些?这些领域的发展现状与落地挑战是什么?未来数据治理有哪些发展趋势?


(资料图片仅供参考)

就这些问题,DataFun 与 虎兴龙、王慧祥、刘天鸢 等三位数据治理专家进行了访谈,专家们提出了以下值得注意的观点:

1. 元数据一开始是治理工具,如今也成为治理的目标;

2. 数据血缘庞大而复杂,难以全面覆盖,并兼顾准确性和可扩展性 ;

3. 数据质量将往内容质量、智能化的方向发展;

4. 数据安全的发展参差不齐,尚未形成可量化的评估指标;

虎兴龙: 腾讯 PCG 平台与内容事业群数据工程专家、研发组长 ,2011 年大数据领域从业经验,擅长大数据平台技术架构、数据治理与分析平台建设,先后在百度、VIVO、腾讯负责大数据平台、数据治理平台研发工作,目前担任腾讯数据工程专家、研发组长,负责腾讯欧拉数据治理平台的技术工作。

王慧祥: 字节跳动火山引擎 DataLeap 资深大数据工程师,负责字节跳动数据质量、资源优化等大数据领域的数据治理平台的研发工作,在海量数据场景下的存储资源治理、任务资源治理、数据 SLA 保障、离线及流式数据监控等场景上拥有较多的平台化、系统化解决经验。

刘天鸢: 阿里云大数据平台 DataWorks 产品经理,负责公共云商业化与数据安全能力建设。

DataFun社区|出品

数据智能专家访谈 第16期|来源

01.

治理流程

虎兴龙:

数据治理的基本流程是:第一步,定义一个治理周期内的治理目标,最好是简单可量化的;第二步,基于目标搭建治理人员组织,治理是需要推动、协作的,也需要领导与业务支持的,治理的组织设计也很重要;第三步,确定治理的路径、方案;第四步,周期性迭代推进落地。

王慧祥:

数据治理一般开始于事后,即出现了问题再治理,通过对问题做归因,总结梳理出标准治理规则,定义治理的实施指标,并在组织内宣贯实施,定期复盘结果,即数据治理以组织驱动实施。

在全域数据治理的各个流程中, 目前来说对于数据建模和应用的规范性治理是业界关注但比较难达到统一的阶段 ,原因在于合理性的数据规范有多套,每种规范在不同的业务场景中都有起应用价值,如果一刀切地做一套规范性要求,可能对于业务来说会影响起发展效率,背离了治理的初衷。

对此,字节提出的“分布式自治”数据治理更好地避免了大规模组织建立规范实施“一刀切”式的治理,“分布式治理”更好地发挥了业务单元优势,以提效治理、服务业务为核心目标,针对各个业务不同阶段的不同痛点来进行有目标的治理。

02.

核心领域

1. 元数据

虎兴龙:

数据治理的方方面面都需要元数据,对于治理数据的人,要弄清数据哪里有问题,就需要分析和监控元数据;对于应用数据的人,要找到数据、理解数据的含义,也需要通过完善、规整的元数据;对于管理者,要知道数据治理的结果如何,也需要通过元数据汇集一些评价指标来观测。举个比较形象的例子:对于图书馆的书籍治理,书的内容需要治理,书的目录、分门别类地正确摆放也是必须。

元数据管理从元模型开始,元模型可以简单理解为是数据一系列规则、规范的定义。例如:定义数仓分层标准、定义数据之间的引用规则,定义指标模型的规则等。在数据治理领域,元模型的主要意义在于拉齐各业务、团队的数据标准。

可观测离不开完善、及时的元数据,实现可观测才可以评价及发现问题,进而才可以有效治理。

王慧祥:

数据治理的工作离不开元数据,从元数据中描述的数据信息能够对数据进行较精准的描述,因此数据治理必须要通过元数据进行。

在元数据治理方面,元数据准确性和血缘准确性一直是大家关注的目标 ,也是需要一致投入精力去做的;而基于元数据的各种指标体系,资产应用等等均是元数据治理之上的场景孵化,是业界比较热的方向,利用好元数据,能够更好地发挥数据的价值。

元数据治理是目前比较前瞻性的方向,随着数据的海量增长,元数据本身也成为了一个“大数据”,对元数据本身的治理及其应用,越来越成为业界焦点,现在比较多讨论的关于“主动元数据”(active metadata)就是一种元数据的应用表现。

2. 数据血缘

虎兴龙:

数据血缘最大的挑战是全链路、全场景数据血缘的串联 ,因为数据流转涉及的系统、路径都比较多,且随着对数据价值挖掘的深入还会增加,导致血缘很难 100% 覆盖所有常见的数据流转。

王慧祥:

数据血缘的主要挑战是血缘准确性 ,主要难点在 2 个方面:

(1)如何定义准确性

准确性,通常通过血缘准确率来定义,分母是理论上血缘正确的资产量,分子是实际做到的血缘正确资产量;这里又要定义正确,也就是怎么判断血缘是正确的。在实践中,通常做如下定义:

血缘准确率 = 血缘准确资产量 / 资产量

其中,资产量是针对特定可枚举的资产类型的总资产类型量,比如 Hive 表数量、ClickHouse 表数量等。血缘准确资产,是指其上游、下游依赖正确,没有缺失、没有多余。这一点要如何验证,是相对困难的,常用的一种方式是 抽样验证。

(2)如何扩展血缘能力

造成血缘不够准确的问题是多方面的,如任务解析异常、非标准化任务建设等。所以另一个挑战问题是如何扩展血缘能力,举个例子,比如 Hive 表的血缘,假设所有 Hive 表的产出均以 SQL 99 标准任务产出,针对 SQL 99 的统一解析大概率能保障血缘。

但是,SQL 方言多,实际在业务支持中,由于业务特性需要的资产类型也很多,为了支持多种多样的资产类型,资产选型会很多,比如 Hive、Hbase、ClickHouse、ES、Doris、Redis、Kafka 等等,这些引擎通常很难做到开发语言统一,即 SQL 统一,这就给解析带来了难度。所以,血缘不准确的根本原因是资产类型的扩展导致的。

3. 指标体系

虎兴龙:

指标是最直接的数据应用,最常见的问题就是指标口径不一致、指标数据延迟等,现在 metric store 的概念也比较热,其希望构建统一指标服务来收敛指标口径。

指标体系目前的构建缺少系统化、平台化的解决方案 ,如果要收敛指标口径、保障指标 SLA,大部分还是深度依赖数仓开发人员的人工保障。未来的方案可能是从数仓建模、指标标准化定义、统一指标服务三个角度去用平台化的手段解决这个问题。

总结来讲,数据血缘、指标体系、数据质量三者是数据治理最核心的部分,是互相促进的关系,单独放弃一块,也不能把另一块做好。

4. 数据质量

虎兴龙:

互联网发展过了野蛮增值的阶段,大家都需要通过数据驱动深挖增长点。过去只看几个大数(DAU、新增、留存)就够了,现在需要非常详细的数据分析,数据需求多了之后发现效率、质量是个大问题,自然数据质量就成了人人都关注的热点。

数据质量从广义方面讲,包含数据内容的准确性、数据产出的及时性,数据的价值密度。 数据质量的监控、质量管理平台也分为从埋点质量、数仓质量、指标质量、报表质量。目前大部分解决方案比较局限。

王慧祥:

在主数据的治理部分,目前最受关注的领域还是数据质量,其中及时性是质量领域的基本要求,做数据质量治理的第一步就是要把及时性做到满足要求,之后再从另外的五个维度来进行主数据的治理。

数据质量的话题越来越转向了数据内容的质量 ,在质量衡量的六个维度中对于及时性的治理已比较成熟,其他几个维度描述的内容质量越来越对业务产生影响,所以核心原因还是数据内容质量的好坏直接影响业务。指标体系也是一样的逻辑。

整体而言,数据质量目前处于较为成熟的阶段,对数据的异常值、空值、波动等各方面的监控体系已较成熟,下一阶段可能是对质量问题的事后归因提效和基于质量历史事件的质量问题预防。

数据质量的核心任务围绕数据质量的 6 个维度,即 及时性、完备性、准确性、合规性、一致性、重复性来建设。

及时性方面以数据交付的 SLA 来衡量,由于大数据领域任务链路长、流量业务属性强、数据量大,如何保障数据及时产出一直存在较大挑战,这里涉及一整条数据链路的编排、调度、任务优化等措施。

关于完备性、准确性、一致性、重复性这几个维度,主要关注的是数据内容的质量问题,即需要读取数据的内容部分,来对其质量做判断,主要的挑战在海量数据规模下如何高效发现问题,具体来说是海量数据的处理能力和质量定义问题。

前者是一个工程问题,一般考虑的是如何加速计算,如使用 OLAP 引擎加速、使用预聚合方式加速、使用抽样策略加速、有效利用元数据属性来加速等;后者是一个策略问题,如何准确的定义质量问题,需要结合大量的经验、历史数据分析、业务要求等方面综合定义,现在的一个热门发展趋势是利用机器学习能力分析、训练、发现、告警,将质量问题交给 AI 来处理。

合规性方面, 是近期安全领域比较热的话题,主要受政策驱动,以敏感信息为基准,难点是如何在海量数据下确认是否包含敏感、非合规信息,现在这一问题也逐渐在考虑以机器学习的方式来解决。

可观测性 是设计数据生命周期全环节的整体能力表现,它是事后数据质量治理的扩展,通过对历史数据的加工分析,对数据内容、质量等方面做出预测,更直观的观察、预测数据。

总的来说, 数据质量问题正逐渐往智能化方向发展,这是一个必然趋势,也是一个挑战。

5. 数据安全

刘天鸢:

数据安全主要包括数据识别(数据分类分级)、数据审计(包括 API 层面)、数据防护、数据共享、身份认证、加密等子方向。

这些子方向常用的技术方法:

① 数据识别:自然语言处理(NLP)、图像识别、知识图谱(KG)等。

② 数据审计:用户异常行为分析(UEBA)、全链路分析。

③ 数据防护:脱敏算法、水印算法、网络 DLP、终端 DLP、隐私计算。

④ 身份认证:IAM、零信任、堡垒机。

⑤ 加密:透明加密、公钥基础设施 PKI。

常用的技术选型:

① 数据识别:ip+ 端口主动扫描,拆词归类。

② 数据审计:agent 流量解析、网络流量解析。

③ 数据防护:脱敏(遮盖、替换、加密、hash 等)、水印(伪行、伪列、空格)、网络 DLP(解析 SMTP、HTTP、FTP、SMB 等)。

④ 身份认证:临时口令、多因素认证等。

⑤ 加密:密钥管理服务、数字认证服务、密码计算服务、时间戳服务、硬件安全服务。

核心技术环节:

① 高效率的数据分类分级,谓词切分与语义识别技术。

② 全链路测绘+风险监测。

③ 同态加密、多方计算、联邦学习、隐私求交等。

核心性能指标:

数据安全还没有到拼性能指标的时候了,也没有特别强的要求。

核心挑战:

数据是流动的,挑战就是要解决数据流动和数据安全天然存在的矛盾。这个和网络安全里常用的暴露面收敛的思路是完全不一样的。

常见的应用场景:

DSMM 成熟度模型里定义的采集、传输、存储、处理、交换、销毁都涉及。数据安全治理优先解决数据采集、数据存储、数据处理场景下的安全。

前沿趋势:

① 数据分类分级和数据血缘的关联。

② 全链路数据分析,有两个难点:如何将端、应用、数据资产三个层面的信息进行关联分析;如何测绘出数据流转,并从数据流转中发现风险。

③ 隐私计算。

03.

智能化与自动化

王慧祥:

DataOPs、AIOPs 是数据治理的进阶流程化表示形式,将数据治理要解决的问题进行模块化拆解,并以流程做串联,在各个模块的部分,通过规则或者 AI 的方式来分析、预测数据治理问题。

虎兴龙:

当前 DataOps 的概念比较受关注,DataOPs 是平台的建设理念和方法,是数据治理的手段。DataOps 和数据治理都比较强调要加强元数据管理,完善元数据。

同时国外也有比较热的词叫 Data Fabrics,从数据最终价值输出上,构建一个高效的数据知识网络(Data Fabrics)可能才是数据治理的目标,DataOps 是手段。

- End -

访谈人: 虎兴龙 腾讯PCG平台与内容事业群数据工程专家、研发组长

访谈人: 王慧祥 字节跳动火山引擎DataLeap资深大数据工程师

与谈人: 刘晓坤 DataFun

撰文: 刘晓坤 DataFun

▌专家介绍

虎兴龙

公司 :腾讯

职位 :PCG 平台与内容事业群数据工程专家、研发组长

个人介绍 :11 年大数据领域从业经验,擅长大数据平台技术架构、数据治理与分析平台建设,先后在百度、vivo、腾讯负责大数据平台、数据治理平台研发工作,目前担任腾讯数据工程专家、研发组长,负责腾讯欧拉数据治理平台的技术工作。

王慧祥

公司 :字节跳动

职位 :火山引擎 DataLeap 资深大数据工程师

个人介绍 :负责字节跳动数据质量、资源优化等大数据领域的数据治理平台的研发工作,在海量数据场景下的存储资源治理、任务资源治理、数据 SLA 保障、离线及流式数据监控等场景上拥有较多的平台化、系统化解决经验。

刘天鸢

公司 :阿里

职位 :阿里云大数据平台 DataWorks 产品经理

个人介绍 :负责公共云商业化与数据安全能力建设。

▌数据智能专家访谈

“数据智能专家访谈”是 DataFun 新推出的内容系列,本系列旨在访谈不同公司的核心技术人员,得到专家在不同领域的洞察,包括但不限于行业重点、热点、难点,增加读者对行业技术的了解。

关键词:

资讯
业界
企业
骑闻
产品
数据治理与安全合规的实践现状与挑战-每日快报
引言数据治理的核心领域包括哪些?这些领域的发展现状与落地挑战是什么?未来数据治理有哪些发展趋势?就这
2023-05-10
05月11日(周四)博弈分析:投机氛围浓,机构率先跑路 天天热讯
【05月11日(周四)博弈分析:投机氛围浓,机构率先跑路】盘面回顾沪指跌1 15%,深证成指涨0 14%,创业板指涨
2023-05-10
河北衡水:宏达实验初二年级召开期中考试总结表彰大会 每日速读
​为表彰优秀、鼓励先进、树立典型、营造浓厚的学习氛围,并进一步调动全体学生学习的主动性和积极性,近日
2023-05-10
林峰老婆张馨月_林峰怎么看上张馨月 每日短讯
1、张馨月可以说是一个多才多艺的女孩子,舞蹈、钢琴、小提琴都不在话下,不但多才多艺,是是一个学霸,曾
2023-05-10
王者荣耀亚运会国家集训队名单公布,广州TTG、北京WB全部主力入选,“奶茶”时隔5年再带队
5月10日,腾讯电竞公布了杭州亚运会王者荣耀亚运版本项目的国家集训队候选人名单,大名单由4名教练组成员、
2023-05-10
魏县棘针寨乡志愿服务队_关于魏县棘针寨乡志愿服务队简述
小伙伴们,你们好,今天小夏来聊聊一篇关于魏县棘针寨乡志愿服务队,关于魏县棘针寨乡志愿服务队简述的文章
2023-05-10
  中新网海口1月23日电(符宇群)海南省第六届人民代表大会第五次会议23日在海口举行第二次全体会议。海南省人民检察院检察长张毅在作报告
2022-01-24
  中新网太原1月23日电 (高雨晴 冉涌 张鹏宇)记者23日从国网山西省电力公司获悉,该公司冬奥保电应急发电队伍已到达河北张家口赛区,
2022-01-24
  中新网西宁1月23日电 (记者 李江宁)据青海省地震局23日消息,中国地震台网正式测定,北京时间2022年1月23日10时21分,在青海海西州德
2022-01-24
  中新网贵阳1月23日电 (周燕玲)对外开放,是内陆开放型经济试验区贵州正在召开的两会热点词汇,如何拓展海内外“朋友圈”助力贵州经济
2022-01-24
温馨生活好young 厦门推广文旅产品火爆全网
  中新网厦门1月23日电 (记者 杨伏山)“冬日暖阳厦门好young”福建省内宣传推广线下活动22日精彩收官。主办方称,本次活动火爆全网及福
2022-01-24
宁夏非遗传承人:刻刀里的守正创新更有“年味”
  (新春见闻)宁夏非遗传承人:刻刀里的守正创新更有“年味”  中新网银川1月23日电 题:宁夏非遗传承人:刻刀里的守正创新更有“年味
2022-01-24
沧州:8个重大科技专项项目确定 引领经济社会高质量发展
为充分发挥科技在经济社会高质量发展中的引领和支撑作用,沧州市确定8个项目为2021年全市重大科技专项项目。这8个重大科技专项项目分别为:
2022-03-19
  中新网海口1月23日电(王子谦 符宇群)海南省高级人民法院院长陈凤超23日说,2021年海南法院为自贸港建设提供坚强司法保障,全年有效管
2022-01-24
  新华社武汉1月23日电(记者王贤)随着春节假期临近,从广州、深圳等地返回湖北的旅客较多。为此,23日,武汉站、汉口站、襄阳东站、十堰
2022-01-24
  1月22日0—24时,广东省新增本土确诊病例3例和本土无症状感染者1例,均为珠海报告。23日,珠海市疫情防控新闻发布会上,珠海市政府副秘
2022-01-24
青海海西州德令哈市发生3.7级地震
  据中国地震台网正式测定,1月23日11时58分在青海海西州德令哈市发生3 7级地震,震源深度9千米,震中位于北纬38 40度,东经97 35度。
2022-01-24
  北京2022年冬奥会和冬残奥会颁奖花束已于近期完成交付。与传统的鲜切花不同,这些花束全部采用上海市非物质文化遗产“海派绒线编结技艺
2022-01-24
  中新网宿迁1月23日电 (刘林 张华东)核酸检测是当下及时发现潜在感染者、阻断疫情传播的有效方法。23日,记者从宿迁市宿豫区警方获悉
2022-01-24
  记者从天津市人社局获悉,从明天(24日)起,天津2022年度第一期积分落户申报工作正式开始,这是新修订的《天津市居住证管理办法》《天津
2022-01-24
  中新社北京1月23日电 (记者 刘亮)记者23日从中国海关总署获悉,2021年,中国海关组织开展“国门绿盾”专项行动,在寄递、旅客携带物
2022-01-24
  记者从天津市疫情防控指挥部获悉,天津疫情第341—360例阳性感染者基本信息公布。  目前,这20例阳性感染者已转运至市定点医院做进一
2022-01-24
“最美基层民警”武文斌:案子破了最管用
  中新网吕梁1月23日电 题:“最美基层民警”武文斌:案子破了最管用  作者 高瑞峰  同事称他为“拼命三郎”。从警14年,武文斌破
2022-01-24
  据“西安发布”消息,截至2022年1月23日,雁塔区长延堡街道近14天内无新增本地病例和聚集性疫情。根据国务院联防联控机制关于分区分级
2022-01-24
  中新网西宁1月23日电 (记者 孙睿)据青海省地震台网测定,2022年1月23日10点21分(北京时间)在青海省海西州德令哈市(北纬38 44度,东经
2022-01-24
江西南昌:市民赏年画迎新年 书法家挥毫送春联
  (新春见闻)江西南昌:市民赏年画迎新年 书法家挥毫送春联  1月23日,“赏年画过大年”新年画作品联展江西南昌站活动在江西省文化馆
2022-01-24
  中新网成都1月23日电 (祝欢)成都市第十七届人民代表大会第六次会议23日在成都举行,成都市中级人民法院院长郭彦与成都市人民检察院检
2022-01-24
列车临时停车3分钟救旅客
  (新春见闻)列车临时停车3分钟救旅客  中新网广州1月23日电 (郭军 黄伟伟)“车长,车长,4号车厢有位旅客腹涨难忍,身体不舒服”…
2022-01-24
女子背负命案潜逃24年 因涉疫人员核查落网
  中新网湖州1月23日电(施紫楠 徐盛煜 赵学良)1998年7月,犯罪嫌疑人杜某因家庭琐事,用菜刀将自己的弟媳砍伤致死。案发后,她从老家河
2022-01-24
广东“00后”雄狮少年锤炼功夫迎新春
  (新春见闻)广东“00后”雄狮少年锤炼功夫迎新春  中新社广州1月23日电 题:广东“00后”雄狮少年锤炼功夫迎新春  作者 孙秋霞 
2022-01-24
03-19 2022岳阳国际旅游节开幕 特色农产品展销等系列活动目不暇接
2022岳阳国际旅游节开幕 特色农产品展销等系列活动目不暇接
今天,天下洞庭岳阳市君山区第九届良心堡油菜花节暨2022岳阳国际旅游节开幕,菊红、粉红、水红、桃红、紫色、白色等七色组成的4万亩花海在 [详细]
03-19 2022年郴州计划重点推进文旅项目101个 总投资354亿元
2022年郴州计划重点推进文旅项目101个 总投资354亿元
3月16日,我市举行全市文旅项目和城市大提质大融城项目集中开工仪式,市委书记吴巨培宣布项目开工。郴州嘉合欢乐世界、仙福路工地清风徐来 [详细]
03-19 宿州泗县深入推进文旅融合发展 擦亮城市品牌
宿州泗县深入推进文旅融合发展 擦亮城市品牌
近年来,泗县以争创安徽省文化旅游名县为目标,深入推进文旅融合发展,努力擦亮水韵泗州 运河名城城市品牌,全县文化旅游业实现高质量发展 [详细]
03-19 淡季不忘引流 京郊民宿市场有望迎来回暖
淡季不忘引流 京郊民宿市场有望迎来回暖
旅游淡季中的京郊民宿有望成为市场中最先复苏的板块。3月17日,北京商报记者调查发现,虽然正值旅游淡季,且受疫情变化的影响,不过各家民 [详细]
01-24 西安浐灞回应“社区领导怒怼咨询群众”:涉事社区主任已停职
西安浐灞回应“社区领导怒怼咨询群众”:涉事社区主任已停职
  西安浐灞回应“一社区领导在市民咨询离市政策时发生争执”事件 涉事社区主任已停职  西部网讯(记者 刘望)日前,网络上流传一条视频 [详细]
01-24 陕西:截至23日12时 西安56.5万大中专学生已离校返家
陕西:截至23日12时 西安56.5万大中专学生已离校返家
  1月23日,陕西省举行第45场疫情防控工作发布会,发布会上陕西省教育厅相关负责人通报,陕西全省疫情有效控制后,大中专学校能不能放假 [详细]
01-24 河北魏县发布北京一阳性人员在魏县的主要轨迹
河北魏县发布北京一阳性人员在魏县的主要轨迹
  魏县疾病预防控制中心关于紧急寻找丰台区新冠肺炎阳性检测者同时间同空间人员的公告  2022年01月22日,接到邯郸市疾控中心转北京市疾 [详细]