|
|
|
|
移动端

百家致返栽:数据太多、太乱、太杂?你需要这样一套数据治理流程

本文来源:http://www.144865.com/www_cnys_com/

申博太阳开户优惠直营网,而当车辆接近目的地,系统会自动搜寻适合泊车的车位,并自动探测周边车距,将车辆准确停入车位。在2006年8月24日国际天文学联合会大会上,以绝对多数通过决议5A-行星的定义,以237票对157票通过决议6A-冥王星级天体的定义冥王星从此被视为是太阳系的矮行星,不再被视为大行星。蒋兴良担心产生依赖性而不肯吸氧,白天还能勉强坚持,可晚上一躺下就感觉喉咙仿佛被紧紧勒住。  支持机关、企事业单位将所属的度假村、培训中心、招待所、疗养院等转型为养老机构,支持民间资本对企业厂房、商业设施及其他可利用的社会资源进行整合和改造,用于养老服务。

↓打光师和师出来谈谈吧,起码黑了好几个色号。他们分别是1989年第一部蝙蝠侠电影的导演蒂姆·波顿(TimBurton)和制片设计师安顿·弗斯特(AntonFurst)以及黑暗骑士三部曲导演克里斯托弗·诺兰(ChristopherNolan)。碰撞的证据来自阿波罗计划带回来的月球岩石,其中所含的氧同位素组成比例与地球的地幔几乎完全一样。9月9日,国家新闻出版广电总局下发《关于加强网络视听节目直播服务管理有关问题的通知》。

  刚过了吃完晚饭的时间,没有微博的霍建华就猝不及防的通过工作室说了自己和林心如的恋情。今年国庆期间,雁荡山在央视《江山多娇-山岳篇》中亮相,其“东南第一山”、“海上名山寰中绝胜”之独特的自然、人文盛景被呈现给亿万观众。抠抠网还在深圳、宁波设有专项分公司,专门对接辐射区域内知名企业,落实农村项目的终端推广产品,这些举措都是为了将更好的商品带入到农村市场。但风云变幻的大气会对信息传递造成干扰,导致传输距离无法满足实际应用要求。

数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。

作者:Synced来源:机器之心|2019-09-26 15:06

数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。那么数据怎么治理才好,怎样与模型、算力结合才算妙?在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底是如何规范处理的。

最近,明略科技与合肥工业大学的研究者在中文核心期刊《软件学报》上发表了一篇关于数据治理的论文。它介绍了数据治理的概念,并对数据清洗、交换和集成等进行具体分析,从而提出了一种新型大数据治理框架「HAO 治理」模型。

论文地址:/www_jos_org_cn/1000-9825/5854.htm

数据治理真的很重要?

智能是基于数据的,而数据又是基于大量人工与工程努力的,所以人工智能还有相当一部分「人工」。数据收集需要人工确定数据源,或者手动写爬虫;数据处理则需要观察数据,并手动写整个清洗过程;数据标注则要根据具体业务,看看怎样给数据打标签才好。

这些过程都会耗费大量精力,有时候如果处理路径不明确,甚至会导致重复或冗余的人力工作。因此事先确定一个具体的处理流程,明确数据该怎样治理、算力该怎样分配、模型又该如何部署,那么整个开发过程能减少很多人力成本与工程负担。

作为论文一作,明略科技集团首席科学家、明略科学院院长吴信东教授表示:「数据治理的本质是对一个机构(企业或政府部门)的数据从收集融合到分析管理和利用进行评估、指导和监督的过程,通过提供数据服务创造价值。数据治理可对数据战略资产进行管理,通过从收集汇聚到处理应用的一套治理机制,提高数据质量,实现数据共享和价值最大化。」

既然那么重要,就需要一套框架,就像 DL 模型最开始都是手动写,但成为主流后就需要 TensforFlow 这样的框架。吴信东等研究者详细分析了数据治理中的各种模块,并表示数据治理从来都不是一次性的程序,每个组织必须采取许多小的、可实现的、可衡量的步骤来实现长期目标。

因此,如果我们想降低数据治理的成本,最优地调配数据、模型及算力,那么就需要一个成熟的框架。如下我们重点介绍「HAO 治理」模型的概念与过程,并从公安数据治理的角度看看该框架在实际应用中是什么样的。

什么是 HAO 治理模型

前面介绍过数据治理是从数据收集到应用处理的管理机制,而框架则规定了有关数据的流程、原则或定义。比如说我们现在有一堆图像数据集,那么从图像源、图像采集到图像储存,我们先要确定数据的接入方式是什么。

随后,因为这些图像不止用于一个任务,所以需要确定标准化的形式,并做一些清洗与预处理;当然,标注还是根据任务来确定的。最后,这些图像数据还应该统一地提供给不同的模型与任务,从而构建不同的服务,这一部分也是该统一管理的。

而明略科技设计的「HAO 治理」模型会从大数据开始,为「HI」(人类智能)、「AI」(人工智能)和「OI」(组织智能)三者协同的智能提供数据治理支持。下面举个 HAO 的例子:

数据太多、太乱、太杂?你需要这样一套数据治理流程

其中 HAO 智能的输入不仅有各种传感器,还有人类的主观感受。后面的雾计算会分析所有信息,并将机器运算/推理结果与人的分析相匹配,形成概率化与规则化有机协调的优化判断。人类、机器和组织三者结合,它们的数据与判断相互协助,这样才能最大化地利用数据的能力。

整个人机协同系统是非常复杂的,那么这就要求有一套成熟的治理框架来规范数据与算力的分配。

这样的系统应该需要满足很多要求,例如全面的数据接入机制、标准化的数据处理流程、多元集成的数据组织模式和多种数据服务模式。其中数据服务模式可以向使用者提供查询检索和比对排序等基础数据服务,也可以面向专业人员提供挖掘分析和专家建模等智能数据服务。

如下展示了 HAO 智能的蓝图设计,它主要包括感知、认知和行动三部分。

数据太多、太乱、太杂?你需要这样一套数据治理流程

总体而言,整个过程会从大数据环境开始,并根据大数据、人类专家系统、人工智能和组织智能生成对应的知识图谱,从而将大知识应用到人机协同中。此外,「HAO 治理」是一种实用系统,因此也就要求模块化数据源和治理功能,它需要更快速与灵活地搭建新特性。

「HAO 治理」模型是什么样的

「HAO 治理」模型主要包含三部分,即数据接入模块、数据治理模块和数据服务模块。其中数据接入需要采集、汇聚等操作,从而构建异质的大数据。其次数据治理模块主要对数据进行一系列预处理过程,从而构建更加容易建模的数据。最后的数据服务模块则通过分析与加工,为外部提供各种新的能力。

1. 数据接入

一般而言,现实世界的数据主要分为结构化或非结构化,而这些图像、文本等各种数据都应该进行统一的接入与管理。对于数据源之上的接入模块,它主要完成不同类型的抽取汇聚任务配置,包括异构数据库之间数据传输汇聚,不同类型的文件数据和服务接口间相互传输。

数据太多、太乱、太杂?你需要这样一套数据治理流程

2. 数据治理

接入后的数据都是比较杂乱的,它本身带了一些冗余或缺失的信息。因此,数据治理模块主要包括对汇聚库中的数据进行数据清洗和数据规范,必要时进行主题划分和数据关联,然后进行数据集成。治理完成后的数据汇聚到数据共享中心中,并用于后续的建模。

数据太多、太乱、太杂?你需要这样一套数据治理流程

其中我们比较熟悉的就是数据清洗,它会对数据进行审查和校验,从而过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换。

3. 数据服务

数据治理的目标是提供一个可直接使用且方便管理的数据库,它最终还是要为各种模型提供学习基础。而模型,最终也是要提供各种智能服务,因此这一部分也应该得到规范的管理。

基于数据治理模块,数据服务模块最开始会根据数据共享中心构建知识图谱,它不仅向使用者提供模型管理、模型探索、数据探索等数据服务,同时还向专业人员提供挖掘分析、专家建模等智能数据服务。

数据太多、太乱、太杂?你需要这样一套数据治理流程

其中核心的知识图谱是由节点和边组成的巨型知识网络,节点代表实体、边代表实体之间的关系,每个实体 还通过键值对来描述实体的内在特性。领域专家们可以根据知识图谱中的实体和关系等核心数据进行建模,并进行高层次的数据挖掘分析和加工。

统一数据接入、治理和服务模块,就能构造出「HAO 治理」模型,它规定了最一般的处理流程。吴信东教授说:「只有通过多维感知,利用数据治理技术,将高质量的数据连接起来,才能进行知识的智能抽取,基于知识图谱、暴力挖掘对知识进行多维度分析推理,构建决策模型,完成从数字化、网络化到智能化的跃迁。」

公安的数据治理应该是什么样的

上面介绍了「HAO 治理」模型的主要概念,那么它应用到现实世界中又是怎么样的,它能进一步降低人工成本吗?在论文的最后一部分,研究者以公安数据治理为例,介绍了整体流程与框架到底是什么样的。

先来看张图,如下图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用四部分。它将不同的数据按照应用分到了不同的主题或专题库,例如常住人口专题库或企业信息专题库等等。与此同时,不同的数据也能最终组成知识图谱,相当于构建了一种庞大的背景知识。

数据太多、太乱、太杂?你需要这样一套数据治理流程

看上去这张图非常复杂,但其实也就分为储存、计算、管理和应用四部分。

  • 数据存储:基于分布式的大数据存储平台;
  • 数据计算:这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等;
  • 数据管理:对集成后的数据统一维护与管理;
  • 数据应用:这是数据价值最直接的体现,我们可以通过自然语言处理等技术,对数据进行深度分析。

从上图我们可以看到整个工作流大概从预处理到分析挖掘分为 7 个部分,其中不同的部分会调用不同的数据知识库,最后的分析挖掘则是我们希望获得的结果。

在整个流程中,我们除了对数据进行各种操作与处理外,还要创建新的知识表示方式。例如将数据按照一定主题进行关联来构造一个模型,公安数据治理分别以人、物、时空、组织、虚拟标识、 案件等作为主题来建立模型。

数据太多、太乱、太杂?你需要这样一套数据治理流程

除此之外,知识图谱按照目标数据可以分为实体、事件、关系三种类型,从而建立数据之间的关联关系。如下在公安场景中,我们能以人为中心实体构建的一个简单的知识图谱。其中我们需要建立人与电话号码所属关系、人与护照所属关系及人与人的关系等等。

数据太多、太乱、太杂?你需要这样一套数据治理流程

以上就是公安数据治理的简要结构了,吴信东教授说:「明略科技提出这样的数据治理框架,希望通过数据在线、分析洞察、闭环智能「三步走」战略,构建从感知到认知再到行动的反馈闭环,将人类、机器、组织的智能三位一体,为企业和组织提供具有分析决策能力的高阶人工智能应用。」

【编辑推荐】

  1. 作为初创公司的第一位数据工程师,我学到了什么
  2. 腾讯万亿级大数据组件 TubeMQ 正式开源
  3. SQL 之后,GQL 成为 ISO/IEC 国际标准数据库语言项目
  4. 写过25W行代码,3个操作系统:我如何做架构设计来降低代码复杂度?
  5. AI军备竞赛催生未来AI硬件架构发展3大方向
【责任编辑:张燕妮 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

用Python玩转excel

用Python玩转excel

让重复操作傻瓜化
共3章 | DE8UG

187人订阅学习

AI入门级算法

AI入门级算法

算法常识
共22章 | 周萝卜123

164人订阅学习

这就是5G

这就是5G

5G那些事儿
共15章 | armmay

132人订阅学习

读 书 +更多

程序员教程(第2版)

本书按照人事部、信息产业部全国计算机技术与软件专业技术资格(水平)考试程序员考试大纲编写,是对2004版的修订版,内容包括计算机系统、...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微

申博现金赌场登入 www.60705.com 申博开户送28元 菲律宾欧博娱乐网站 菲律宾申博娱乐手机版下载 新版申博开户直营网
太阳城游戏官网 旧版太阳城申博开户 菲律宾申博太阳城娱乐 申博手机客户端下载直营网 申博138真人在线娱乐直营网 www.sb88.com
申博游戏登入 www.516sun.com 菲律宾申博开户直营网 申博太阳城官方现金直营网 菲律宾娱乐在线网直营 菲律宾申博娱乐官网