400-996-7005

当前位置:
说腻了数据中台,DataOps再焕新生?
来源: | 作者:tpl-c50633d | 发布时间: 2021-12-10 | 590 次浏览 | 分享到:

2014年6月,InformationWeek的特约编辑Lenny Liebmann首次在“ DataOps对大数据成功至关重要的三个原因”中介绍了DataOps。AndyPalmer随后在Tamr推广了这些术语。

DataOps(数据操作)是一门新兴学科,将DevOps团队与数据工程师和数据科学家角色结合在一起,提供一些工具、流程和组织结构服务于以数据为中心的企业。

从未止步的演进

DataOps在2017年经历了重大发展。因此,随着企业对该学科的兴趣不断增长,催生了强大的供应商网络的发展,这些供应商提供各种相关产品和服务的开发和销售。任何DataOps平台都依赖于五个基本功能组件,他们分别是:

数据管道编排:DataOps需要基于图形的指导性工作流,其中涉及与数据集成、数据访问、可视化和建模相关的所有步骤;测试和生产质量:DataOps不仅测试和监控所有生产数据的质量,而且还测试部署阶段中任何更改的代码;自动化部署:DataOps不断将从开发环境中获取代码和配置,迁移至生产环境;数据科学模型部署和沙箱管理:DataOps还负责创建可复制的开发环境,并将模型移入生产环境;其他需要支持的功能:代码和artifact存储、参数和安全密钥存储、分布式计算、数据虚拟化、版本控制和测试数据管理。

为满足上述需求,2017年有大量产品和服务投入市场。该数字在2018年继续大幅增长。

DataOps的能力到底在哪?

DataOps终结了数据团队不断尝试将不良原始数据变成有用的数据等繁复的工作。相反,他们可以专注于重要的事情,即提供可行动洞见。DataOps能确保输入原始数据的可用性,保证结果的准确性,注重人员价值及共同合作的价值,使数据团队始终处于公司战略目标的中心。毕竟,他们再也不需要花费几个月的时间出成果,而且与DevOps团队一样高效。

Dataops包括所有工作,以获取,处理,清理,存储和管理数据。 我们使用了复杂的术语来表示不同的功能,例如数据集成,数据整理,ETL(提取,转换和加载) ,数据准备,数据质量,主数据管理,数据屏蔽和测试数据管理。其目标是收集数据管理实践,使数据用户(包括高管,数据科学家以及应用程序)成功地从数据中传递业务价值。

DataOps虽然尽管得到推广,但仍然是一个新概念,尚未实现广泛应用。DataOps的广泛应用,可能会受到可用的框架及解决方案的限制,同时也受限于缺乏应遵循的明确指导原则。

Dataops的应用前景

由于DataOps涵盖了大量的数据编排,处理和管理功能,因此许多技术都适用于此术语。 此外,由于许多企业正在投资于大数据,数据科学和机器学习功能,因此在这一领域竞争的供应商数量很多。

这是一个简短的起点:

Amazon Web Services具有七种类型的数据库 ,从普通关系数据库到文档存储和键值数据库。 Azure还提供了几种数据库类型 。许多工具集成数据并创建数据流,包括数据集成和数据流 。 在数据流中,有数据质量和主数据管理 。有许多工具与数据操作的开发,数据科学和测试方面有关。 许多组织都使用Jupyter ,但是数据科学工作还有其他选择 。 为了进行测试,请考虑使用诸如Delphix和QuerySurge之类的工具。Alteryx , Databricks , Dataiku和ai提供了端到端分析和机器学习平台,融合了数据操作,数据科学和开发人员功能。其他工具可解决数据安全性 , 数据屏蔽和其他数据操作。本文初步聊了些DataOps的基本概念,下篇-实用篇将详细介绍DataOps如何与其它技术实践一起工作等实用信息。