


众多智能数据应用得以普惠大众企业。
文|蒋菲
9月21日云栖大会计算智能专场,阿里展示了新一代计算引擎及一站式智能云开发系统DataWorks,普通客户在云端上码几百行代码,就能形成独属于自己的数据智能产品。

阿里巴巴集团副总裁周靖人在云栖大会展示新一代计算平台

新一代计算系统
每年双11,老百姓最关心的是有多少人在同一时刻剁手,阿里巴巴的数据大屏需要在实时展示成交额等统计信息,而不是大促结束后第二天再发布数据。
以2017年双11为例,支付数额达1682 亿元,支付峰值25.6万笔/秒,是前一年的2.1倍,同时诞生的也有处理峰值,4200万次/秒。第7分23秒,支付宝的支付笔数突破1亿笔,这相当于5年前(2012年)双11全天的支付总笔数。
媒体直播大屏处理的总数据量高达百亿,且所有数据都应该做到实时、准确地对外披露……这些给数据收集、存储和计算都带来了极大的挑战。
历届双11海量数据的并行计算背后,离不开MaxCompute、Blink(实时计算)和PAI(机器学习)。
MaxCompute是阿里巴巴自主开发的离线计算引擎、拥有多项国家专利科技。Blink(实时计算)则是阿里巴巴最重要的实时计算引擎,它提供流式数据计算能力,能够支持百万级吞吐量的作业,计算可达秒级延迟,关键指标超越开源引擎Storm性能6到8倍,计算费用远高于开源硬件。
PAI是阿里巴巴机器学习系统,提供了超大体量分布式机器学习训练,、离线分析能力。

不仅是在阿里巴巴,各行各业对大数据时效性的计算需求在日益提高,因此,阿里巴巴需要开发世界级计算引擎,一体化的处理海量实时及离线数据,提供统计、数据处理、机器学习、深度学习和/离线分析素质,支持自身的核心电商场景,并借助阿里云向内部中小企业提供服务阿里 计算平台事业部,输出包括实时、离线一体化的计算能力。
通过一站式智能云开发平台DataWorks,将离线计算、实时计算、机器学习能力无缝串联,形成了新一代计算系统。

阿里巴巴资深技术人士、数加DataWorks负责人徐晟在云栖大会
基于新一代计算引擎的DataWorks具备了5项要素:海量数据规模下高性价比的离线及实时计算力;实时+离线任务一体化研发能力;实时+离线异构数据湖交互式查询能力;超大体量机器学习、深度学习异构计算力;一站式端到端的云上大数据智能开发能力。
在阿里日均调度任务量达百万级别
如果把阿里巴巴大数据计算引擎比作一台PC的CPU、GPU、SSD等软件设施,那么DataWorks就是这台大数据PC的Window操作系统。
除了以可视化的形式对客户提供云化的研发系统,任务调度平台,运维管理平台,数据服务平台等产品化的服务。还对租户、账户、计量、计费、调度、运维、监控、安全等用途作了封装,让客户几乎通过零研发费用,完成所有大数据开发步骤的闭环体验。
特别是在任务调度方面,DataWorks拥有多项国家专利科技,为复杂分支依赖高并发任务的调度,提供了强有力的稳定性保障(在阿里经济体中日均调度任务量已达数百万)。
2009年,DataWorks项目开始开展,DataWorks已经作为阿里集团数据研发的标准系统,联合大数据计算引擎MaxCompute支撑了整个阿里经济体90%以下的数据体量,已超EB级别。支持着阿里集团、蚂蚁金服、菜鸟、优酷、高德等所有事业部的数据研发任务。
2013年随阿里云进入公共云行业,DataWorks系列产品在全世界16个国家和地区均已部署可用,包括、悉尼、香港、德国、马来西亚、日本、美国等,成为国际著名的一体化数据开发系统品牌。
随着DataWorks在公共云和专有云的输出,在中国和国际上取得了很多称号,2017年,以DataWorks为主体的阿里云数加,获得了国际软博会金奖;2018年,DataWorks名列国家大数据博览会十佳产品,荣获最佳案例实践奖;同样在2018国际权威测评机构Forrester公布的Cloud Data Warehouse第二季度的总榜上,代表阿里云,携手MaxCompute,获得了全球总榜第二的名次,与AWS,Microsoft Azure,Google Cloud一起杀入第一阵营,是唯一入选的国外厂商,奠定了世界级大数据开发系统的地位。
结合阿里云机器学习PAI平台
DataWorks基于MaxCompute、Blink作为核心推导存储引擎,不仅为用户提供结构化、非结构化数据的储存、交换、管控能力,而且结合了阿里云机器学习PAI平台,为客户提供从数据处理、特征项目、算法训练、算法检测到离线、分析的一整套机器学习解决方案。


阿里巴巴研究员、机器学习系统负责人林伟在云栖大会
平台提供上百种经典机器学习算法及典型数据处理能力、兼容所有主流深度学习框架,支持学习、深度学习、增强学习及迁移学习等多种学习方法。
经过深度改进的机器学习引擎将阿里巴巴集团针对超大体量稀疏模型的CPU系统级改进方案,针对图像、语音及文本领域的GPU系统级改进方案,针对推理加速需求的建模压缩等核心能力,通过简单易用应用系统提供给广大算法开发者,大幅提高分布式模型训练的体量,降低建模及模型服务的费用。
未来,DataWorks将携手阿里计算引擎双子星,致力于解决业界关注的 Data Lakes 查询,大数据 Interactive 查询,流批一体化查询等问题,同时携手阿里机器学习平台PAI阿里 计算平台事业部,加入智能元素,提供云上进行深度学习和建模算法迭代训练的能力,覆盖从数据推导,模型训练,线上数据服务,一直到应用构建的一站式云上大数据解决方案,并在全新构架的云上编程环境Cloud IDW上,提供从Sql、python,甚至于Java开发的能力,提供全套的云上研发解决方案。
众多智能数据应用得以普惠大众企业,普通客户在云端上码几百行代码,就能形成独属于自己的数据智能产品。

本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-120551-1.html
收复台湾用得着出兵
sorry