原标题:“云、数、智三位一体”难在哪?亚马逊云科技让难题有解
这几年,关于“云(Cloud)、数(Bigdata)、智(Artificial Intelligence)”三位一体的说法络绎不绝,不管是ABC还是CBA,各大云服务商都希望充分利用云计算这个平台,将各种复杂的数据处理技术、机器学习技术等进行融合,以方便用户更好地洞察数据价值来驱动数字化转型。
但理想很丰满、现实却比较骨感。云数智的融合绝非易事。一方面,从组织架构、人员能力、项目实施和工具支撑层面上,云数智融合的需求正在不断增加;另一方面,很多用户受制于历史原因、真实环境、团队能力等因素,使得云数智融合普遍存在着很大的障碍。
如何打破这种局面?
近日,亚马逊云科技推出“云、数、智三位一体”的大数据与机器学习融合服务组合,真正从用户真实问题与需求出发,推进大数据和机器学习的融合,加速企业机器学习规模化的落地。
三大挑战不容回避
IDC预测,到2022年,60%的中国1000强公司将在所有关键业务的横向职能中扩大使用AI/ML,如营销、法务、人力资源、采购和供应链、物流等。Gartner也预测,到2024年,75%的企业将把机器学习技术用于生产,为企业业务赋能。
随着机器学习等AI技术在企业数字化转型中的深入应用,使得数据驱动型的应用场景开始大量诞生。与此同时,也带来对于基础数据服务的需求,甚至在对企业数字化转型方方面面产生影响。亚马逊云科技大中华区产品部总经理陈晓建直言,企业要想重塑数据洞察,一定会将数据和只能进行融合、统一,从而更加高效地围绕数据构建和实施项目,使得数据在两者之间无缝流转,成员快速具备相关能力,推动公司企业数字化转型迈向新的高度。
如果从企业数字化转型的真实需求分析,云数智融合已经是迫在眉睫。首先,在组织架构层面,分散在各个部门的机器学习实践需要加速走向整合,并与大数据项目进行统一协调、资源配置;其次,从人员能力层面看,大数据从业者具备承接机器学习相关项目的需求,机器学习从业者则需要掌大数据处理能力;第三,从项目实施层面看,企业越来越多数据驱动型的业务场景需要融合大数据和机器学习两者的能力;最后,需要面向大数据技术和机器学习技术构建统一的开发平台和技术基础,或者对已有大数据平台改造增加机器学习相关场景或者能力,或者重新构建一个面向两者的通用平台。
在亚马逊云科技看来,在很多企业的真实情况中,企业的数据分析和机器学习融合却绝非易事,普遍存在着三大问题:
- 其一、由于企业数字化发展的历史原因,大数据和机器学习通常存在不同的团队,分而治之的方式使得数据和技术处于孤岛状态,制约了敏捷迭代。
- 其二、很多传统企业往往是有好算法、却不具备处理处理海量数据规模的能力,使得企业空有好算法,无法对算法进行大量数据输入迭代与优化,从而使得算法模型效果与实际业务目标相差甚远。
- 其三、模型在企业的实验环节效果良好,一到真实业务场景中却不尽人意,大部分企业的数据分析人员对业务参与度低,而真实的业务场景远比实验环境复杂。
“最开始很少有用户会考虑将大数据和机器学习放在一起,通常采取的是分开独立建设。”陈晓建补充道,“以如今应用广泛的推荐系统为例,经常会用到用户属性进行大数据分析,通常是以文本的方式;但机器学习必须要转成特定格式才行,一旦标签体系比较复杂,这又是机器学习团队所不具备的能力。”
面对上述普遍挑战,亚马逊云科技的理念是从用户需求出发,反向打造出广泛和深入的服务,打通大数据和机器学习两个领域的数据治理底层服务,在云中构建起统一的数据基础底座,实现大数据与机器学习之间的互相赋能,为企业数字化转提供新动力。
如何做到双剑合璧
不难看出,虽然市场上提出云数智三位一体的云服务商不在少数,但是真正能够在技术、产品层面实现有效融合的不错。因为很多几乎都是产品表面上的集成,缺乏统一融合的数据治理底座,以及大数据与机器学习之间高效充分的双向互动。
亚马逊云科技认为,大数据与机器学习要想真正实现融合,必须具备三大核心能力:一、统一的数据共享,让数据资产化、打破数据孤岛;二、统一的权限管控,让数据在不同的业务系统中高效流动;三、统一的开发及流程编排,从端到端实现大数据和机器学习任务的融合,提升整体开发效率。
亚马逊云科技大中华区产品部总经理陈晓建
“统一的治理底座可以实现如数据治理、数据权限、数据开发、数据工作流、可视化等;而大数据与机器学习高效充分的双向互动,则可以互为支撑、互为因果,形成正向循环,最终为企业级发展提供新动力。”陈晓建补充道。
事实上,高效融合意味着云服务商需要将涉及到大数据、机器学习的大量产品、功能在技术、业务逻辑等层面实现深度的融合,对于云服务商的产品与技术能力极为考验。亚马逊云科技大中华区产品部技术专家团队总监王晓野介绍,亚马逊云科技已经有针对性的服务与工具,来实现大数据与机器学习的高效融合。
首先,亚马逊云科技在云中构建统一的数据治理底座,实现大数据和机器学习的数据共享,数据权限的统一管控,以及两者统一的开发和流程编排。
例如,Amazon Lake Formation诸多新功能实现了数据网格跨部门的数据资产共享和基于单元格的最细粒度的权限控制机制;Amazon SageMaker Studio则可以一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务,如交互式查询服务Amazon Athena、云上大数据平台Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务AmazonRedshift、Amazon SageMaker等,为大数据和机器学习提供统一的开发平台。
“统一的数据治理底座不仅让大数据和机器学习高效融合,还减少大数据和机器学习重复构建的工作,大幅降低成本。”王晓野表示道。
其次,亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户进行复杂的数据加工及处理,应对数据规模的动态变化,优化数据质量。正所谓,巧妇难为无米之炊,机器学习项目成功的关键是对复杂的数据进行加工和准备。亚马逊云科技以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (AmazonMSK)和 Amazon EMR 为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。
“Amazon Athena能够对支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。”王晓野补充道。
最后,亚马逊云科技让数据分析技术更加低门槛,让业务人员也有自住式训练机器学习模型进行探索创新的能力。例如,在日常分析工具中集成机器学习模型预测能力,其中深度集成机器学习Amazon SageMaker模型预测能力的Amazon QuickSight 、在分析结果中添加基于模型预测的Amazon Athena ML,可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习。
毫无疑问,亚马逊云科技多年以来在帮助全球数十万的用户通过利用大数据和AI技术的基础上,深刻洞察到大数据与机器学习的融合所带来的价值、作用,这对于更多行业用户降低上云用数赋智的门槛大有裨益,也将成为众多行业用户深入开展数字化和智能化转型的关键。
“亚马逊云科技还通过数据科学实验室、机器学习实验室和机器学习专业服务等一系列定制化措施,帮助企业在云上实现数智融合,重塑数据洞察。”陈晓建最后表示道。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。