百度深耕边缘计算基于Apache Flink首创边缘流式计算框架

百度在边缘计算领域有了新的突破。

11月29日，备受Flink开发者和使用者关注的盛会——Flink Forward Asia 2019火热开幕，展示Flink社区的最新动态和发展计划，以及国内外一线大厂围绕Flink生态的生产实践经验。

百度智能云资深研发工程师、IoT 实时计算负责人在大会上发表了“基于Apache Flink的边缘流式计算”的主题演讲，并重点介绍了百度基于Flink自研的边缘流式计算框架Creek，其性能十分强大，可将流式作业内存消耗降低到10M以内。

这是百度在边缘设备流式计算领域的首创，标志着百度正在以更硬核的计算实力，从云端计算向边缘计算进军。流式计算对边缘设备有着非常重要的意义：

一方面可以在靠近设备的地方对各种数据进行监控，并且在异常发生时提供低延迟的反控；

另一方面，流式计算数据聚合能力，可以在边缘端对原始数据进行清洗和汇聚，将聚合后的数据上报云端，大大减少数据传输的带宽成本。

而目前流式计算的框架，多专注于云端高性能服务器集群，提供分布式、高吞吐的计算能力；但是，其资源消耗通常比较大，使得大部分边缘设备无法负担；同时，因依赖的模块和组件比较多，作业的部署也相对比较复杂。Creek就针对上述两个特点，进行了专门的设计。

在保留对现有流式计算接口兼容的情况下，将作业的内存消耗下降到10MB以内，使得绝大多数设备担负得起；

另外，部署方式上也进行了创新，将一个流式作业所有的依赖进行编译成一个可执行文件，使之对运行环境实现零依赖，下载即运行，大大提高作业部署和运行的鲁棒性。

5G、IoT等技术的发展，对计算的能力和全面性提出了更高的要求，计算正在从以云端为主的阵地蔓延到更多地方，其中一个典型的场景就是边缘计算。而与云端强大的计算集群相比，其它场景设备的计算能力非常受限。虽然Apache Flink作为新一代流式计算引擎，已经广泛应用于诸多互联网公司的云端，但是如何在资源极度受限的边缘设备上运行流式计算引擎，尚无成功案例可循。

百度智能云技术团队认为，Apache Flink不应该仅仅运行在云端，而应该运行在任何需要设备上。将云端的计算能力延伸到包括边缘设备在内的其它设备上，已经成为行业的普遍需求。

流式计算，是指对源源不断的数据流进行实时的计算，并且实时输出计算结果，方便用户对大量的数据进行实时分析。百度基于Flink自研的边缘流式计算框架Creek，属于一种相比传统流式计算，更加轻量级的流式计算。其功能与传统流式计算相似，但资源消耗得到大幅度降低，而且部署更简单，可以运行在边缘和云端。

长期以来，流式计算在边缘端的开展面临着内存压力、磁盘压力、作业管理依赖多等多重挑战，百度推出Creek以后，有效地解决了计算作业过程中的两大主要难题。

首先，边缘流式计算框架Creek能够缓解内存不足的压力。现有常见流式计算框架，通常需要消耗几百MB到几百GB的内存空间，大大挤压其他应用的运行空间，或者根本无法运行。使用边缘流式计算框架Creek，可以将流式作业内存消耗降低到10M以内，相比传统方式实现2个数量级的下降，使得计算能力受限的边缘设备也可以跑流式作业。

其次，作业以静态编译的可执行文件的方式提供，实现对运行环境零依赖。相比以前的方案，省去了JVM, master, worker等依赖的安装和部署。

例如，包括智能工业质检在内的多个场景都需要应用机器视觉模型，大量图片的识别本身需要一定消耗内存空间，百度开放边缘框架联合智能边缘BIE云端管理套件，其中Creek的运行可以帮助提高视觉模型轻松部署到本地设备上的能力，同时通过降低内存消耗提高识别响应速度，使质检过程快速而流畅。

可见，无论是在减少内存消耗上，还是形成独立可执行文件的作业形态，百度在边缘的计算能力都因Creek的应用上升到了新的高度。

与其它流式计算产品相比，百度Creek具有独特的行业领先优势。它与已有云上流式计算产品（规则引擎）有两个个主要区别：

第一，规则引擎运行在云端，Creek可以运行在任何地方，包括边缘和云端；

第二，规则引擎是针对单消息的处理，Creek可以进行单消息和基于窗口多消息的聚合分析，计算的能力是不同的。

另外，相比于行业内其他边缘计算产品，百度Creek能够提供与主流的flink兼容的sql接口，支持完整的流式计算、完善的语意验证、丰富的connectors，且下载即运行。

目前Creek已经在多个实际场景的数据计算中得到应用。

以无人车为例，对多路视频输入进行合并运算，结构化后数据送云端保存和分析，比如应用在自动驾驶出租车队Robotaxi上，能够实现实时监测全路段路况信息，同时可以远距离车辆V2V，并提高路况感知的精确度，为自动驾驶车辆保驾护航；

在工业互联网领域，就地将各种传感器采集的数据进行聚合，聚合后数据推送到云端，减少数据传输的带宽开销；

在智能楼宇方面，通过对多点位数据进行实时监控，并对异常指标进行快速的响应，提升时效性。

百度边缘流式计算框架Creek的出现，为突破计算能力的场景限制创造了条件，作为边缘计算领域首创，填补了行业在边缘设备上运行流式计算引擎的空白，也为边缘计算的未来发展提供了参考范式。在Creek的加持下，百度的计算实力得到更全面的增强，将为“云+AI”能力的输出和产业化落地提供更加坚实的算力基础。

免责声明：此文内容为第三方自媒体作者发布的观察或评论性文章，所有文字和图片版权归作者所有，且仅代表作者个人观点，与极客网无关。文章仅供读者参考，并请自行核实相关内容。投诉邮箱：editor@fromgeek.com。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

百度深耕边缘计算 基于Apache Flink首创边缘流式计算框架

下一篇

百度深耕边缘计算基于Apache Flink首创边缘流式计算框架