星环科技多模型数据数据处理平台Transwarp Data Hub 7.0正式发布

星环科技一站式大数据平台Transwarp Data Hub(TDH)每年都会有大版本更新迭代,5月15日在星环科技2020春季新品发布会上推出的7.0版本,主打一站式多模异构数据处理,打破了行业内普遍存在的不同数据库产品切换的不便利,通过一个平台处理多种数据模型,用户无需维护多种数据库即将成为现实。

数年来,星环科技一直坚持自主研发,逐年推动技术进步,2013年星环科技创立时就从大数据的四个角度来定义产品,来解决大数据的4个V的需求,数据量大、数据的种类多、数据的实时性要求高、要从数据中发掘价值。TDH是可以用于解决大数据四个V的一站式平台解决方案,①大量化(volume),采用分布式计算和分布式存储框架,充分利用计算机集群的整体计算和存储能力,解决了数据大量化问题。② 速度化(velocity):采用实时流处理引擎,解决了用户对数据处理时效性的需求 ③ 多样化(variety):处理的数据类型不再局限于结构化数据,能同时处理文本数据、图数据等非结构化数据。 ④价值提升(value):充分利用数据,用于多种数据模型的分析,提升数据价值。

满足客户需求应运而生的TDH7.0

经过七年的不懈努力,产生了发布会上看到的Transwarp Data Hub 7.0的整体构思。TDH从最初的一个多工具组合平台,逐步经演变成为一个多模型数据处理平台。目前,各种大数据技术应用越来越广泛。对于一些单一的典型场景,业界有了知名的解决方案,例如:结构化数据使用Hive;动态列模型使用Bigtable、Hbase;文档处理使用MogoDB;图数据使用Neo4j;搜索引擎ElasticSearch,等等。但在实际应用中,用户的使用场景日趋复杂,处理多模型的需求日趋广泛。在处理多模型的需求时,用户不得不采用多工具组合的混合方法,但这种混合方法的运维过于复杂,必须要维护多种数据库来满足不同模型的需求。因此,用户迫切需要一个统一的平台解决日益多样灵活的各类需求。

TDH7.0作为一个多模型的数据处理平台可以提供统一的数据操作/查询语言 SQL、统一的数据计算引擎、统一的分布式存储管理系统、统一的资源管理框架,满足利用一个多模异构平台,处理多种数据的需求。产品从上而下划分为五个层次:①SQL层:开发了统一的SQL引擎,兼容各种不同的SQL方言;②计算层:开发了统一的计算引擎,进行统一的计算任务优化和分发;③存储模型层,TDH一个平台支持七种不同的存储模型,适用于不同的应用场景,包括:图存储 Graph Storage、文档存储 Document Storage、全文检索 Full-text Search、键值存储 Key-Value Storage、行列混合存储 Row-Columnar Storage 、时空地理存储 Sequential Geospatial Storage、非结构化对象存储 Unstructured Object Storage。④存储管理层:开发了统一的存储管理引擎,提供数据块分布管理、数据多副本一致性管理、文件服务管理等功能;⑤资源调度层,开发了统一的资源调度框架,通过容器化编排,统一调度计算、存储、网络资源。

TDH7.0多模型数据处理平台三大核心优势

优势一:极大提升了各个产品的效率。如果同一份数据需要进行多种不同模型分析:分析查询、模糊匹配查询、关系推理查询。TDH可以针对不同需求采用多种最优存储模型:分析查询采用行列混合存储;模糊匹配查询采用全文检索;关系推理查询采用图数据存储。多种模式的存储,可以使各场景下的查询分析性能都得到极大优化。

优势二:便捷的应用开发。在传统混合模型中,不同模型数据间做关联分析,需要进行跨数据库的数据导入导出,十分复杂。而我们的产品采用了统一的数据管理,一个简单的SQL语句就可以直接进行关联查询,如同操作同一个数据库一般,使应用开发变得十分便捷。

优势三:降低运维成本。在传统混合模型中,不同模型需要运维不同数据库。特别当同一份数据存储于多数据库时,数据一致性成为极大挑战。此外,数据总体情况的运维,需要各个运维子系统汇总并二次开发,运维成本巨大。而我们的产品采用了统一的数据管理,在产品底层服务中直接保障数据一致性,同时对多模型的数据进行整体运维,是天然的一体化系统。

星环科技新一代搜索产品Transwarp New Search重磅推出

随着新一代信息技术的发展,围绕着数据的采集、传输、存储、管理、分析、应用各环节的大数据技术异常活跃。同时,数据库的技术也日新月异。除了传统的关系型数据库,也诞生了许多非关系数据库相关的新兴技术。说到分析型非关系数据库,就不得不提到一类典型的业务:全文搜索。

作为广泛应用于TDH7.0中的全文检索产品,星环科技经过几年的自主研发,在这次发布会上推出了新一代搜索产品Transwarp New Search。相比常见的开源产品,Transwarp New Search在性能方面有更加亮眼的优势,在数据服务上限、数据安全性、数据恢复速度、数据读写速度、SQL计算性能,扩展功能等方面都有大幅的迭代和提升。

将数据服务上限提升10倍:星环科技对内存使用进行了优化,采用了独创的堆外技术(Off-Heap)、冷却技术(Cooling)和自适应段合并算法(Self-Adaption Segment Merge),节省了内存使用。因此,单节点单实例的数据量上限提升至50TB左右,是开源ES方案的五倍,大大提升了磁盘的利用率,降低了用户的硬件成本。此外,星环科技抛弃了开源产品P2P架构,采用分布式一致性协议(raft)来管理集群,将集群规模上限从100节点左右提升到200节点以上。

数据安全性显著提高:星环科技抛弃了主从最终一致性模型,采用了分布式一致性协议(raft)来保证数据的强一致性。即使极端的断电场景,也能保证数据一致性,数据安全大大提升。此外,还提供了回收站功能。用户误删除数据后,可以便捷的恢复数据。产品使用更安全、更放心。

数据恢复速度快10倍:星环科技对写入数据做了细粒度的标记控制,单点故障数据恢复时,采用增量数据拷贝方式,启动时间加快,数分钟内完成。而开源产品集群规模上百节点时,单点故障恢复时间超过一小时。

数据读写速度更快:星环科技产品对读写线程资源的管理更严格、更精细,既保证集群稳定性,又尽力充分使用资源,使读写性能更优,并提供了Bulkload功能,批量写入速度和稳定性大幅提高。与开源产品相比,节省存储资源20%,提升查询速率2倍。

良好的SQL计算性能:星环科技引入了自主研发的分布式计算引擎,兼容开源ES的接口,同时很好的对接了SQL的生态。除了单点查询之外,大幅提升了复杂聚合分析性能。语法上,星环科技的产品支持标准SQL,也支持SQL扩展搜索语义,以及Oracle、DB2等SQL方言,对数据库用户更友好,学习、迁移成本更低。

扩展功能:支持pdf/word/excel等常用格式文档的存储和搜索;提供中、维、藏、英、法、日、韩、德、西、葡等语言分词器,方便用户处理不同语言的文本;支持文章相似度匹配、关键字提取、摘要提取等自然语言处理功能;支持时空地理数据的存储和分析;可配套使用星环科技安全软件(Transwarp Guardian),获取优质的安全服务,包括:用户认证、用户授权、安全审计、数据传输存储加密等诸多功能;可配套使用星环科技管理软件(Transwarp Manager),获取集群安装、运维、监控、管理方面的优质服务。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2020-05-15
星环科技多模型数据数据处理平台Transwarp Data Hub 7.0正式发布
星环科技一站式大数据平台Transwarp Data Hub(TDH)每年都会有大版本更新迭代,5月15日在星环科技2020春季新品发布会上推出的7.0版本,主

长按扫码 阅读全文