浅析英特尔大数据解决方案(上)

不管大数据时代是否真的来临了,大数据这个概念确实实实在在的颇受关注,IT厂商也纷纷布局大数据,推出各自的大数据解决方案,本文中,笔者将对英特尔的大数据解决方案英特尔Hadoop发行版进行简单分析,但求抛砖引玉。

英特尔提供的Hadoop发行版包含Hadoop分布式文件系统HDFS、分布式数据库HBase、分布式计算框架MapReduce、数据仓库Hive、数据处理Pig、机器学习Mahout商业套件。

其中,Hadoop 分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。它具备:

1)高吞吐量访问,HDFS 的每个数据块分布在不同机架的一组服务器之上,在用户访问时,HDFS将会计算使用网络最近的和访问量最小的服务器给用户提供访问,这大大增加了服务器的数据吞吐量。

2)无缝容量扩充,HDFS 将文件的数据块分配信息存放在NameNode服务器之上,文件数据块的信息分布地存放在DataNode 服务器上。当整个系统容量需要扩充时,只需要增加DataNode 的数量,系统会自动地实时将 新的服务器匹配进整体阵列之中。

3)高度容错,数据在写入时被复制多份,并且可以通过用户自定义的复制策略分布到物理位置不同的服务器上;数据在读写时将自动进行数据的校验,一旦发现数据校验错误将重新进行复制。

HBase是一个面向列的实时分布式数据库。HBase不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。HBase从一开始就是为Terabyte到Petabyte级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。HBase具备三大特点:

1)高可扩展性,让企业在扩大系统容量时而无需停机,只需简单的增加服务器。

2)高性能,数据被分散存储,访问请求也分散在不同的服务器,增强了总体访问能力。

3)高可用性,HDFS上的数据和日志支持HBase的数据自动恢复。

MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。MapReduce适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。

MapReduce对于复杂的数据(例如:多媒体数据、图像数据、文本数 据、 实时数据、传感器数据等)、超大规模数据运用新的算法(例如,自然语言分析、模式识别)分析。

Hive是一种建立在Hadoop之上的数据仓库架构。它采用HDFS进行数据存储并利用MapReduce 框架进行数据操作。所以从本质上来说,Hive就是个编译器,它把用户的操作(查询或者ETL)变换成MapReduce任务,利 用MapReduce框架执行这些任务以对HDFS上的海量数据进行处理。它具备针对海量数据的高性能查询和分析系统和类SQL的查询语言HiveQL.

Pig是一个基于Hadoop并运用MapReduce和HDFS 实现大规模数据分析的平台。它为海量数据的并行处理提供了操作以及编程实现的接口。

Pig的编程语言为Pig Latin,该语言有如下特点:

1)易于编程:既具有类似SQL的灵活可变性,又有过程式语言的数据流特点。

2)优化策略:系统具备自动优化执行过程的能力,使得用户更加关注于语义。

3)可扩展性:用户可以自行设计函数来实现特定功能。

Mahout是一套具有可扩充能力的机器学习类库。它提供机器学习框架的同时,还实现了一些可扩展的机器学习领域经典算法的实现,可以帮助开发人员更加方便快捷地创建智能应用程序。通过和Apache Hadoop分布式框架相结合,Mahout可以有效地使用分布式系统来实现高性能计算。

Mahout提供了推荐引擎算法、聚类算法、分类算法、相关物品分析算法4种使用场景的算法。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2012-12-03
浅析英特尔大数据解决方案(上)
不管大数据时代是否真的来临了,大数据这个概念确实实实在在的颇受关注,IT厂商也纷纷布局大数据,推出各自的大数据解决方案,本文中,笔者

长按扫码 阅读全文