大数据之Hadoop的主要工具集锦,你值得拥有!
今天,IT世界中最受欢迎的术语是Hadoop”。在短时间内,Hadoop已经大量发展,已经被证明对于大量各种项目有用。Hadoop社区发展迅速,在其生态系统中发挥着突出的作用。
以下是用于处理大数据的基本Hadoop工具。
Ambari是Hortonworks支持的Apache项目。它提供了一个基于Web的GUI(图形用户界面),带有向导脚本,用于使用大多数标准组件设置集群。Ambari的规定,管理和监控所有的Hadoop工作群集。
根据Apache许可证分发的HDFS为分割多个节点之间的数据集合提供了一个基本框架。在HDFS中,大文件被分成块,其中几个节点保存文件中的所有块。文件系统的设计方式是将容错和高吞吐量混合起来。HDFS的块被加载以保持稳定的流。它们通常不被缓存以最小化延迟。
HBase是在HDFS之上运行的面向列的数据库管理系统。HBase应用程序是用Java编写的,非常像MapReduce应用程序。它包含一组表,其中每个表包含像传统数据库的行和列。当数据落入大表时,HBase将存储数据,搜索并自动在多个节点上共享表,以便MapReduce作业可以在本地运行。HBase为某些本地更改提供有限保证。在一行中发生的更改可能会同时成功或失败。
如果您已经熟练使用SQL,那么您可以使用Hive来使用Hive。蜂巢由Facebook的一些人开发。Apache Hive调节从HBase中的所有文件中提取位的过程。它支持分析存储在Hadoop HDFS和兼容文件系统中的大型数据集。它还提供了一种称为HSQL(HiveSQL)的SQL语言,可以访问文件并提取代码所需的代码段。
Apache Sqoop专门用于将批量数据从传统数据库有效传输到Hive或HBase。它还可用于从Hadoop中提取数据,并将其导出到外部结构化数据存储,如关系数据库和企业数据仓库。Sqoop是一个命令行工具,用于映射表和数据存储层,将表格转换为HDFS,HBase或Hive的可配置组合。
当存储的数据对Hadoop可见时,Apache Pig潜入数据并运行以自己的语言编写的代码,称为Pig Latin。猪拉丁语填充了处理数据的抽象。猪具有常见任务的标准功能,如平均数据,使用日期,或者找到字符串之间的差异。当标准功能不足时,Pig还允许用户自己编写一个称为UDF(用户自定义功能)的语言。
Zookeeper是一种集中式服务,可以维护,配置信息,提供名称并在集群中提供分布式同步。它在集群上强加了类似文件系统的层次结构,并存储了机器的所有元数据,因此我们可以同步各种机器的工作。
NoSQL的
一些Hadoop集群与NoSQL数据存储集成,它们拥有自己的机制,用于在一组节点上存储数据。这允许他们使用NoSQL数据库的所有功能来存储和检索数据,之后可以使用Hadoop来在同一个集群上安排数据分析作业。
Mahout旨在为Hadoop集群实现大量算法,分类和过滤数据分析。许多标准算法(如K-means,Dirichelet,并行模式和贝叶斯分类)都可以使用Hadoop样式Map进行数据运行并减少。
Lucene以Java编写并与Hadoop轻松集成,是Hadoop的天然伴侣。它是一种用于索引大块非结构化文本的工具。Lucene处理索引,而Hadoop处理集群中的分布式查询。随着新项目的开发,Lucene-Hadoop功能正在迅速发展。
Avro是一个序列化系统,将数据与一个模式捆绑在一起,以便了解它。每个数据包都附带一个JSON数据结构。JSON解释了如何解析数据。JSON的标题指定了数据的结构,可以避免在数据中写入额外的标签来标记字段。输出比传统格式像XML那样紧凑。
一个工作可以简化为步骤。在将项目打破多个Hadoop作业时,Ozzie以正确的顺序开始处理它们。它管理由DAG(定向非循环图)指定的工作流程,并且不需要及时监视。
GIS工具
使用地理地图对于运行Hadoop的群集来说是一个很大的工作。用于Hadoop项目的GIS(地理信息系统)工具已经调整了最佳的基于Java的工具,用于理解使用Hadoop运行的地理信息。数据库现在可以使用坐标来处理地理查询,代码可以部署GIS工具。
收集所有数据等同于存储和分析。Apache Flume调度特殊代理”来收集将存储在HDFS中的信息。收集的信息可以是日志文件,Twitter API或网站报废。这些数据可以链接并进行分析。
Spark是下一代,它几乎像Hadoop一样处理缓存在内存中的数据。其目标是通过一般执行模型快速进行数据分析以运行和写入。这可以优化任意运算符图形并支持内存计算,这样可以比基于Hadoop的基于磁盘的引擎更快地查询数据。
Hadoop上的SQL
当需要对集群中的所有数据进行快速临时查询时,可以编写一个新的Hadoop作业,但这需要一些时间。当程序员更频繁地开始这样做时,他们提出了用简单语言SQL编写的工具。这些工具可以快速访问结果。
ApacheDrill
Apache Drill向许多不同的数据源提供低延迟的即席查询,包括嵌套数据。灵感来自Google的Dremel,旨在扩展到10,000台服务器,并在数秒钟内查询数千兆字节的数据。
这些是用于处理大数据的基本Hadoop工具!想了解他们是怎么运作的?请加大数据学习交流8群640193172,一群大数据爱好者的数据乐园,欢迎加入讨论。