CIFCOM跨境电商 CIFCOM跨境电商

当前位置: 首页 » 出海百科 »

蜂巢网站是什么

大数据之Hadoop的主要工具集锦,你值得拥有!

今天,IT世界中最受欢迎的术语是Hadoop”。在短时间内,Hadoop已经大量发展,已经被证明对于大量各种项目有用。Hadoop社区发展迅速,在其生态系统中发挥着突出的作用。

以下是用于处理大数据的基本Hadoop工具。

Ambari是Hortonworks支持的Apache项目。它提供了一个基于Web的GUI(图形用户界面),带有向导脚本,用于使用大多数标准组件设置集群。Ambari的规定,管理和监控所有的Hadoop工作群集。

根据Apache许可证分发的HDFS为分割多个节点之间的数据集合提供了一个基本框架。在HDFS中,大文件被分成块,其中几个节点保存文件中的所有块。文件系统的设计方式是将容错和高吞吐量混合起来。HDFS的块被加载以保持稳定的流。它们通常不被缓存以最小化延迟。

HBase是在HDFS之上运行的面向列的数据库管理系统。HBase应用程序是用Java编写的,非常像MapReduce应用程序。它包含一组表,其中每个表包含像传统数据库的行和列。当数据落入大表时,HBase将存储数据,搜索并自动在多个节点上共享表,以便MapReduce作业可以在本地运行。HBase为某些本地更改提供有限保证。在一行中发生的更改可能会同时成功或失败。

如果您已经熟练使用SQL,那么您可以使用Hive来使用Hive。蜂巢由Facebook的一些人开发。Apache Hive调节从HBase中的所有文件中提取位的过程。它支持分析存储在Hadoop HDFS和兼容文件系统中的大型数据集。它还提供了一种称为HSQL(HiveSQL)的SQL语言,可以访问文件并提取代码所需的代码段。

Apache Sqoop专门用于将批量数据从传统数据库有效传输到Hive或HBase。它还可用于从Hadoop中提取数据,并将其导出到外部结构化数据存储,如关系数据库和企业数据仓库。Sqoop是一个命令行工具,用于映射表和数据存储层,将表格转换为HDFS,HBase或Hive的可配置组合。

当存储的数据对Hadoop可见时,Apache Pig潜入数据并运行以自己的语言编写的代码,称为Pig Latin。猪拉丁语填充了处理数据的抽象。猪具有常见任务的标准功能,如平均数据,使用日期,或者找到字符串之间的差异。当标准功能不足时,Pig还允许用户自己编写一个称为UDF(用户自定义功能)的语言。

Zookeeper是一种集中式服务,可以维护,配置信息,提供名称并在集群中提供分布式同步。它在集群上强加了类似文件系统的层次结构,并存储了机器的所有元数据,因此我们可以同步各种机器的工作。

NoSQL的

一些Hadoop集群与NoSQL数据存储集成,它们拥有自己的机制,用于在一组节点上存储数据。这允许他们使用NoSQL数据库的所有功能来存储和检索数据,之后可以使用Hadoop来在同一个集群上安排数据分析作业。

Mahout旨在为Hadoop集群实现大量算法,分类和过滤数据分析。许多标准算法(如K-means,Dirichelet,并行模式和贝叶斯分类)都可以使用Hadoop样式Map进行数据运行并减少。

Lucene以Java编写并与Hadoop轻松集成,是Hadoop的天然伴侣。它是一种用于索引大块非结构化文本的工具。Lucene处理索引,而Hadoop处理集群中的分布式查询。随着新项目的开发,Lucene-Hadoop功能正在迅速发展。

Avro是一个序列化系统,将数据与一个模式捆绑在一起,以便了解它。每个数据包都附带一个JSON数据结构。JSON解释了如何解析数据。JSON的标题指定了数据的结构,可以避免在数据中写入额外的标签来标记字段。输出比传统格式像XML那样紧凑。

一个工作可以简化为步骤。在将项目打破多个Hadoop作业时,Ozzie以正确的顺序开始处理它们。它管理由DAG(定向非循环图)指定的工作流程,并且不需要及时监视。

GIS工具

使用地理地图对于运行Hadoop的群集来说是一个很大的工作。用于Hadoop项目的GIS(地理信息系统)工具已经调整了最佳的基于Java的工具,用于理解使用Hadoop运行的地理信息。数据库现在可以使用坐标来处理地理查询,代码可以部署GIS工具。

收集所有数据等同于存储和分析。Apache Flume调度特殊代理”来收集将存储在HDFS中的信息。收集的信息可以是日志文件,Twitter API或网站报废。这些数据可以链接并进行分析。

Spark是下一代,它几乎像Hadoop一样处理缓存在内存中的数据。其目标是通过一般执行模型快速进行数据分析以运行和写入。这可以优化任意运算符图形并支持内存计算,这样可以比基于Hadoop的基于磁盘的引擎更快地查询数据。

Hadoop上的SQL

当需要对集群中的所有数据进行快速临时查询时,可以编写一个新的Hadoop作业,但这需要一些时间。当程序员更频繁地开始这样做时,他们提出了用简单语言SQL编写的工具。这些工具可以快速访问结果。

ApacheDrill

Apache Drill向许多不同的数据源提供低延迟的即席查询,包括嵌套数据。灵感来自Google的Dremel,旨在扩展到10,000台服务器,并在数秒钟内查询数千兆字节的数据。

这些是用于处理大数据的基本Hadoop工具!想了解他们是怎么运作的?请加大数据学习交流8群640193172,一群大数据爱好者的数据乐园,欢迎加入讨论。

未经允许不得转载: CIFCOM跨境电商 » 蜂巢网站是什么

相关文章

themebetter

contact