蜂巢网站是什么-CIFCOM跨境电商

大数据之Hadoop的主要工具集锦，你值得拥有！

今天，IT世界中最受欢迎的术语是Hadoop”。在短时间内，Hadoop已经大量发展，已经被证明对于大量各种项目有用。Hadoop社区发展迅速，在其生态系统中发挥着突出的作用。

以下是用于处理大数据的基本Hadoop工具。

Ambari是Hortonworks支持的Apache项目。它提供了一个基于Web的GUI（图形用户界面），带有向导脚本，用于使用大多数标准组件设置集群。Ambari的规定，管理和监控所有的Hadoop工作群集。

根据Apache许可证分发的HDFS为分割多个节点之间的数据集合提供了一个基本框架。在HDFS中，大文件被分成块，其中几个节点保存文件中的所有块。文件系统的设计方式是将容错和高吞吐量混合起来。HDFS的块被加载以保持稳定的流。它们通常不被缓存以最小化延迟。

HBase是在HDFS之上运行的面向列的数据库管理系统。HBase应用程序是用Java编写的，非常像MapReduce应用程序。它包含一组表，其中每个表包含像传统数据库的行和列。当数据落入大表时，HBase将存储数据，搜索并自动在多个节点上共享表，以便MapReduce作业可以在本地运行。HBase为某些本地更改提供有限保证。在一行中发生的更改可能会同时成功或失败。

如果您已经熟练使用SQL，那么您可以使用Hive来使用Hive。蜂巢由Facebook的一些人开发。Apache Hive调节从HBase中的所有文件中提取位的过程。它支持分析存储在Hadoop HDFS和兼容文件系统中的大型数据集。它还提供了一种称为HSQL（HiveSQL）的SQL语言，可以访问文件并提取代码所需的代码段。

Apache Sqoop专门用于将批量数据从传统数据库有效传输到Hive或HBase。它还可用于从Hadoop中提取数据，并将其导出到外部结构化数据存储，如关系数据库和企业数据仓库。Sqoop是一个命令行工具，用于映射表和数据存储层，将表格转换为HDFS，HBase或Hive的可配置组合。

当存储的数据对Hadoop可见时，Apache Pig潜入数据并运行以自己的语言编写的代码，称为Pig Latin。猪拉丁语填充了处理数据的抽象。猪具有常见任务的标准功能，如平均数据，使用日期，或者找到字符串之间的差异。当标准功能不足时，Pig还允许用户自己编写一个称为UDF（用户自定义功能）的语言。

Zookeeper是一种集中式服务，可以维护，配置信息，提供名称并在集群中提供分布式同步。它在集群上强加了类似文件系统的层次结构，并存储了机器的所有元数据，因此我们可以同步各种机器的工作。

NoSQL的

一些Hadoop集群与NoSQL数据存储集成，它们拥有自己的机制，用于在一组节点上存储数据。这允许他们使用NoSQL数据库的所有功能来存储和检索数据，之后可以使用Hadoop来在同一个集群上安排数据分析作业。

Mahout旨在为Hadoop集群实现大量算法，分类和过滤数据分析。许多标准算法（如K-means，Dirichelet，并行模式和贝叶斯分类）都可以使用Hadoop样式Map进行数据运行并减少。

Lucene以Java编写并与Hadoop轻松集成，是Hadoop的天然伴侣。它是一种用于索引大块非结构化文本的工具。Lucene处理索引，而Hadoop处理集群中的分布式查询。随着新项目的开发，Lucene-Hadoop功能正在迅速发展。

Avro是一个序列化系统，将数据与一个模式捆绑在一起，以便了解它。每个数据包都附带一个JSON数据结构。JSON解释了如何解析数据。JSON的标题指定了数据的结构，可以避免在数据中写入额外的标签来标记字段。输出比传统格式像XML那样紧凑。

一个工作可以简化为步骤。在将项目打破多个Hadoop作业时，Ozzie以正确的顺序开始处理它们。它管理由DAG（定向非循环图）指定的工作流程，并且不需要及时监视。

GIS工具

使用地理地图对于运行Hadoop的群集来说是一个很大的工作。用于Hadoop项目的GIS（地理信息系统）工具已经调整了最佳的基于Java的工具，用于理解使用Hadoop运行的地理信息。数据库现在可以使用坐标来处理地理查询，代码可以部署GIS工具。

收集所有数据等同于存储和分析。Apache Flume调度特殊代理”来收集将存储在HDFS中的信息。收集的信息可以是日志文件，Twitter API或网站报废。这些数据可以链接并进行分析。

Spark是下一代，它几乎像Hadoop一样处理缓存在内存中的数据。其目标是通过一般执行模型快速进行数据分析以运行和写入。这可以优化任意运算符图形并支持内存计算，这样可以比基于Hadoop的基于磁盘的引擎更快地查询数据。

Hadoop上的SQL

当需要对集群中的所有数据进行快速临时查询时，可以编写一个新的Hadoop作业，但这需要一些时间。当程序员更频繁地开始这样做时，他们提出了用简单语言SQL编写的工具。这些工具可以快速访问结果。

ApacheDrill

Apache Drill向许多不同的数据源提供低延迟的即席查询，包括嵌套数据。灵感来自Google的Dremel，旨在扩展到10,000台服务器，并在数秒钟内查询数千兆字节的数据。

这些是用于处理大数据的基本Hadoop工具！想了解他们是怎么运作的？请加大数据学习交流8群640193172，一群大数据爱好者的数据乐园，欢迎加入讨论。

CIFCOM跨境电商

蜂巢网站是什么

大数据之Hadoop的主要工具集锦，你值得拥有！

相关文章

热门标签

热门排行

随机推荐

友情链接