非洲人竖起大拇指什么意?

这是一个非常好的问题，作为一名大数据从业者，我来回答一下。

在当前的大数据时代，不仅IT（互联网）行业的人需要了解大数据相关知识，传统行业的从业者和普通大学生也都应该了解一定的大数据知识，在产业互联网和新基建计划的推动下，未来大数据技术将全面开始落地应用，大数据也将重塑整个产业结构。

了解大数据首先要从大数据的概念开始，不同于人工智能概念，大数据概念还是相对比较明确的，而且大数据的技术体系也已经趋于成熟了。解释大数据概念，可以从数据自身的特点入手，然后进一步从场景、应用和行业来逐渐展开。

大数据自身的特点往往集中在五个方面，分别是数据量、数据结构多样性、数据价值密度、数据增长速度和可信度，对于这五个维度的理解和认知，是了解大数据概念的关键。当然，随着大数据技术的发展和在行业领域的应用，关于数据自身的维度也有了一定程度的扩展，这些扩展本身也是对大数据概念的一种丰富和完善。

数据量大是大数据的一个重要特征，但是数据量本身是一个汇集的概念，并不是只有很大的数据才称为大数据，传统信息系统所产生的小数据”也是大数据的一个重要组成部分，这一点一定要有清晰的认知。当前从大数据的数据来源来看，主要集中在三个渠道，包括互联网、物联网和传统信息系统，物联网数据当前占据的比例比较大，相信在5G时代，物联网将依然是大数据的主要数据来源。

数据结构多样性是大数据的另一个重要特点，不同于创新信息系统（ERP）当中的数据，大数据的数据类型是非常复杂的，既有结构化数据，也有非结构化数据和半结构化数据，这对于传统的数据处理技术提出了巨大的挑战，这也是推动大数据技术产生的一个重要原因。在工业互联网时代，大数据的数据结构多样性会进一步得到体现，这对于数据价值化过程也提出了新的挑战。

数据价值密度往往是衡量数据价值的重要基础，相对于传统的信息系统来说，大数据当中的数据价值密度是比较低的，这就需要有更快速和便捷的方式，来完成数据的价值化提取过程，而这也正是当前大数据平台所关注的核心能力之一。实际上，早期的Hadoop、Spark平台之所以能够脱颖而出，一个重要的原因就是其数据处理（排序）速度比较快。

数据增长速度快是大数据的另一个重要表现，通常传统信息系统的数据增量是可以预测的，或者说增长速度是可控的，但是在大数据时代，数据增长速度已经大大突破了传统数据处理所能承载的极限。数据增长是一个相对的概念，相对于消费互联网来说，产业互联网所带来的数据增量可能会更加客观，因此产业互联网时代会进一步打开大数据的价值空间。

最后，大数据还有一个特点就是数据本身的真实性，大数据时代所带来的一个重要副作用就是数据真假难辨，这也是当前大数据技术所要重点解决的问题之一。从当前大型互联网平台所采用的方法来看，通常是技术和管理相结合的方式，比如通过为用户认证就能够解决一部分数据的真实性（专业性）问题。

我从事互联网行业多年，目前也在带计算机专业的研究生，主要的研究方向集中在大数据和人工智能领域，我会陆续写一些关于互联网技术方面的文章，感兴趣的朋友可以关注我，相信一定会有所收获。

如果有互联网、大数据、人工智能等方面的问题，或者是考研方面的问题，都可以在评论区留言，或者私信我！

能简单通俗的解释一下什么是大数据吗？

大数据，不仅仅是数据量大，同时在其他方面，也有一定的特点。

第一，大数据数据体量非常大，传统的单机存储系统，已经无法在存储这么大量的数据，此时需要用到分布式存储技术。

第二，大数据的数据种类非常多，数据的格式也会变得复杂，比如数据种类有视频、文档、图片、消息记录等等。

第三，大数据中潜藏着非常重要的价值，通过数据分析技术，对商业决策做出智能化以及数据化的支持。

大数据最主要的功能，就是为公司上层提供商业化决策支持，让公司能够结合历史数据，往正确的方向发展。大数据技术主要分为两类：大数据计算和大数据存储。

大数据计算主要分为离线计算和实时计算，具体使用要看业务场景对于数据产出时延的要求

离线计算对于数据的产出会有一定的时延，具体时延可以是15分钟、小时或者天级别的。离线任务一般会对数据进行全局批计算，这一次运行完就运行完了，不会像实时计算那样，除非你自己停止实时任务，否则实时程序会一直运行。

实时计算数据是不断产生的，一般数据产出的延迟会很低，最多是秒级别的。比如我们的数据大屏、实时数据流的加工处理等，这些场景对于数据的产出的时延要求很低。

离线计算的话，一般对于数据的产出时延没有那么高的要求，只要数据最终产出即可，具体使用像现在很多公司离线业务报表。目前大多数公司离线计算引擎使用的是Hive或者Spark，实时计算引擎目前主要是Flink。

大数据存储需要数据分布式存储，单机不能够在存储这么多巨量数据

在传统的关系型数据库中，当一个表非常大时，会使用分库分表技术，将表分布式的存储在不同的机器上面。分库分表技术可以使用开源工具TDDL。

在非关系型NoSQL数据库中，一般最底层的文件存储系统可以选择HDFS。HDFS文件系统将文件按照块来进行存储，一个块的大小为128兆，同时每个块会存储三份，对数据进行容灾存储，即使其中一个块坏了，可以选择其他块进行数据恢复。

分布式数据库系统可以对数据表进行水平分割和垂直分割。比如HBase数据库，水平分割使用的是Region，垂直分割则是使用的列族。

分布式数据存储技术，需要不同机器一起协同工作，每台机器存储整体数据的一个子集。在未来大数据时代，肯定都会使用分布式数据存储，分布式数据库，会成为大数据系统的标配。

我是Lake，专注大数据技术原理、人工智能、数据库技术、程序员经验分享，如果我的问答对你有帮助的话，希望你能点赞关注我，感谢。

我会持续大数据、数据库方面的内容，如果你有任何问题，也欢迎关注私信我，我会认真解答每一个问题。期待您的关注

CIFCOM跨境电商

facebook如何和好友聊天

非洲人竖起大拇指什么意?

能简单通俗的解释一下什么是大数据吗？

大数据计算主要分为离线计算和实时计算，具体使用要看业务场景对于数据产出时延的要求

大数据存储需要数据分布式存储，单机不能够在存储这么多巨量数据

相关文章

热门标签

热门排行

随机推荐

友情链接