[转帖]本周话题:大数据已死

本周,话题,数据 · 浏览次数 : 0

小编点评

**数据量已经不需要特别关注了,再也不必担心处理不了海量数据了。** **大数据是一个技术问题,已经解决。归纳总结以上内容,生成内容时需要带简单的排版**

正文

本周话题:大数据已死

http://www.ruanyifeng.com/blog/2023/03/weekly-issue-244.html

 

"大数据"这个词,大家想必耳熟能详。这是最大众化的 IT 词汇之一,全社会曾经都热衷于它。

百度指数显示,"大数据"从2011年开始进入搜索引擎,然后快速传播,在2017年~2019年之间达到顶峰。

那时,大家都认为,数据在未来将指数式增长,世界将被海量数据淹没。如何处理这些数据,就成为了关键问题。它决定了一个企业甚至一个国家在信息时代的竞争力。

于是,企业纷纷寻求大数据解决方案,出现了很多相关的招聘岗位,还都是高薪。高校也积极响应,有报道称,国内有600多所高校开设了"大数据专业"或"大数据学院",其中包括北京大学复旦大学这样的名校。

但是,十年过去了,大数据并没有成为发展的瓶颈,我们依然足以处理产生的所有数据,在可预见的将来也是如此。

预言中的大数据时代,看上去不仅没有来临,反而变得遥遥无期了。 "大数据"这个词的热度,也在不断降温,被提及次数变少了,招聘岗位也慢慢不见了。

与之相应的是,"大数据"这个技术领域,也进展甚微,没有诞生新的概念和理论,技术没有突破,很多方向都停滞不前。

比如,专为处理大数据而设计的 NoSQL 数据库,声势越来越小,陷入停滞,反而是传统的关系型数据库(SQLite、Postgres、MySQL)强劲增长,越发受欢迎。

这是怎么回事?

谷歌的大数据工程师乔丹·蒂加尼 (Jordan Tigani),最近直言不讳地说:"大数据已死"。

他认为,大数据时代已经结束了,大数据的存储和分析,作为一个技术问题已经解决了。 用户已经不必担心数据大小了,再多的数据都不是问题。

他提出了"大数据已死"的6个理由,我觉得很有说服力,下面就跟大家分享。

(1)绝大多数企业到不了大数据级别。 企业的数据量往往不到 1TB,很多甚至不到 100GB。

假设一家中等规模的制造业公司,拥有1000个客户,每个客户每天产生一个订单,每个订单包含100个产品。这家公司一天产生的数据量,依然远远小于 1 MB。三年后,数据总量也只有 1 GB,达到 1 TB 需要几千年。

就算是大型互联网公司,大多数时候也到不了大数据级别。假设某个营销活动有100万用户参加,并且同一时间,该公司开展了几十个这样的营销活动,每天的数据量依然不足 1 GB,就算加上各种日志,可能也只有几个 GB,这跟大数据相差甚远。

(2)存储和计算正在分离。 大数据包含"数据存储"和"数据计算"两个方面,如果放在一个系统里面处理,确实很难。

但是,这两方面现在已经能够脱钩,变成两个独立系统,各自都能独立扩展。这意味着,"数据计算"不受"数据存储"(数据库大小)的限制,反之依然。

因此,大数据作为单一问题就不存在了,变成了海量存储和大型计算两个问题。

(3)没有新业务的情况下,数据是线性增长的, 即每天的新增数据与以前的数据结构相同。

以前的数据一旦写入数据库,通常就不再发生变化,也没有新的计算需求,相关计算在以前就完成了。这时只要对最近的新增数据进行单独计算,然后保存就可以了。你很少需要每天扫描一遍旧数据:那些数据一成不变,为什么要一遍一遍计算它们呢?

因此,对于一家企业来说,"数据会指数式增长"这个假设并不成立。而且,数据计算的需求,其实比数据存储的需求小得多,因为老数据很少需要再次计算。

(4)人们看重的往往只是最近的数据。最频繁的查询是针对24小时内产生的数据,一周前的数据的查询可能性要低20倍,一个月前的历史数据只会偶尔被查询。

这意味着,大数据更像静态数据,而不完全是动态数据。既然以前的数据很少用到,那么就可以压缩保存。一个包含10年数据的表格,可能会达到 PB 级别,但是如果压缩保存历史数据,压缩后可能不到 50 GB。

(5)真正拥有大数据的公司,几乎从不查询全部数据。他们90%的查询涉及的数据少于 100 MB,涉及 TB 级别数据的查询非常少。

就算查询 TB 级别数据,查询性能的优先级往往并不高。等一个周末或几天才拿到结果,通常是可以接受的。

另外,大型数据集的查询非常昂贵。谷歌的 BigQuery 的 PB 级别查询报价是 5,000 美元,即使是大公司也不会经常使用。

(6)硬件的飞速发展,使得单台计算机的计算能力大增。 2004年,谷歌发表 MapReduce 论文时,单机的计算能力还比较弱,很多计算必须通过分布式完成。

2006年,AWS 推出了 EC2 云主机,你只能用到一个单核 CPU 和 2 GB 内存。今天,AWS 的标准实例具有64个内核和 256 GB 内存。如果愿意多花钱,还可以拿到445个内核和超过 24 TB 内存。

单机计算能力大大增强,意味着大数据的最大难点----分布式计算----即使被用到,困难程度也大大降低。

综上所述,结论就是:数据量已经不需要特别关注了,再也不必担心处理不了海量数据了。 大数据作为一个技术问题,已经解决了。

"大数据"这个词,大家想必耳熟能详。这是最大众化的 IT 词汇之一,全社会曾经都热衷于它。

百度指数显示,"大数据"从2011年开始进入搜索引擎,然后快速传播,在2017年~2019年之间达到顶峰。

那时,大家都认为,数据在未来将指数式增长,世界将被海量数据淹没。如何处理这些数据,就成为了关键问题。它决定了一个企业甚至一个国家在信息时代的竞争力。

于是,企业纷纷寻求大数据解决方案,出现了很多相关的招聘岗位,还都是高薪。高校也积极响应,有报道称,国内有600多所高校开设了"大数据专业"或"大数据学院",其中包括北京大学复旦大学这样的名校。

但是,十年过去了,大数据并没有成为发展的瓶颈,我们依然足以处理产生的所有数据,在可预见的将来也是如此。

预言中的大数据时代,看上去不仅没有来临,反而变得遥遥无期了。 "大数据"这个词的热度,也在不断降温,被提及次数变少了,招聘岗位也慢慢不见了。

与之相应的是,"大数据"这个技术领域,也进展甚微,没有诞生新的概念和理论,技术没有突破,很多方向都停滞不前。

比如,专为处理大数据而设计的 NoSQL 数据库,声势越来越小,陷入停滞,反而是传统的关系型数据库(SQLite、Postgres、MySQL)强劲增长,越发受欢迎。

这是怎么回事?

谷歌的大数据工程师乔丹·蒂加尼 (Jordan Tigani),最近直言不讳地说:"大数据已死"。

他认为,大数据时代已经结束了,大数据的存储和分析,作为一个技术问题已经解决了。 用户已经不必担心数据大小了,再多的数据都不是问题。

他提出了"大数据已死"的6个理由,我觉得很有说服力,下面就跟大家分享。

(1)绝大多数企业到不了大数据级别。 企业的数据量往往不到 1TB,很多甚至不到 100GB。

假设一家中等规模的制造业公司,拥有1000个客户,每个客户每天产生一个订单,每个订单包含100个产品。这家公司一天产生的数据量,依然远远小于 1 MB。三年后,数据总量也只有 1 GB,达到 1 TB 需要几千年。

就算是大型互联网公司,大多数时候也到不了大数据级别。假设某个营销活动有100万用户参加,并且同一时间,该公司开展了几十个这样的营销活动,每天的数据量依然不足 1 GB,就算加上各种日志,可能也只有几个 GB,这跟大数据相差甚远。

(2)存储和计算正在分离。 大数据包含"数据存储"和"数据计算"两个方面,如果放在一个系统里面处理,确实很难。

但是,这两方面现在已经能够脱钩,变成两个独立系统,各自都能独立扩展。这意味着,"数据计算"不受"数据存储"(数据库大小)的限制,反之依然。

因此,大数据作为单一问题就不存在了,变成了海量存储和大型计算两个问题。

(3)没有新业务的情况下,数据是线性增长的, 即每天的新增数据与以前的数据结构相同。

以前的数据一旦写入数据库,通常就不再发生变化,也没有新的计算需求,相关计算在以前就完成了。这时只要对最近的新增数据进行单独计算,然后保存就可以了。你很少需要每天扫描一遍旧数据:那些数据一成不变,为什么要一遍一遍计算它们呢?

因此,对于一家企业来说,"数据会指数式增长"这个假设并不成立。而且,数据计算的需求,其实比数据存储的需求小得多,因为老数据很少需要再次计算。

(4)人们看重的往往只是最近的数据。最频繁的查询是针对24小时内产生的数据,一周前的数据的查询可能性要低20倍,一个月前的历史数据只会偶尔被查询。

这意味着,大数据更像静态数据,而不完全是动态数据。既然以前的数据很少用到,那么就可以压缩保存。一个包含10年数据的表格,可能会达到 PB 级别,但是如果压缩保存历史数据,压缩后可能不到 50 GB。

(5)真正拥有大数据的公司,几乎从不查询全部数据。他们90%的查询涉及的数据少于 100 MB,涉及 TB 级别数据的查询非常少。

就算查询 TB 级别数据,查询性能的优先级往往并不高。等一个周末或几天才拿到结果,通常是可以接受的。

另外,大型数据集的查询非常昂贵。谷歌的 BigQuery 的 PB 级别查询报价是 5,000 美元,即使是大公司也不会经常使用。

(6)硬件的飞速发展,使得单台计算机的计算能力大增。 2004年,谷歌发表 MapReduce 论文时,单机的计算能力还比较弱,很多计算必须通过分布式完成。

2006年,AWS 推出了 EC2 云主机,你只能用到一个单核 CPU 和 2 GB 内存。今天,AWS 的标准实例具有64个内核和 256 GB 内存。如果愿意多花钱,还可以拿到445个内核和超过 24 TB 内存。

单机计算能力大大增强,意味着大数据的最大难点----分布式计算----即使被用到,困难程度也大大降低。

综上所述,结论就是:数据量已经不需要特别关注了,再也不必担心处理不了海量数据了。 大数据作为一个技术问题,已经解决了。

与[转帖]本周话题:大数据已死相似的内容:

[转帖]本周话题:大数据已死

本周话题:大数据已死 http://www.ruanyifeng.com/blog/2023/03/weekly-issue-244.html "大数据"这个词,大家想必耳熟能详。这是最大众化的 IT 词汇之一,全社会曾经都热衷于它。 百度指数显示,"大数据"从2011年开始进入搜索引擎,然后快速传

【转帖】【奇淫技巧】Linux | 查找文件,无所遁形

theme: channing-cyan 本文正在参与 “走过Linux 三十年”话题征文活动 在Linux系统上,最常见的操作莫过于处理文本。常见文件操作陈列、查找、排序、格式转换、数据流处理等等。这篇文章着眼于文件查找,分析locate和find命令的使用方法,和运用原理以及缺陷不足。 一、导读

[转帖]本周话题:真实方位是如何暴露的?

https://www.ruanyifeng.com/blog/2022/12/weekly-issue-237.html 很多时候,开发者需要知道用户的地理方位。 最简单的方法,就是查看用户的 IP 地址,它能够确定地理方位。 如果你不想暴露真实方位,需要使用技术手段,伪装自己的 IP 地址。 但

[转帖]优化工作中的取舍和大势判断

最近这段时间在参与一个优化项目,所以思考优化的事情比较多。因此最近的文章中,优化相关的内容会比较多,如果有朋友想看些其他方面的题材,可以留言告知。实际上我每天写的东西大多数都是前一天的思想内容,凭空找个话题来写上一篇,时间长了肯定会越来越空洞无物,我也没有那个本事,脑子里的积累写上几年还游刃有余。关

[转帖]SSL 配置优化的若干建议

转载自本人博客:https://dev.tail0r.com/ssl-optimization/ 如果你配置SSL只是为了网站的网址前有一把锁的标志,那不如直接送你把锁好了。 别想了,这句话不是哪个安全专家说的,是我说的(逃) 今天写一篇文章记录一下自己 SSL 的配置优化过程。以下设置均为 Ngi

[转帖]【官方文档】Nginx负载均衡学习笔记(三) TCP和UDP负载平衡官方参考文档

本章介绍如何使用NGINX Plus和NGINX开放源代理和负载平衡TCP和UDP流量。 目录 介绍先决条件配置反向代理配置TCP或UDP负载平衡被动健康监控 选择负载平衡方法配置会话持久性 主动健康监控 怎么运行的先决条件基本配置微调健康检查使用匹配配置块进行微调健康检查 TCP的微调健康检查UD

[转帖]从性能问题定位,扯到性能模型,再到 TCP - 都微服务云原生了,还学 TCP 干嘛系列 Part 1

https://blog.mygraphql.com/zh/posts/low-tec/network/tcp-flow-control-part1/ 引 本来想直接写理论、和实践分析的,但为了不 “赶客出門” 和不 TL;DR,还是以故事形式展开吧。语言要生动活泼。 故事的开始 话说,一次性能测试

[转帖]jumpserver (Linux资产管理快速入门)

准备工作 准备三台虚拟机,一台作为jumpserver的服务端,两台作为测试端。 一、安装好jump server后,输入IP地址登录 [192.168.2.111为本机测试地址] 二、创建用户组 这里话我们就可以先创建一个 test 的测试组作为测试。 三、创建资产 点击页面左侧的 资产管理 -

[转帖]通信圈周盘点:电信业务收入达14504亿元;新华三中国企业网交换机市场份额超三成

http://blog.itpub.net/31545813/viewspace-2930213/ 本周,1~11月电信业务收入累计完成14504亿元;新华三2022前三季度中国企业网交换机市场份额超三成;华为数通跻身2022 Gartner®魔力象限“领导者”;Aruba SD-WAN及云安全产品

[转帖]通信圈周盘点:我国5G用户数占比已超三成;锐捷网络登陆深交所创业板

http://blog.itpub.net/31545813/viewspace-2925108/ 本周,我国5G用户数占比已超三成;华为5G + Wi-Fi + IoT融合园区网方案在陕西某高校全球首局成功商用;新华三港澳地区2022用户大会于今日圆满落幕;“网络设备龙头”锐捷网络登陆深交所创业板