[转帖]失控的不仅仅是云成本:一年为可观测性狂烧 4.5 亿,有钱的“大冤种”也扛不住了

失控,不仅仅,成本,一年,可观,测性,有钱,扛不住 · 浏览次数 : 0

小编点评

**基础设施成本 + 平台团队成本 < 现有供应商成本** **这可是 6500 万美元,Coinbase 完全能用它在湾区组建一支 10 名高级/资深工程师的豪华阵容,就算这样成本每年也不会超过 500 万美元。之后就是给基础设施做成本预算,这部分开支每年也就不到 100 万美元吧** **所以当服务账单每年达到 200 甚至 300 万美元级别时,自建就比外包显得更靠谱了。而完成最后临门一脚的,则是供应商在原始基础设施之上又附加了多高的保留利润。**

正文

https://www.infoq.cn/article/Ozc6Cyi65spmUqFIiaLg

 

“到底是哪家公司 2022 年在Datadog身上花掉了 6500 万美元?”Datadog 最近在财务会议上透露,一项客户一次性支付高达 6500 万美元预付款,此事瞬间引发业内关注:哪家公司出手这么阔绰?可观测供应商这么赚钱?

 

Datadog 是可观测性的主要力量,2019 年融资上市,目前市值为 280 亿美元。该公司 2022 年内的收入为 16.7 亿美元,月均在 1.4 亿美元左右。在一个关于降本的小调查中,“AWS”和“Datadog”是被提及最多的两家供应商。这显然证明基础设施和可观测性成本已经相当高昂,其中 AWS 是基础设施领域的领导者。

 

在 5 月 4 日的财报电话会议上,Datadog 首席财务官 David Obstler 提到了一笔“非经常性支出”(也称一次性费用),并表示:

 

“本季度收入为 5.11 亿美元,较上年同期增长 15%。2022 年第一季度,曾有客户支付一笔巨额预付款;但 2023 年第一季度没有类似的大额支出。根据对该客户的估算,其账单同比增长率将低于 30%。”

 

这一细节被摩根大通研究部执行董事兼金融分析师 Mark Ronald Murphy 捕捉到了。在进行计算后,Murphy 透露出该笔预付款约为 6500 万美元(约合人民币 4.5 亿),Datadog 也承认了该数字的准确性。Obstler表示,该公司改变了计费频率和金额,因此随着时间的推移,该客户的帐单将分摊得更多。

 

Obstler 透露,“这是一家加密货币公司,目前仍是我们的客户。他们是一家早期优化厂商,所处的行业正是我们经常讨论的受影响最大、优化空间最广的领域。”

 

Datadog 联合创始人兼首席执行官 Olivier Pomel 表示,在过去的一年里,该客户所在垂直行业几乎被摧毁了。他们自己的业务收入减少了 3 到 4 倍。“在这种情况下,我们会与客户合作,重组他们与我们的合同。我们想成为他们解决方案的一部分,而不是问题的一部分。”

 

至此,网上对于“到底是哪家加密公司 2022 年 内在 Datadog 身上花掉了 6500 万美元”一事充满各种猜测。

 

投资者 Turner Novak推测是 Coinbase,但并不是很确定。网上甚至出现了冒充 Coinbase 员工的人。比如Hacker News上的某位匿名评论者,其声称 6500 万美元其实是未来三年的预付款,但消息内容无法核实。后来,FARMLEND 全栈工程师 Gergely Orosz 发文称自己确认了该公司就是 Coinbase,而那笔款项就是他们当年的到期账单。下面我们看下 Orosz 的详细说法。

 

“没人关心基础设施成本了”

 

Coinbase 公司于当年 6 月上市,上市首日估值 857 亿美元。相比之下,将近两年后,该公司的估值约为 140 亿美元,下降了约 75%。在繁荣时期,交易量激增,屡创新高,而 Coinbase 基础设施几乎无法跟上。Coinbase 首席执行官 Brian Amstrong 曾表示:

 

“2021 年对 Coinbase 来说是不可思议的一年,这种态势不要说在人的一生中非常罕见,拿到整个商业发展史上看也是屈指可数。我们的月交易用户达到创历史新高的 1140 万,同比增长 4 倍。400%的增长率,简直令人难以置信。”

 

在 2021 年首次公开募股之后,Coinbase 公司里已经没人关心基础设施成本了,唯一的目标就是继续保持增长。该公司先后向 AWS、Snowflake 和 Datadog 等厂商支付了巨额费用。于是乎,2021 年这 6500 万美元确实花给了 Datadog,Coinbase 则在 2022 年第一季度结清了这笔支出。

 

可 2022 年伊始,Coinbase 的情况急转直下、需要立即削减基础设施支出。这是因为加密行业突然遇冷,Coinbase 的业务自然也受到影响。随着收入枯竭,该公司开始将注意力转向降本增效。

 

在可观测性方面,Coinbase 成立了专项团队,目标是把这部分功能从 Datadog 转移到内部 Grafana/Prometheus/Clickhouse 技术栈上。下面对这些技术稍做介绍:

 

  • Prometheus:一种时序数据库。作为一套非常流行的系统和服务监控开源解决方案,Prometheus 会按给定的时间间隔从配置的目标(服务)处收集指标,并结合评估规则以触发警报。

 

Prometheus 主要由 Go 编写,也有用到 Java、Python 和 Ruby 代码。Prometheus 可将时序数据以一种高效、可定制的格式存储在内存内和持久存储介质(HDD 或 SSD)上,而且支持分区和联邦部署。

 

Prometheus 属于云原生基的下辖项目,因此在它之上构建业务比较安全。该项目在当前及可预见的未来都将拥有稳定的维护和支持。

 

Prometheus 可以自托管,部分云服务商也在提供 Prometheus 托管服务:Googld Cloud 和 AWS 都提供生产级服务选项,Azure 的服务目前则仅提供预览版。

 

  • Grafana:可视化指标前端。Grafana 是一种流行的源分析和监控可视化解决方案。如果大家需要查看或深入了解指标或警报,那 Grafana 就是理想的首选工具,在科技企业中得到广泛应用。Grafana 仪表板示例:

 

 

  • Clickhouse:日志记录管理工具。这是一套快速、开源,且面向列的数据库管理系统,也是目前流行的日志管理选项。Clickhouse 主要由 C++编写而成,在整个行业内得到广泛应用。例如,Cloudflare 就使用 Clickhouse 来存储其所有 DNS 和 HTTP 日志——每秒超过 1000 万行!Clickhouse 还是 Uber 的中央日志记录平台。

 

Coinbase 最初之所以选择自己动手,主要目标并不是节约成本,而是要获取完全控制力和可观测性。可观测性和可靠性,也正是 Coinbase 在市场上与竞争对手抗衡时的最大王牌。

 

但随着加密货币市场的降温,成本开始成为核心关注点,而内部运营的 Grafana/Prometheus 方案也确实要便宜得多。Coinbase 团队几个月来一直在重复调试新技术栈,最终解决了所有问题、确认一切运行正常。

 

就这样,Coinbase 本打算就此跟 Datadog 说拜拜,但 Datadog 在最后一刻挽救了这段合作关系,给 Coinbase 开出一项其无法拒绝的优厚条款。简单来说,Datadog 后续开出的账单将远远低于 2021 年的 6500 万美元。毕竟就像 Brian Amstrong 在谈到 2021 年的加密货币市场时说的那样,6500 万美元的账单在整个商业发展史上也不常见。

 

为留住客户,Datadog 打“骨折”

 

Orosz 就此事询问了 Coinbase 一位同时体验过内部技术栈和 Datadog 的工程师,想听听对方怎么看待继续留用 Datadog 的决定。这位工程师认为,考虑到合理的成本和卓越的开发体验,继续选择 Datadog 是个正确的决定。

 

Coinbase 最终已经能在内部设计出类似的体验,但要想实现与 Datadog 相近的无缝开发者体验,那可能还需要耗费数十年的工程投入。

 

而且可观测性工具中的“昂贵”是个相对概念。比方说,在大幅降价之后,如今 Coinbase 每年“仅”须在 Datadog 身上花费 1000 万美元。那这 1000 万美元到底多不多?

 

第一反应似乎仍然不少,但再深入剖析后可以发现,像 Datadog 这样的平台还有助于防止中断、即时检测并快速缓解宕机事故。

 

2022 年,Coinbase 曾发生过 18 次停机,总时长约为 12 小时。根据 2022 年的收入计算,该公司的日均收入约为 900 万美元。假设 Datadog 能够通过早期监控来防止中断问题,由此将中断次数减少了一半,那就可以认为如果没有 Datadog 的参与,实际停机总时长将是 24 个小时。

 

另外,假设 Datadog 支持下的 Coinbase 能够将恢复速度提升至 2 倍(可能是因为 Datadog 会快速将健康指标同日志、调试操作等联系起来,帮助查明根本原因并改进缓解效率),那么不用 Datadog 的总停机时长将进一步延长到 36 个小时。

 

这样做个简单的数学计算,Coinbase 选择了 Datadog 之后单在停机时间上就省下了 900 万美元,所以现在每年 1000 万美元的支出可以说是物有所值!

 

千万美元的可观测账单,并不罕见

 

在 DataDog 的案例中,由于该公司提供的不仅仅是可观测性解决方案,还包括安全账单,数字变得更加复杂。财报没有说明这家未具名的公司使用了多少此类 SaaS 服务。

 

“虽然 6500 万美元是一个令人震惊的数字,但对于传统的可观测性公司来说,1000 万美元的账单并不罕见。”可观测性替代提供商 Groundcover 首席执行官 Shahar Azulay 表示。

 

“像 Coinbase 这样的大公司,不久前就已经开始以每年 1000 万美元的价格进行采购。”Azulay 说道,“很多公司每年会向 Splunk、Dynatrace、DataDog 这样的可观测提供商支付超过 1000 万美元,甚至同时向多个供应商支付,每个供应商都超过两位数的收入,这并不罕见。”

 

Azulay 补充道,重点在于可观测供应商如何定价。可观测性解决方案监控三种类型的数据:日志、度量和跟踪(监视交互的路径,例如端到端事务和服务之间发生的事情)。这些数据源的增长趋势很难预测,尤其是当“黑色星期五”这样的事件出现时,用户的使用量会达到峰值。

 

它充满很大的不可预测性,并对推送到日志中的数据量有很大的依赖,这就是有大量定价点的根本原因,因为你无法控制,也无法知道下个月将支付多少。”Azulay 表示,更重要的是,即使合同是针对某一梯度水平的,一旦公司超过了该等级,那从当天起,厂商就会按更高的等级费率收费。

 

“特定的 log lines 可以成为基础设施的关键部分,例如谷歌的搜索引擎或任何每天运行 100 万次的东西——只是客户每天使用它 100 万次。”Azulay 表示,开发人员可能只是将更多的 log lines 或数据点推送到系统中,但不知道更多。有一个这样的循环:开发人员创建应用程序,构建组织作为产品提供方应该做的业务逻辑,然后做研发管理,直到两个月后才发现:哦,这让我们的价格上涨了 50%。

 

Azulay 认为,问题可能会落在开发人员身上,因为他们向可观测性堆栈推送了太多信息,导致监控生产的数据点数量减少了。“这是一个奇怪的恶性循环,开发人员想要更多的数据来排除故障,而管理人员则需要权衡,他们必须为此支付大量的钱。”

 

不过,并非所有可观测性公司都是这样收费的。使用 eBPF 代理的 Groundcover 不收集数据,它按生产环境中运行的服务器数量收费。

 

谁是“大冤种”

 

很明显,供应商会对客户的支出削减守口如瓶,我们只是很幸运地从 Datadog 发言的细微线索中找到了 Coinbase。但 Coinbase 的情况绝不是个例,更多反映了市场的整体趋势。

 

Datadog 公司 CEO Olivier Pomel 证实,类似的成本优化举措正在全体客户中间发生:

 

“观测我们的数据,回顾我们从超大规模客户那边听到的声音,总结客户关于短期未来的观点,我们确实对接下来的前景没什么信心。换言之,下个季度、最多下下季度,大规模的降本增效就要到来。因此,就目前的指导方针和年内规划而言,我们认为剩下的半年基本都会是这个情况。”

 

Datadog 的危机可能也还在继续。Orosz 透露,Shopify 正打算跟 Datadog 脱钩。

 

Orosz 表示,多家体量巨大的企业都在构建自己的内部 Grafana/Prometheus 技术栈,打算借此脱离原有可观测性供应商,而归根到底还是钱的问题。

 

“每年 200 到 500 万美元的固定支出就是逃离供应商的最佳理由。毕竟一旦到了这个规模,理论上还不如雇用内部团队自己接手这部分工作。”Orosz 表示。

 

根据指导经验,内部基础设施的运营成本要远低于供应商开出的价格。这是因为供应商和企业往往都在使用相同的云基础设施,可能是 AWS、Google Cloud Platform 或者 Azure。最大的区别在于,企业需要聘请专门的工程团队和技术人员来构建并运行这套基础设施。

 

因此从成本角度看,最终权衡可以提炼成下面这条简单规则:

 

基础设施成本 + 平台团队成本 < 现有供应商成本

 

其中,平台团队成本会高于 100 万美元,有时候甚至超过 200 万美元。这是因为平台团队至少要有 4、5 位工程师加一名经理,他们的平均年薪都在 15 万到 40 万美元之间,具体由成本基础决定。

 

所以当服务账单每年达到 200 甚至 300 万美元级别时,自建就比外包显得更靠谱了。而完成最后临门一脚的,则是供应商在原始基础设施之上又附加了多高的保留利润。

 

Orosz 表示自己想不通 Coinbase 的行为:为什么供应商都把价格开到 6500 万美元这个级别了,他们才开始考虑自建团队?

 

“这可是 6500 万美元,Coinbase 完全能用它在湾区组建一支 10 名高级/资深工程师的豪华阵容,就算这样成本每年也不会超过 500 万美元。之后就是给基础设施做成本预算,这部分开支每年也就不到 100 万美元吧。”Orosz 感叹道。

 

参考链接:

https://investors.datadoghq.com/static-files/18234a4f-04f9-4a9f-9679-668cd672fb7b

https://blog.pragmaticengineer.com/datadog-65m-year-customer-mystery/

https://thenewstack.io/datadogs-65m-bill-and-why-developers-should-care/

与[转帖]失控的不仅仅是云成本:一年为可观测性狂烧 4.5 亿,有钱的“大冤种”也扛不住了相似的内容:

[转帖]失控的不仅仅是云成本:一年为可观测性狂烧 4.5 亿,有钱的“大冤种”也扛不住了

https://www.infoq.cn/article/Ozc6Cyi65spmUqFIiaLg “到底是哪家公司 2022 年在Datadog身上花掉了 6500 万美元?”Datadog 最近在财务会议上透露,一项客户一次性支付高达 6500 万美元预付款,此事瞬间引发业内关注:哪家公司出手这

[转帖]一个空格导致应用启动失败的问题排查

2021-02-03 分类:Java / spring 阅读(2930) 评论(2) GitHub 24k Star 的Java工程师成神之路,不来了解一下吗! 先交代一下背景,在很久之前,我曾经封装过一个分库分表的扫表工具——Full Table Scanner,主要实现方式是通过使用TDDL H

[转帖]为什么不推荐使用/etc/fstab

https://www.jianshu.com/p/af49a5d0553f 对于工作中使用服务器的公司来讲,每到节假日来临时,总免不了对服务器进行下电。而收假回来的早上,则会有一个早上的时间会花费在服务区的开机和修复工作上。是的,修复无法开启或开机失败的服务器。 几乎每次节假日售价回来,恢复服务器

[转帖]Ngx_lua

http://me.52fhy.com/lua-book/chapter12.html 简介 ngx_lua 指的是 lua-nginx-module模块:通过将 LuaJIT 的虚拟机嵌入到 Nginx 的 worker 中,这样既保持高性能,又能不失去lua开发的简单特性。 OpenResty 

[转帖]SpringBoot配置SSL 坑点总结【密码验证失败、连接不安全】

文章目录 前言1.证书绑定问题2.证书和密码不匹配3.yaml配置文件问题3.1 解密类型和证书类型是相关的3.2 配置文件参数混淆 后记 前言 在SpringBoot服务中配置ssl,无非就是下载证书设置一下配置文件的问题,这里主要记录我在配置的过程中遇到的坑点。 如果是新手上道的话建议结合其他的

[转帖]解释docker单机部署kraft模式kafka集群时,尝试各种方式的网络broker全部不通而启动失败的原因,并提示常见bug关注点

现象: controller节点与其他两个broker的通信失败。公网ip,宿主机ip,服务名,各种网络方式,都无法成功。 两点提示: 1.bug原因:因为单机内存不够用,设置了较低的 KAFKA_HEAP_OPTS 参数值128M,导致broker通信失败! 2.kafka容器启动中,增加 BIT

[转帖]磁盘读速度巨慢使用arcconf工具调整后的二次优化

情况叙述:lvm文件系统出现损坏,格式为xfs,磁盘修复失败后该节点需要重新格式化处理,格式化后重新划分pv,vg,lv,做完之后应用反应读写的速度达不到应用使用的要求,与正常的相比速度不稳定 现象:time和dd测试速度后发现写的速度为10-20MB/s 解决1:yy3:~ # chmod +x

[转帖]HTTP请求错误400、401、402、403、404、405、406、407、412、414、500、501、502解析

https://www.cnblogs.com/jiangjunli/p/7639578.html HTTP 错误 400 400 请求出错 由于语法格式有误,服务器无法理解此请求。不作修改,客户程序就无法重复此请求。 HTTP 错误 401 401.1 未授权:登录失败 此错误表明传输给服务器的证

[转帖]nginx http超时重试幂等问题

https://blog.csdn.net/wangtingting_100/article/details/89842557 nginx做反向代理时,作为负载均衡器,对执行失败的任务默认会调度到其他节点执行。 默认设置:proxy_next_upstream error timeout #发生网络

[转帖]jmap执行失败了,怎么获取heapdump?

https://www.jianshu.com/p/f4bfd169b4ca 在之前的OOM问题复盘中,我们添加了jmap脚本来自动dump内存现场,方便排查OOM问题。 但当我反复模拟OOM场景测试时,发现jmap有时可以dump成功,有时会报错,如下: 经过网上一顿搜索,发现两种原因可能导致这个