在经过深思熟虑后,我们计划发起名为wind rises的项目孵化,在 .NET 平台上尽力弥补缺少云原生基础设施项目的遗憾。 在今年的最后几个月和明年,我们规划了使用 .NET 开发的可观测性平台和分布式应用框架两个项目
最近在搞分布式训练大模型,踩了两个晚上的坑今天终于爬出来了 我们使用 2台 8*H100 遇到过 错误1 10.255.19.85: ncclSystemError: System call (e.g. socket, malloc) or external library call failed
摘要:如果遇到IB网络不通,可以试着从高层往底层逐步分析看看。 本文分享自华为云社区《常见IB网络不通问题记录》,作者: tsjsdbd 。 如果遇到IB网络不通,可以试着从高层往底层逐步分析看看。仅记录下,供难友参考: 一、NCCL不通 报错: machine-19: [0] transport/