谷歌DeepMind推出"解耦DiLoCo"技术,解决了大规模分布式AI训练中节点故障与同步瓶颈问题,显著提升了系统的鲁棒性和扩展效率。该方法通过分离模型参数同步与梯度计算流程,使千亿级参数模型训练对硬件故障的容忍度提高10倍以上。