在LLama 3练习期间英伟达H100和HBM3内存毛病占有了一半
来源:欧宝登录app入口 发布时间:2024-09-08 05:54:58
据介绍,LLAMA 3.1 405B在16,384 个 H100 80GB GPU 的集群上继续练习了54天,在此期间遇到了 419 个意外的组件毛病,均匀每三个小时就产生一次毛病。其间一半的毛病,都是因为GPU 或其板载 HBM3 内存问题。
超级计算机是极端杂乱的设备,运用数以万计的处理器、数十万个其他芯片和数百英里的电缆衔接在一起。在一台杂乱的超级计算机中,每隔几个小时就会呈现毛病,这是正常的,研制人员的首要技巧是尽量保证体系坚持正常运转,不管这种部分毛病怎么。
比方高达16,384个H100 GPU 练习的规划和同步性质使其简单失利。假如毛病未得到正确缓解,单个 GPU 毛病可能会中止整个练习作业,然后需求重启。但是,LLAMA 3 团队坚持了超越90%的有用练习时刻。
总结来说,在为期 54 天的练习中,有 466 次作业中止,其间 47 次是计划性的,419 次是意外的。计划内中止是因为自动化保护形成的,而意外的中止首要源于硬件问题。其间,GPU 问题是最大的一类,占意外中止的 58.7%。只要三起中止事情需求很多的人工干预,其他的则由自动化办理。
尽管 GPU 是最重要的组件,但刚好也很软弱,但 41.3% 的意外中止是由多种要素引起的,包含软件过错、网络电缆和网络适配器。
为了进步功率,Meta 的团队减少了作业发动和检查点时刻,并开发了专有的确诊东西。PyTorch 的 NCCL 飞翔记录器被大范围的运用在快速确诊和处理挂起和功能问题,尤其是与 NCCLX 相关的问题。该东西可捕获团体元数据和仓库盯梢,有助于快速处理问题。
*博客内容为网友个人发布,仅代表博主个人自己的观念,如有侵权请联络作业人员删去。