聚变创新，助力AI产业筑牢数智发展根基

发布时间：2023-11-13 点击数：456

10月31日，在2023云栖大会“人工智能”技术主题论坛上，超聚变AI服务器产品总经理朱勇作《聚变创新，助力AI产业筑牢数智发展根基》主题演讲，对超聚变AI开发平台，进行重点介绍。

超聚变AI服务器产品总经理朱勇

近年来，ChatGPT引爆AI大模型，各行业AI算力需求暴增。大模型训练需要集群支持，而AI集群需要大量高性能AI服务器、高性能存储和智能无损网络设备以及大量硬件基础设施投资支持。

在使用AI集群的过程中，需要有强大的作业调度能力，跨节点调度能力，集群故障实时监测和及时诊断能力，以及断点续训和故障节点自动隔离等诸多能力，以达成稳定训练，确保集群的高效运行。

超聚变推出的AI开发平台，是一站式 AI 模型开发训练部署平台，具备开放、高效、可靠、易用四大特性，打通AI开发全流程，为用户提供友好易用的AI开发环境，保护客户投资。

开放

多算力资源统一调度、统一管理，降低客户运维难度
支持GPU、NPU等多算力，通过节点标签定义各类资源池，各类AI任务可灵活选择最匹配的资源池。

丰富的北向标准化接口，易与客户自有系统集成对接
提供REST、SNMP等标准北向接口，方便客户自有系统灵活按需调用。

增强作业调度，资源利用率提升50%以上
支持Gang、Binpack、Proportion、Priority等高阶调度策略，适用不同场景。

GPU服务器资源跨集群弹性调度，实现资源共享
GPU节点可以通过裸金属服务在多个租户资源池中动态管理，结合调度感知，GPU节点可以在不同集群中弹性分配。

GPU/NPU多实例和虚拟化技术，有效降低客户TCO
GPU多实例技术，单卡物理切分成多卡；GPU/NPU虚拟化技术，单卡逻辑切分成多卡，1张GPU卡可以当100张GPU卡用。

支持低至30秒的Checkpoint时长
支持快速保存训练过程中的数据，训练时长最多可缩短6%。

强大的作业卡死检测功能，节省训练资源成本
自动识别作业是否卡死，告警提醒用户及时释放资源。

GPU故障诊断准确率达96%
覆盖GPU所有关键信息，多种展示方式，通过BMC和多种诊断工具，支持集群的GPU批量故障诊断和监控。

断点续训，自动隔离故障节点，秒级恢复任务
训练过程中检测到节点故障、计算资源耗尽、程序崩溃等故障后自动从最近的Checkpoint点恢复训练，训练任务秒级恢复。

一站式 AI 模型开发训练部署，打通深度学习全链路
集成数据管理、算法开发、训练管理、模型管理、推理服务、镜像管理等多个功能模块。

预置大语言模型和深度学习框架镜像，助用户快速开发AI应用
预置LLaMA、BLOOM、GLM 等常见预训练模型和TensorFlow、PyTorch、Caffe、MindSpore、飞桨等多个深度学习框架镜像。

集成模型迁移工具，助力客户业务快速上线
实现模型迁移和可视化性能分析。

展望未来，超聚变将持续深耕智算基础平台，基于超聚变AI开发平台和专家团队，提供标准化、低门槛AI专业服务，持续释放智算动能，让算力更好地服务您。

https://www.xfusion.com/cn/news/innovation-assist-ai-industry