超融合一体机:总体vCPU可用=(4*2*24)*2(超线程)/1.1(系统开销)=350vCPU
总体内存可用容量=(4*256)/1.1(系统开销)=930G
总体存储可用容量=(4*8*4)/3(副本)*0.9(盘损耗)*0.9(阀值容量)=34T"
分布式存储:总体存储可用容量=(36*10*3)*0.66(纠删)*0.9(盘损耗)*0.9(阀值容量)=577T
AI训练服务器:FP16半精度异构总算力=312*4=1.2Pflops
人工智能平台是面向企业级人工智能开发和训练场景的高性能、易扩展、敏捷高效的人工智能开发平台和资源管理平台,提供大规模异构计算集群的统一管理、便捷易用的 AI 开发环境、大规模 AI 分布式训练、训练作业全生命周期管理、数据集版本管理与追溯、集群资源统计与报表等能力,帮助用户实现精准的资源管理与调度、敏捷的数据整合及加速、流程化的 AI 场景及业务整合,有效打通 AI 开发环境、算力、数据等要素,管理全周期 AI 工作流,提升用户 AI 开发效率。
人工智能平台可以帮助普通用户实现如下功能:
1. 提供多种数据使用方式
人工智能平台提供四种数据使用方式:用户自有数据、用户组共享数据、平台全局共享数据、全局样本数据,这四类数据分别存放在不同存储空间中,用户可以按需选择不同存储空间的数据。
2. 在线模型开发功能
人工智能平台的默认镜像均提供了 JupyterLab 功能,每个用户创建的开发环境自带 JupyterLab,便于进行交互式模型开发,使用 JupyterLab 可以快速构建一个独立的 IDE 开发环境。
3. 开发环境多种连接方式
用户可以通过 web 版 shell、本地 shell、VSCode 远程连接、PyCharm 远程连接等四种方式连接所创建的开发环境,可根据使用习惯灵活选择需要的连接方式。
4. 多种深度学习训练任务模式
用户可以通过人工智能平台便捷地提交单机训练任务和分布式训练任务,支持 TensorFlow、PyTorch、MXNet、Caffe、PaddlePaddle 等业界主流的深度学习框架。
5. 多种资源自动匹配
人工智能平台可以自动识别集群中的不同加速卡类型(GPU、MLU、BI 等),调度器会根据业务需求自动将任务调度到所需类型的加速卡上。
6. 自动任务容错
人工智能平台提供多种训练任务容错方式,可自动识别网络中断、服务器宕机、加速卡丢失等异常所导致的任务错误,自动从 checkpoint 重新拉起训练任务,确保用户训练任务的可靠运行。
人工智能平台可以帮助组管理员用户实现如下功能:
1. 业务管理
组管理员可以对同一个用户组内所有用户的开发作业、训练作业进行有效管理,及时了解组内业务的详细情况。
2. 用户管理
组管理员可以即时调整组内用户的资源配额、以及包括紧急任务队列和模型发布在内的特殊权限,避免因资源分配不合理影响组内业务进展,提升整体开发工作效率。
3. 账单管理
组管理员可以获取组内多维度的计费账单,包括总体账单、组内用户账单、组账单、任务账单等,及时了解组内资源和预算的使用情况。
人工智能平台可以帮助系统管理员用户实现如下功能:
1. 多维度运营分析
系统管理员可以通过人工智能平台方便快捷地获得集群、节点、加速卡等不同资源粒度的即时使用信息,并通过多维度、自定义报表功能,获得集群、资源组、节点、用户/用户组、任务的历史统计信息,全面掌握集群的运行情况。通过人工智能平台的计费功能,管理员可以获得自定义日期的总体账单、用户账单、用户组账单、任务账单等多种账单报表,满足不同业务的计费需求。
2. 资源精细化管理
系统管理员可以通过人工智能平台对 AI 训练集群以节点为粒度灵活划分为开发资源组、训练资源组、通用资源组等三种资源组,以承载不同的 AI 开发业务需求。通过 GPU 共享模式设置,可以快速实现 MIG、无显存控制的多任务复用、显存严格控制的多任务复用等三种作业共享模式,以适用不同的开发场景。系统管理员还可以对用户的容器环境设置超时策略,触发超时限制条件的用户资源可以被系统提示给管理员回收,避免资源被长期无效占用,提升系统资源使用效率。
3. 多租户管理
系统管理员可以通过 AIStataion 实现多级组织管理,管理普通用户、组管理员、审计员、系统管理员等四种用户角色,并实现多级组织资源的配额管理。系统管理员也可以设置每个用户的特殊业务权限,包括样本数据可见空间、数据下载、紧急任务队列、模型发布等,满足精细化控制场景的需求。
4. 智能运维
系统管理员可以通过人工智能平台的智能运维功能,实时监测平台关键组件的运行状态,快速处理异常,保障业务正常运行。通过自定义设置集群告警事件,系统管理员可以及时获取集群的异常事件,并快速响应,提升集群运维效率。
超融合一体机
分布式存储系统
AI服务器
核心交换机
管理交换机
超融合业务和存储配套交换机
AI服务器业务和存储配套交换机
(算法调度平台软件
智能云控管理系统
多功能硬件在坏HIL实时仿真系统
5G远程驾驶系统
场地数字李生运载装备在环测试系统)
公告名称 | 公告内容 | 发布日期 |
---|