.png)
AI Max是一款基于Kubernetes+Docker+GPU架构,定位于机器学习的上层应用,免去客户编写代码的麻烦,快速开始深度学习任务。通过容器化技术,封装了人工智能所需的系统环境和底层操作,可以有效降低企业进入人工智能领域的门槛,解决开发环境难部署和高成本投入等问题,满足各行各业对大数据、人工智能模型搭建等需求。
基础设施以硬件服务器为载体,支持主流 X86 服务器,配置 NVIDIA GPU 实现高性能加速计算,采用主流分布式存储设备,支持 TCP/IP,InfiniBand 高速网络互联。
平台层是整个系统的核心,包含操作系统、GPU 驱动、CUDA、CuDNN、机器学习框架、资源调度和完整的机器学习所需的处理流程,实现资源操作自动化,并向用户提供应用交付服务。
表盘式工作界面,可以从首页看到所有资源,已分类资源、剩余资源、所有节点信息、任务信息等,菜单界面平滑直观,功能化繁为简,任务训练、交互式开发、可视化、模型部署、数据存储等、任务镜像等一目了然。
AI Max不仅可监控上层应用,也可监控底层硬件。在资源面板上,展示系统总体资源配置、CPU、GPU、Memory,GPU显存使用率,节点状态,分区资源消耗和任务运行情况等,底层硬件上,多途径收集数据,评估所收集的数据与所设阈值,判定硬件状态。通过单一界面管理平台,实时显示底层硬件数据,阶梯式发送告警,灵活可控。
管理员通过对用户和用户组的CPU、GPU、Memory和存储配额进行设定,限定资源数量。系统对具备角色及授权,只有特定角色的用户才能访问系统特定的功能,用户的数据存储空间相互隔离,每个用户只能访问各自空间的数据,无法越界访问未授权的数据。
提供多种途径的镜像获取和制作手段,满足不同背景和层次的用户对镜像制作的要求。除了查看镜像名和标签外,系统还可以自动侦测镜像中的系统环境,极大方便了用户对镜像的定制化要求。自由镜像功能则较大程度的满足了用户的所有镜像制作要求。通过隔离,保证了镜像使用中的安全需求。用户在制作镜像过程中,可以及时查看进度和消息。
分布式存储网络支持IB和RDMA,保证大规模网络训练时的网络带宽,提高训练的效率。分布式、冗余及数据条带化,满足不同用户对数据的安全和性能要求。丰富的数据管理、分享功能极大方便了用户的使用,支持NAS存储、Gluster FS,同时Gluster FS和NFS的多个卷可同时存在,为用户提供多种存储方案。
模型训练、超参数调节、模型可视化、日志查看等一系列环节和工具,使用户可以聚焦在核心的算法设计上面,极大提高了工作效率。通过资源配额、任务调度和容错,使模型训练任务高效可靠;分布式任务使大规模网络模型的训练性能大大提高,同时提供多种交互式开发方式,给个人开发者提供诸多便利。