用户权限管理

用户组可关联不同角色,每个角色关联用户对资源可以执行操作;用户及用户组的增删改查;用户可定义资源配额,如可以使用的CPU核数等,用户可与特定的分区关联、可与特定的存储卷关联,支持Web GUI,命令行、Java SDK、Restful API接口。

 

 

 

优势:细粒度的权限控制,满足多用户、多场景的需求;资源配额能到达用户级别;多层次、分布式的鉴权系统,系统安全性高;接口丰富,方便用户进行二次开发。

 

镜像管理

系统自带种类丰富的任务镜像,封装了完整的CUDA驱动、CuDNN,支持Caffe、TensorFlow、PyTorch等各种机器学习框架,用户可自由选择,公共镜像与用户私人镜像相互隔离;支持查看镜像列表、删除镜像;可支持上传Docker镜像,上传Dockerfile制作镜像,也可从Docker Hub下载镜像;用户可通过给基础镜像添加python包制作镜像;镜像制作、下载具体进度以及运行环境均可显示出来,同时,用户可通过控制台手动订制镜像并保存,支持Web GUI,命令行、Java SDK、Restful API接口。

 

 

优势:使用Docker Image封装所有运行时依赖的环境,支持所有的linux版本、CUDA版本、CuDNN版本,支持所有机器学习库;运行环境基于Docker镜像,启动快速,用户环境之间没有相互影响;自带的Docker镜像能满足大部分机器学习任务的需求;接口丰富,方便用户进行二次开发。

 

数据存储

创建用户时可根据需求给每个用户分配不同的存储配额,每个用户自动创建指定配额的存储用于存放数据,多个用户的存储空间相互隔离;支持浏览用户文件列表,创建文件夹,查看文件内容,上传、下载文件,文件/文件夹的复制、移动和删除,也可支持文件共享,支持Web GUI,命令行、Java SDK、Restful API接口。

 

 

优势:基于GlusterFS的分布式存储架构,存储容量大、容易横向扩展;数据条带化、读取效率更高;数据多备份,安全性高,用户数据相互隔离;接口丰富,方便用户进行二次开发。

 

模型训练

可提交模型训练任务,查看模型训练任务列表、训练任务详细信息、资源使用情况、训练任务输出日志;支持导出训练模型,部署/测试训练模型,训练模型可视化;可使用Jupyter/JupyterLab进行交互式开发以及在基于Desktop环境下进行可视化开发;支持Web GUI,命令行、Java SDK、Restful API接口。

 

 

优势:基于Kubernetes的容器调度引擎,成熟稳定;任务基于Docker容器运行,资源占用少,对环境无影响;可以方便的实现分布式任务;任务运行环境可以重复利用;接口丰富,方便用户进行二次开发。

 

集群管理

集群节点添加、删除,可支持节点资源使用监控、节点远程开关机、节点健康状态监控,同时具备节点远程控制台;支持集群分区的创建和删除,集群分区配额修改,可监控集群分区中CPU、内存、GPU使用情况以及集群分区中任务统。

 

 

优势:节点自动发现和安装、横向扩展方便;支持集群分区,有利于提高资源利用效率;用户可以方便监控节点状况,从web上登陆控制台;接口丰富,方便用户进行二次开发。

 

总结

传统的集群结构中,不同的硬件各司其职,协同运作。虽然能提供足够的性能和安全保障,但同时对于用户的运维管理能力提出了很高的要求。对于大部分从事机器学习的用户来说,如果无法把全部精力投入到机器学习任务本身的开发和研究,无疑是令人遗憾的。AI Max 正是考虑到了这个问题,在设计中整合了计算、存储和网络资源,把负责提供计算能力的硬件自身包含的存储能力最大化挖掘并应用起来,免去传统集群环境下存储的规划、连接、配置等复杂的管理操作,无需再配置Raid组、LUN、卷等。在一个界面上,用户就可以实现存储的管理分配,并对CPU、内存、GPU等资源进行管理,省去了存储部分的运维费用,大幅降低了使用成本,用户也得以彻底解放,更多的投身机器学习研究,用最小的成本换回最大的回报。 同时客户通过 AI Max 可以灵活高效地实现节点拓展,来增加资源以满足业务的增长。