01 关于StarCloud
OpenCSG StarCloud 是一个集开源系统(Kubernetes ,K8S)与高性能计算(High Performance Computing,HPC)一体的混合算力调度平台。它专注于大模型训练和推理,并提供一站式服务,包括从训练到部署,以及多模型比较等。除了在人工智能领域的应用,StarCloud 在工程设计与仿真、金融和风险管理、药物研发和医学研究等多个领域也展现出其卓越的性能。
随着大模型应用的发展及落地,GPU 算力资源变得日益紧张,StarCloud提供了多样化的异构计算算力服务,旨在满足大模型应用和高性能计算的需求,致力于构建一个普惠、易用的算力服务平台。StarCloud的资源调度平台有效缓解这一问题,通过精细化管理大模型的调度过程,从而提高资源的利用率。此外,企业可以利用StarCloud部署自己私有化的平台,实现定制化的资源管理和调度,以满足特定的业务需求。
02 StarCloud 功能介绍
StarCloud 是一个全面而高效的混合算力调度平台,它整合了多机多卡异构算力调度、异地多中心的统一调度,通过并行化计算加速大规模任务的处理。平台还能支持构建超大运算中心,调度数百万内核和数万GPU资源,同时提供了大模型微调的统一框架,以及多租户和私有化的支持,确保了调度的高效性和灵活性。
StarCloud功能覆盖了多个关键领域。接下来,本文将从用户模块、作业模块、资源模块、调度策略及其它这四个方面,为您详细解读 StarCloud 的核心功能:
用户模块
1.多租户管理
引入多租户管理功能,支持同时管理多个租户。
通过强化数据与资源隔离,精准满足差异化租户需求。
2. 用户角色
允许定义和分配用户角色,优化访问控制和权限管理。
为不同用户提供定制化的视图,并确保资源量与数据的独立性。
3.用户和用户组设定
提供了用户和用户组的设置功能,用户和用户组的管理更加便捷高效。
确保系统用户的管理高效和准确。
4.用户登录登出
支持用户的登录和登出功能,确保系统的安全性和用户身份的验证。
作业模块
1.作业状态查看
允许实时监控提交作业的状态,包括进度和完成度。
提供了对作业执行情况的全面监控,确保用户能够随时了解作业的进度和状态。
2.作业详情和作业输出内容查看
提供了对作业详细信息和输出内容的查看功能。
深入了解作业的执行结果和输出。
3.作业提交和相关参数配置
提供了作业提交功能,同时还提供了相关参数的配置选项。
灵活地配置作业的执行方式和参数。
资源模块
1.集群资源状态查看
允许用户实时查看集群资源状态,包括资源的可用性和利用率。
用户能够可视化管理资源,全面掌握集群资源的实时状况
2.阿里云资源动态调度
引入了阿里云资源的动态调度功能,能够更加灵活地管理和分配阿里云上的资源。
满足不同作业的需求。
调度策略及其它
1.角色和队列关联
提供角色和队列关联功能,将特定角色与特定队列相关联。
简化作业的提交和管理流程。
2.QoS创建和维护
提供了QoS(服务质量)的创建和维护功能。
满足不同作业的特定需求,确保作业按照预期的优先级和要求执行。
03 更多计划
未来,StarCloud 将持续优化和发展,增加更多实用的功能,进一步提升用户体验并满足不断变化的计算需求。这些功能可能包括但不限于:
StarCloud 一体式安装包
StarCloud K8S operator
StarCloud与 csghub整合, 允许用户选择模型微调
支持更多微调框架例如 deepspeed, pytorch chepoint
失败作业自动从检查点重启
StarCloud 开源地址: