更新时间:2026-01-16 gmt 08:00

故障恢复-j9九游会登录

maas全球基础设施围绕华为云区域和可用区构建。华为云区域提供多个在物理上独立且隔离的可用区,这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。

maas通过对db的数据进行备份,保证在原数据被破坏或损坏的情况下可以恢复业务。

模型调优故障自动恢复

用户在调优模型过程中,存在因硬件故障而产生的训练失败场景。针对硬件故障场景,maas提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。

容错检查包括两个检查项:环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时,隔离故障硬件并重新下发调优作业。针对分布式场景,容错检查会检查本次调优作业的全部计算节点。

推理部署故障恢复

用户部署的在线推理服务运行过程中,如发生硬件故障导致推理实例故障,maas会自动检测到并迁移受影响实例到其它可用节点,实例启动后恢复推理请求处理能力。故障的硬件节点会自动隔离不再调度和运行推理服务实例。

相关文档

网站地图