maas部署模型服务-j9九游会登录
在modelarts studio(maas)大模型即服务平台可以将模型广场的预置模型部署为我的服务,便于在“模型体验”或其他业务环境中调用。
计费说明
在maas进行模型推理时,会产生计算资源和存储资源等费用。计算资源为运行模型服务的费用。存储资源包括数据存储到obs的计费。使用消息通知服务会产生相关服务费用。详细计费说明请参考计算资源计费项。
约束限制
- modelarts studio大模型即服务平台的模型推理的最大输入输出长度如下表所示。
不同地域支持的模型可能不同,请以“部署模型服务”页面实际显示的模型为准。
表1 模型默认最大输入输出长度 模型
默认最大输入输出长度(token)
qwen2.5-72b-8k
deepseek-v3-8k
deepseek-r1-distill-qwen-14b-8k
deepseek-r1-distill-qwen-32b-8k
8192
deepseek-r1-16k
deepseek-v3-16k
qwq-32b-16k
16384
qwq-32b-32k
qwen2.5-7b-32k
qwen2.5-32b-32k
qwen2.5-72b-32k
qwen2.5-vl-7b-32k
qwen2.5-vl-72b-32k
qwen3-4b-32k
qwen3-8b-32k
qwen3-14b-32k
qwen3-32b-32k
deepseek-r1-32k
deepseek-r1-32k-0528
deepseek-r1-distill-qwen-32b-32k
deepseek-v3-32k
deepseek-coder-33b-32k
32768
qwen3-235b-a22b-64k
qwen3-32b-64k
deepseek-v3-64k
kimi-k2
65536
deepseek-v3.1-128k
qwen3-30b-a3b-128k
131072
其他模型
4096
- 公共资源池:如果不支持公共资源池,“部署模型服务”页面的“公共资源池”按钮会置灰,鼠标悬停时,会提示:该模型版本暂不支持公共资源池部署;如果专属资源池不匹配,勾选按钮会置灰,鼠标悬停时,会出现相关提示,请按照提示进行相关操作。
- 专属资源池:驱动版本请以“部署模型服务”页面的提示为准。如果专属资源池不匹配,勾选按钮会置灰,鼠标悬停时,会出现相关提示,请按照提示进行相关操作。
前提条件
- 已准备公共资源池或专属资源池,详情请参见准备maas资源。
部署模型服务
- 登录,在顶部导航栏中选择目标区域。
- 在左侧导航栏,选择进入服务列表。
- 在“在线推理”页面,单击“我的服务”页签,在右上角单击“部署模型服务”进入部署页面,完成创建配置。
图2 创建配置
表2 部署模型服务参数说明 参数
说明
服务设置
服务名称
自定义部署模型服务的名称。
支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。
描述
自定义部署模型服务的简介。支持256字符。
模型设置
部署模型
单击“请选择模型”,选择“模型广场”或“我的模型”下面的模型。
资源设置
资源池类型
资源池分为公共资源池与专属资源池。
- 公共资源池供由所有租户共享使用。
- 如果支持公共资源池,但是没开白名单,“资源池类型”选择“公共资源池”时,下方会出现提示:公共资源池暂未完全公开,如需申请使用,请联系与您对接的销售人员或拨打4000-955-988获得支持,您也可以在线提交。
- 如果不支持公共资源池,“公共资源池”按钮会置灰,鼠标悬停时,会提示:该模型版本暂不支持公共资源池部署;如果专属资源池不匹配,勾选按钮会置灰,鼠标悬停时,会出现相关提示,请按照提示进行相关操作。
- 专属资源池需单独创建,不与其他租户共享。
实例规格
选择实例规格,规格中描述了服务器类型、型号等信息。仅显示模型支持的资源规格。
实例数
设置服务器个数。
资源设置
流量限制(qps)
设置待部署模型的流量限制qps。
单位:次/秒
说明:在部署过程中出现错误码“modelarts.81101”,且错误码信息为“too many requests, the rate limit is %s times per second.”,表示请求量超过qps限制,建议等待限流结束后再重启服务。
更多选项
内容审核
选择是否打开内容审核,默认启用。
- 开关打开(默认打开),内容审核可以阻止在线推理中的输入输出中出现不合规的内容,但可能会对接口性能产生较大影响。
- 开关关闭,停用内容审核服务,将不会审核在线推理中的输入输出,模型服务可能会有违规风险,请谨慎关闭。
关闭“内容审核”开关,需要在弹窗中确认是否停用内容审核服务,勾选后,单击“确定”关闭。
事件通知
选择是否打开“事件通知”开关。
- 开关关闭(默认关闭):表示不启用消息通知服务。
- 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”和“事件”。
- “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
需要为消息通知服务中创建的主题添加订阅,当订阅状态为“已确认”后,方可收到事件通知。订阅主题的详细操作请参见添加订阅。
- “事件”:选择要订阅的事件类型。例如“运行中”、“已终止”、“运行失败”等。
说明:使用消息通知服务会产生相关服务费用,详细信息请参见计费说明。
自动停止
设定服务在运行指定时间后自动停止。
- 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”、“2小时”、“4小时”、“6小时”或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止服务,准备排队等状态不扣除运行时长。
- 开关关闭(默认关闭):表示服务将一直运行。
- 公共资源池供由所有租户共享使用。
- 参数配置完成后,单击“提交”。
“资源池类型”选择“公共资源池”时,会出现“计费提醒”对话框,请您仔细阅读预估费用信息,然后单击“确定”,创建部署任务。模型部署会基于资源占用时长进行计费。服务状态为运行中时会产生费用,最终实际费用以账单为准。
在“我的服务”列表中,当模型部署服务的“状态”变成“运行中”时,表示模型部署完成。
图3 模型服务部署成功
资源池类型为“公共资源池”时,模型部署会基于资源占用时长进行计费。
资源池类型为“专属资源池”时,专属资源池的费用已在购买时支付,部署服务不再收费。
- 模型部署完成后,可以进行在线体验或api调用。在线体验请见maas在线体验。调用部署模型请见调用部署模型。
图4 相关操作
查看部署服务信息
- 登录,在顶部导航栏中选择目标区域。
- 在左侧导航栏,选择页面,然后单击“我的服务”页签。
- 在“我的服务”页签,单击服务名称,进入部署模型服务详情页面,可以查看服务信息。
- “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。
图5 详情页签
- “资源监控”:可以查看服务资源监控指标相关信息。
图6 资源监控页签
表3 资源监控参数说明 参数
说明
时间范围
支持按照近1小时、近3小时、近12小时、近24小时、近7天、自定义时间段统计服务的资源使用情况。
自定义时间支持最多查看30天的数据。
cpu使用率 (%)
服务的cpu使用情况。
内存使用率 (%)
服务的内存使用情况。
npu算力使用率 (%)
服务的npu算力使用情况。
npu显存利用率 (%)
服务的npu显存使用情况。
磁盘读取速率 (bit/min)
服务的磁盘读取速率。
磁盘写入速率 (bit/min)
服务的磁盘写入速率。
上行速率 (bit/min)
当前服务的出口方向网络流速。
下行速率 (bit/min)
当前服务的入口方向网络流速。
- “事件”:可以查看服务的事件信息。事件保存周期为1个月,1个月后自动清理数据。
- “日志”:可以搜索和查看服务日志。
- “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。
- 在“服务详情”页面上方,您可以按需进行如下操作。
- 查看服务的调用数据:单击“调用统计”,跳转至“服务调用详情”页面查看监控数据和调用失败明细相关信息。详细信息,请参见在maas查看在线推理的调用数据和监控指标。
- 停止/启动服务:具体操作,请参见停止/启动部署服务。
- 删除服务:具体操作,请参见删除部署服务。
- 调用服务:单击“调用说明”,按照页面提示进行调用。详细信息,请参见调用部署模型。
- 在线体验:单击“在线体验”,进行在线文本对话。详细信息,请参见maas在线体验。
相关操作
- 在ai开发过程中,需要对服务的生命周期进行管理,对已部署的模型服务进行优化、升级模型服务等,详细请参考。
- 在线体验模型请参考maas在线体验。
- api调用请参考调用部署模型。
- 如果模型服务部署失败,您可以参考modelarts studio(maas)模型服务部署失败,报错:job failed: real time create service failed进行定位。
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨