j9九游会登录/ 大模型即服务平台 maas/ 模型部署/ maas部署模型服务

更新时间：2026-02-09 gmt 08:00

maas部署模型服务-j9九游会登录

在modelarts studio（maas）大模型即服务平台可以将模型广场的预置模型部署为我的服务，便于在“模型体验”或其他业务环境中调用。

图1 部署模型服务使用流程

计费说明

在maas进行模型推理时，会产生计算资源和存储资源等费用。计算资源为运行模型服务的费用。存储资源包括数据存储到obs的计费。使用消息通知服务会产生相关服务费用。详细计费说明请参考计算资源计费项。

约束限制

modelarts studio大模型即服务平台的模型推理的最大输入输出长度如下表所示。

不同地域支持的模型可能不同，请以“部署模型服务”页面实际显示的模型为准。

表1 模型默认最大输入输出长度
模型	默认最大输入输出长度（token）
qwen2.5-72b-8k deepseek-v3-8k deepseek-r1-distill-qwen-14b-8k deepseek-r1-distill-qwen-32b-8k	8192
deepseek-r1-16k deepseek-v3-16k qwq-32b-16k	16384
qwq-32b-32k qwen2.5-7b-32k qwen2.5-32b-32k qwen2.5-72b-32k qwen2.5-vl-7b-32k qwen2.5-vl-72b-32k qwen3-4b-32k qwen3-8b-32k qwen3-14b-32k qwen3-32b-32k deepseek-r1-32k deepseek-r1-32k-0528 deepseek-r1-distill-qwen-32b-32k deepseek-v3-32k deepseek-coder-33b-32k	32768
qwen3-235b-a22b-64k qwen3-32b-64k deepseek-v3-64k kimi-k2	65536
deepseek-v3.1-128k qwen3-30b-a3b-128k	131072
其他模型	4096

公共资源池：如果不支持公共资源池，“部署模型服务”页面的“公共资源池”按钮会置灰，鼠标悬停时，会提示：该模型版本暂不支持公共资源池部署；如果专属资源池不匹配，勾选按钮会置灰，鼠标悬停时，会出现相关提示，请按照提示进行相关操作。
专属资源池：驱动版本请以“部署模型服务”页面的提示为准。如果专属资源池不匹配，勾选按钮会置灰，鼠标悬停时，会出现相关提示，请按照提示进行相关操作。

前提条件

已准备公共资源池或专属资源池，详情请参见准备maas资源。

在“我的模型”页面存在已创建成功的模型或直接使用模型广场的模型。

部署模型服务

登录，在顶部导航栏中选择目标区域。
在左侧导航栏，选择“模型推理 > 在线推理”进入服务列表。

在“在线推理”页面，单击“我的服务”页签，在右上角单击“部署模型服务”进入部署页面，完成创建配置。

图2 创建配置

表2 部署模型服务参数说明
参数		说明
服务设置	服务名称	自定义部署模型服务的名称。支持1~64位，以中文、大小写字母开头，只包含中文、大小写字母、数字、中划线、下划线的名称。
服务设置	描述	自定义部署模型服务的简介。支持256字符。
模型设置	部署模型	单击“请选择模型”，选择“模型广场”或“我的模型”下面的模型。
资源设置	资源池类型	资源池分为公共资源池与专属资源池。公共资源池供由所有租户共享使用。如果支持公共资源池，但是没开白名单，“资源池类型”选择“公共资源池”时，下方会出现提示：公共资源池暂未完全公开，如需申请使用，请联系与您对接的销售人员或拨打4000-955-988获得支持，您也可以在线提交。如果不支持公共资源池，“公共资源池”按钮会置灰，鼠标悬停时，会提示：该模型版本暂不支持公共资源池部署；如果专属资源池不匹配，勾选按钮会置灰，鼠标悬停时，会出现相关提示，请按照提示进行相关操作。专属资源池需单独创建，不与其他租户共享。
	实例规格	选择实例规格，规格中描述了服务器类型、型号等信息。仅显示模型支持的资源规格。
	实例数	设置服务器个数。
资源设置	流量限制（qps）	设置待部署模型的流量限制qps。单位：次/秒说明：在部署过程中出现错误码“modelarts.81101”，且错误码信息为“too many requests, the rate limit is %s times per second.”，表示请求量超过qps限制，建议等待限流结束后再重启服务。
更多选项	内容审核	选择是否打开内容审核，默认启用。开关打开（默认打开），内容审核可以阻止在线推理中的输入输出中出现不合规的内容，但可能会对接口性能产生较大影响。开关关闭，停用内容审核服务，将不会审核在线推理中的输入输出，模型服务可能会有违规风险，请谨慎关闭。关闭“内容审核”开关，需要在弹窗中确认是否停用内容审核服务，勾选后，单击“确定”关闭。
	事件通知	选择是否打开“事件通知”开关。开关关闭（默认关闭）：表示不启用消息通知服务。开关打开：表示订阅消息通知服务，当任务发生特定事件（如任务状态变化或疑似卡死）时会发送通知。此时必须配置“主题名”和“事件”。 “主题名”：事件通知的主题名称。单击“创建主题”，前往消息通知服务中创建主题。需要为消息通知服务中创建的主题添加订阅，当订阅状态为“已确认”后，方可收到事件通知。订阅主题的详细操作请参见添加订阅。 “事件”：选择要订阅的事件类型。例如“运行中”、“已终止”、“运行失败”等。说明：使用消息通知服务会产生相关服务费用，详细信息请参见计费说明。
	自动停止	设定服务在运行指定时间后自动停止。开关打开：表示启用自动停止功能，此时必须配置自动停止时间，支持设置为“1小时”、“2小时”、“4小时”、“6小时”或“自定义”。启用该参数并设置时间后，运行时长到期后将会自动终止服务，准备排队等状态不扣除运行时长。开关关闭（默认关闭）：表示服务将一直运行。

参数配置完成后，单击“提交”。
“资源池类型”选择“公共资源池”时，会出现“计费提醒”对话框，请您仔细阅读预估费用信息，然后单击“确定”，创建部署任务。模型部署会基于资源占用时长进行计费。服务状态为运行中时会产生费用，最终实际费用以账单为准。

在“我的服务”列表中，当模型部署服务的“状态”变成“运行中”时，表示模型部署完成。

图3 模型服务部署成功

资源池类型为“公共资源池”时，模型部署会基于资源占用时长进行计费。

资源池类型为“专属资源池”时，专属资源池的费用已在购买时支付，部署服务不再收费。
模型部署完成后，可以进行在线体验或api调用。在线体验请见maas在线体验。调用部署模型请见调用部署模型。
图4 相关操作

查看部署服务信息

登录，在顶部导航栏中选择目标区域。
在左侧导航栏，选择“模型推理 > 在线推理”页面，然后单击“我的服务”页签。

在“我的服务”页签，单击服务名称，进入部署模型服务详情页面，可以查看服务信息。

“详情”：可以查看服务的基本信息，包括服务、模型、资源等设置信息。
图5 详情页签

“资源监控”：可以查看服务资源监控指标相关信息。

图6 资源监控页签

表3 资源监控参数说明
参数	说明
时间范围	支持按照近1小时、近3小时、近12小时、近24小时、近7天、自定义时间段统计服务的资源使用情况。自定义时间支持最多查看30天的数据。
cpu使用率 (%)	服务的cpu使用情况。
内存使用率 (%)	服务的内存使用情况。
npu算力使用率 (%)	服务的npu算力使用情况。
npu显存利用率 (%)	服务的npu显存使用情况。
磁盘读取速率 (bit/min)	服务的磁盘读取速率。
磁盘写入速率 (bit/min)	服务的磁盘写入速率。
上行速率 (bit/min)	当前服务的出口方向网络流速。
下行速率 (bit/min)	当前服务的入口方向网络流速。

“事件”：可以查看服务的事件信息。事件保存周期为1个月，1个月后自动清理数据。
“日志”：可以搜索和查看服务日志。

在“服务详情”页面上方，您可以按需进行如下操作。
- 查看服务的调用数据：单击“调用统计”，跳转至“服务调用详情”页面查看监控数据和调用失败明细相关信息。详细信息，请参见在maas查看在线推理的调用数据和监控指标。
- 停止/启动服务：具体操作，请参见停止/启动部署服务。
- 删除服务：具体操作，请参见删除部署服务。
- 调用服务：单击“调用说明”，按照页面提示进行调用。详细信息，请参见调用部署模型。
- 在线体验：单击“在线体验”，进行在线文本对话。详细信息，请参见maas在线体验。

意见反馈

文档内容是否对您有帮助？

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨