j9九游会登录/ 大模型即服务平台 maas/ 用户指南/ / / 在maas查看在线推理的调用数据和监控指标

更新时间：2026-02-09 gmt 08:00

在maas查看在线推理的调用数据和监控指标-j9九游会登录

maas提供调用统计功能，支持查看我的服务、预置服务、自定义接入点在指定时间段内的调用数据和监控指标详情，包括总调用次数、总调用失败次数、总调用tokens数、输入tokens数、输出tokens数、端到端时延等信息，并以分钟为最小时间粒度展示数据趋势，帮助您了解服务的使用情况和性能变化，从而更有效地进行模型评估、问题定位、故障排除和性能优化。

资源消耗监控：跟踪模型服务的tokens使用量，避免超额使用。
成本分析：根据输入/输出tokens的分布，优化调用策略以降低成本。
性能指标：支持查看模型的多种常见性能指标，进行性能优化。
服务优化：通过分析调用频率与tokens消耗的关系，调整服务配置或扩容计划。
异常排查：快速定位特定时间段的调用量激增、异常消耗和调用失败问题。

约束限制

统计范围：调用统计数据仅统计通过api接口调用和在线体验产生的数据。
数据更新延迟：调用数据统计可能存在1~2小时的延迟，数据不能实时反映最新调用情况。
时间范围限制：
- 支持预设时间段：今天、昨天、近3天、近7天、近14天。
- 自定义时间段：最长不超过30天。

计费说明

调用统计功能本身不收费。
在maas进行模型调用时，可能涉及到相关资源收费。具体信息，请参见在线推理计费项。

前提条件

预置服务或我的服务满足以下任一条件：

预置服务：已开通预置服务并产生调用记录。具体操作，请参见开通预置服务。
自定义接入点：已创建自定义接入点并产生调用记录。具体操作，请参见创建自定义接入点。
我的服务：已在“我的服务”页面部署模型服务并产生调用记录。具体操作，请参见部署模型服务。

查看服务调用的监控数据

在“调用统计”页面，您可以查看整体服务或单个服务通过api接口调用产生的数据详情。

登录，在顶部导航栏中选择目标区域。
在左侧导航栏，选择“管理与统计 > 调用统计”。

在“调用统计”页面的“在线推理”页签，按需选择“时间范围”、“服务类型”、“调用方式”和“ip地址”。

表1 调用统计筛选参数说明
参数		说明
时间范围		支持按照今天、昨天、近三天、近7天、近14天、自定义时间段统计服务的调用数据。时间范围与时间精度过滤规则：时间范围1~2天：支持按分钟、小时进行统计。时间范围为3~7天：支持按小时、天进行统计。时间范围为7天以上：支持按天进行统计。
服务类型	我的服务	在“我的服务”页面部署的模型服务。更多信息，请参见部署模型服务。
	预置服务	在“预置服务”页签开通的模型服务。更多信息，请参见开通预置服务。
	自定义接入点	在“自定义接入点”页签创建的接入点服务。更多信息，请参见创建自定义接入点。
调用方式		支持api key调用和在线体验。 api key调用：调用maas部署的模型服务时，使用api key进行鉴权认证，默认为“全部api key”，您也可以按需勾选api key。更多信息，请参见部署模型服务和管理api key。在线体验：在线体验模型服务产生的调用数据。更多信息，请参见maas在线体验。
ip地址		已产生调用量的客户端源ip地址（公网ip），来源于apig日志中的http_x_forwarded_for字段值。当该字段包含多个值时，系统将采用第一个值；当字段值为-时，显示为空字符串。 ip地址默认显示为“全部”，您也可以按需勾选ip地址。

在“在线推理”页签，查看整体服务的总调用次数、总调用失败次数、总调用tokens数等信息。

监控指标默认保留三位小数。

表2 整体服务的参数说明
参数	说明
总调用次数	服务的调用总次数。
总调用失败次数	服务的调用失败总次数，即4xx和5xx错误的总和。
总调用tokens数	服务的调用总tokens数。
输入tokens数	服务的调用输入tokens数。
输出tokens数	服务的调用输出tokens数。

在“在线推理”页签的“服务列表”区域，查看单个服务的调用次数、调用失败次数、调用失败率等信息。

服务列表只显示已开通的预置服务、已创建的自定义接入点或已部署成功的我的服务。

表3 服务列表参数说明
参数	说明
服务名称/版本	调用服务的名称或版本。仅预置j9九游会登录的服务支持服务版本。您可以单击图标，查看服务各版本的统计信息。
调用次数	服务的调用次数。
调用失败次数	服务调用失败的次数。
调用失败率（%）	调用失败次数占调用总次数的比例。
调用总tokens数（千tokens）	服务调用的总tokens数。
输入tokens数（千tokens）	输入的总tokens数。
输出tokens数（千tokens）	输出的总tokens数。
端到端时延 (ms)	单位时间内成功请求的端到端时延。
首token时延（ms）	从接收请求到生成第一个输出token所需的时间。
增量token时延（ms）	生成后续每个输出token所需的时间间隔。
平均生成时长（s）	平均生成每图片/视频实际花费的时间。

如果指标显示为“-”，表示服务不涉及该指标。“服务调用详情”的“监控”页签，仅显示服务涉及的指标。

在“在线推理”页签的“服务列表”区域，单击目标服务右侧的“查看监控”，在“服务调用详情”页面的“监控”或“调用失败明细”页签查看调用相关信息。

在页面上方，您可以单击服务名称进行切换，也可以按需选择服务的版本（仅预置j9九游会登录的服务支持服务版本）。服务切换只显示已开通的预置服务、已创建的自定义接入点或已部署成功的我的服务。

“监控”页签：查看该服务的调用次数、调用失败率、输入tokens大小、输出tokens大小、端到端时延等变化趋势。

表4 监控参数说明
参数		说明
筛选项	时间范围	默认为在“在线推理”页签选择的时间范围，您也可以按需修改。
	时间精度	时间精度与选择的时间范围有关，过滤规则如下：时间范围1~2天：支持按分钟、小时进行统计。时间范围为3~7天：支持按小时、天进行统计。时间范围为7天以上：支持按天进行统计。
	调用方式	默认为在“在线推理”页签选择的调用方式，您也可以按需修改。
	ip地址	默认为在“在线推理”页签选择的ip地址，您也可以按需修改。
监控指标	调用次数（次）	服务调用、成功、失败的次数。
	调用失败率（%）	调用失败次数占调用总次数的比例。
	错误发生次数	各错误码的发生次数。
	调用tokens量（千tokens）	单位时间内服务的调用总tokens数。
	端到端时延 (ms)	单位时间内成功请求的端到端时延。 avg：端到端时延的平均值。 max：端到端时延的最大值。 p50：50%的端到端时延低于该值。 p80：80%的端到端时延低于该值。 p90：90%的端到端时延低于该值。 p99：99%的端到端时延低于该值。
	首token时延（ms）	从接收请求到生成第一个输出token所需的时间，仅统计流式响应。受限于模型版本约束，部分模型版本在非流式场景下不支持该指标展示，请将该服务的模型升级至最新版本后查看。关于升级模型服务的操作，请参见升级模型服务。 avg：首token时延的平均值。 max：首token时延的最大值。 p50：50%的首token时延低于该值。 p80：80%的首token时延低于该值。 p90：90%的首token时延低于该值。 p99：99%的首token时延低于该值。
	增量token时延（ms）	生成后续每个输出token所需的时间间隔，仅统计流式响应。受限于模型版本约束，部分模型版本在非流式场景下不支持该指标展示，请将该服务的模型升级至最新版本后查看。avg：增量token时延的平均值。关于升级模型服务的操作，请参见升级模型服务。 max：增量token时延的最大值。 p50：50%的增量token时延低于该值。 p80：80%的增量token时延低于该值。 p90：90%的增量token时延低于该值。 p99：99%的增量token时延低于该值。
	输入tokens大小（千tokens）	输入token长度。 avg：输入token长度的平均值。 max：输入token长度的最大值。 p50：50%的输入token长度低于该值。 p80：80%的输入token长度低于该值。 p90：90%的输入token长度低于该值。 p99：99%的输入token长度低于该值。
	输出tokens大小（千tokens）	输出token长度。 avg：输出token长度的平均值。 max：输出token长度的最大值。 p50：50%的输出token长度低于该值。 p80：80%的输出token长度低于该值。 p90：90%的输出token长度低于该值。 p99：99%的输出token长度低于该值。
	qps（次/秒）	qps（queries per second）表示每秒查询数。当“时间精度”设置为“按分钟”时，实际显示的是该分钟内的qps峰值。
	rpm（次/分钟）	每分钟处理的请求数。
	tpm（千tokens/分钟）	每分钟处理的tokens数（输入输出）。
	平均生成时长（s）	平均生成每图片/视频实际花费的时间。

“调用失败明细”页签：查看调用失败的相关信息，如错误码、发生次数、错误信息等，进行问题定位和修复等。

表5 调用失败明细参数说明
参数		说明
筛选项	时间范围	默认为在“在线推理”页签选择的时间范围，您也可以按需修改。
	调用方式	默认为在“在线推理”页签选择的调用方式，您也可以按需修改。
	ip地址	默认为在“在线推理”页签选择的ip地址，您也可以按需修改。
错误信息	错误码	报错的错误码，包含4xx和5xx。单击4xx或5xx前的图标，可查看详细的错误码、发生次数、占比和错误信息。
	发生次数	4xx和5xx错误发生的次数。
	占比（%）	该错误码发生次数占全部错误次数的比例。
	错误信息	4xx和5xx错误的描述信息。

导出服务调用的监控数据

“服务调用详情”页面提供监控数据导出功能，支持导出所有或指定监控指标折线图对应的数据。

在“调用统计”页面的“在线推理”页签，在“服务列表”区域单击目标服务右侧的“查看监控”。
在“服务调用详情”页面，按需选择“时间范围”、“服务类型”、“调用方式”和“ip地址”。
关于参数的说明，请参见表4。
在页面右上角，单击“导出”。
在导出监控数据对话框，按需选择监控指标（默认为全选），然后单击“确定”。
导出的文件为.xlsx格式，每个页签对应一个监控指标折线图数据，由时间列和对应折线图的指标列组成。

常见问题

为什么调用了模型，但是查不到消耗tokens数等信息？
由于数据更新存在延迟，消耗tokens数等统计数据的更新延迟为小时级别，请耐心等待后再查询。
输入和输出tokens的统计逻辑是什么？
- 输入tokens：用户请求中的文本经过分词后的token总数。
- 输出tokens：模型响应结果的token总数，包含终止符。

父主题：

下一篇：在ces查看maas调用数据和监控指标

意见反馈

文档内容是否对您有帮助？

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨