在maas查看在线推理的调用数据和监控指标-j9九游会登录
maas提供调用统计功能,支持查看我的服务、预置服务、自定义接入点在指定时间段内的调用数据和监控指标详情,包括总调用次数、总调用失败次数、总调用tokens数、输入tokens数、输出tokens数、端到端时延等信息,并以分钟为最小时间粒度展示数据趋势,帮助您了解服务的使用情况和性能变化,从而更有效地进行模型评估、问题定位、故障排除和性能优化。
- 资源消耗监控:跟踪模型服务的tokens使用量,避免超额使用。
- 成本分析:根据输入/输出tokens的分布,优化调用策略以降低成本。
- 性能指标:支持查看模型的多种常见性能指标,进行性能优化。
- 服务优化:通过分析调用频率与tokens消耗的关系,调整服务配置或扩容计划。
- 异常排查:快速定位特定时间段的调用量激增、异常消耗和调用失败问题。
约束限制
- 统计范围:调用统计数据仅统计通过api接口调用和在线体验产生的数据。
- 数据更新延迟:调用数据统计可能存在1~2小时的延迟,数据不能实时反映最新调用情况。
- 时间范围限制:
- 支持预设时间段:今天、昨天、近3天、近7天、近14天。
- 自定义时间段:最长不超过30天。
计费说明
- 调用统计功能本身不收费。
- 在maas进行模型调用时,可能涉及到相关资源收费。具体信息,请参见在线推理计费项。
前提条件
预置服务或我的服务满足以下任一条件:
查看服务调用的监控数据
在“调用统计”页面,您可以查看整体服务或单个服务通过api接口调用产生的数据详情。
- 登录,在顶部导航栏中选择目标区域。
- 在左侧导航栏,选择。
- 在“调用统计”页面的“在线推理”页签,按需选择“时间范围”、“服务类型”、“调用方式”和“ip地址”。
表1 调用统计筛选参数说明 参数
说明
时间范围
支持按照今天、昨天、近三天、近7天、近14天、自定义时间段统计服务的调用数据。
时间范围与时间精度过滤规则:- 时间范围1~2天:支持按分钟、小时进行统计。
- 时间范围为3~7天:支持按小时、天进行统计。
- 时间范围为7天以上:支持按天进行统计。
服务类型
我的服务
在“我的服务”页面部署的模型服务。更多信息,请参见部署模型服务。
预置服务
在“预置服务”页签开通的模型服务。更多信息,请参见开通预置服务。
自定义接入点
在“自定义接入点”页签创建的接入点服务。更多信息,请参见创建自定义接入点。
调用方式
支持api key调用和在线体验。
ip地址
已产生调用量的客户端源ip地址(公网ip),来源于apig日志中的http_x_forwarded_for字段值。当该字段包含多个值时,系统将采用第一个值;当字段值为-时,显示为空字符串。
ip地址默认显示为“全部”,您也可以按需勾选ip地址。
- 在“在线推理”页签,查看整体服务的总调用次数、总调用失败次数、总调用tokens数等信息。
监控指标默认保留三位小数。
表2 整体服务的参数说明 参数
说明
总调用次数
服务的调用总次数。
总调用失败次数
服务的调用失败总次数,即4xx和5xx错误的总和。
总调用tokens数
服务的调用总tokens数。
输入tokens数
服务的调用输入tokens数。
输出tokens数
服务的调用输出tokens数。
- 在“在线推理”页签的“服务列表”区域,查看单个服务的调用次数、调用失败次数、调用失败率等信息。
服务列表只显示已开通的预置服务、已创建的自定义接入点或已部署成功的我的服务。
表3 服务列表参数说明 参数
说明
服务名称/版本
调用服务的名称或版本。
仅预置j9九游会登录的服务支持服务版本。您可以单击
图标,查看服务各版本的统计信息。调用次数
服务的调用次数。
调用失败次数
服务调用失败的次数。
调用失败率(%)
调用失败次数占调用总次数的比例。
调用总tokens数(千tokens)
服务调用的总tokens数。
输入tokens数(千tokens)
输入的总tokens数。
输出tokens数(千tokens)
输出的总tokens数。
端到端时延 (ms)
单位时间内成功请求的端到端时延。
首token时延(ms)
从接收请求到生成第一个输出token所需的时间。
增量token时延(ms)
生成后续每个输出token所需的时间间隔。
平均生成时长(s)
平均生成每图片/视频实际花费的时间。
如果指标显示为“-”,表示服务不涉及该指标。“服务调用详情”的“监控”页签,仅显示服务涉及的指标。
- 在“在线推理”页签的“服务列表”区域,单击目标服务右侧的“查看监控”,在“服务调用详情”页面的“监控”或“调用失败明细”页签查看调用相关信息。
在页面上方,您可以单击服务名称进行切换,也可以按需选择服务的版本(仅预置j9九游会登录的服务支持服务版本)。服务切换只显示已开通的预置服务、已创建的自定义接入点或已部署成功的我的服务。
- “监控”页签:查看该服务的调用次数、调用失败率、输入tokens大小、输出tokens大小、端到端时延等变化趋势。
表4 监控参数说明 参数
说明
筛选项
时间范围
默认为在“在线推理”页签选择的时间范围,您也可以按需修改。
时间精度
时间精度与选择的时间范围有关,过滤规则如下:
- 时间范围1~2天:支持按分钟、小时进行统计。
- 时间范围为3~7天:支持按小时、天进行统计。
- 时间范围为7天以上:支持按天进行统计。
调用方式
默认为在“在线推理”页签选择的调用方式,您也可以按需修改。
ip地址
默认为在“在线推理”页签选择的ip地址,您也可以按需修改。
监控指标
调用次数(次)
服务调用、成功、失败的次数。
调用失败率(%)
调用失败次数占调用总次数的比例。
错误发生次数
各错误码的发生次数。
调用tokens量(千tokens)
单位时间内服务的调用总tokens数。
端到端时延 (ms)
单位时间内成功请求的端到端时延。
- avg:端到端时延的平均值。
- max:端到端时延的最大值。
- p50:50%的端到端时延低于该值。
- p80:80%的端到端时延低于该值。
- p90:90%的端到端时延低于该值。
- p99:99%的端到端时延低于该值。
首token时延(ms)
从接收请求到生成第一个输出token所需的时间,仅统计流式响应。受限于模型版本约束,部分模型版本在非流式场景下不支持该指标展示,请将该服务的模型升级至最新版本后查看。关于升级模型服务的操作,请参见升级模型服务。
- avg:首token时延的平均值。
- max:首token时延的最大值。
- p50:50%的首token时延低于该值。
- p80:80%的首token时延低于该值。
- p90:90%的首token时延低于该值。
- p99:99%的首token时延低于该值。
增量token时延(ms)
生成后续每个输出token所需的时间间隔,仅统计流式响应。受限于模型版本约束,部分模型版本在非流式场景下不支持该指标展示,请将该服务的模型升级至最新版本后查看。avg:增量token时延的平均值。关于升级模型服务的操作,请参见升级模型服务。
- max:增量token时延的最大值。
- p50:50%的增量token时延低于该值。
- p80:80%的增量token时延低于该值。
- p90:90%的增量token时延低于该值。
- p99:99%的增量token时延低于该值。
输入tokens大小(千tokens)
输入token长度。
- avg:输入token长度的平均值。
- max:输入token长度的最大值。
- p50:50%的输入token长度低于该值。
- p80:80%的输入token长度低于该值。
- p90:90%的输入token长度低于该值。
- p99:99%的输入token长度低于该值。
输出tokens大小(千tokens)
输出token长度。
- avg:输出token长度的平均值。
- max:输出token长度的最大值。
- p50:50%的输出token长度低于该值。
- p80:80%的输出token长度低于该值。
- p90:90%的输出token长度低于该值。
- p99:99%的输出token长度低于该值。
qps(次/秒)
qps(queries per second)表示每秒查询数。当“时间精度”设置为“按分钟”时,实际显示的是该分钟内的qps峰值。
rpm(次/分钟)
每分钟处理的请求数。
tpm(千tokens/分钟)
每分钟处理的tokens数(输入 输出)。
平均生成时长(s)
平均生成每图片/视频实际花费的时间。
- “调用失败明细”页签:查看调用失败的相关信息,如错误码、发生次数、错误信息等,进行问题定位和修复等。
表5 调用失败明细参数说明 参数
说明
筛选项
时间范围
默认为在“在线推理”页签选择的时间范围,您也可以按需修改。
调用方式
默认为在“在线推理”页签选择的调用方式,您也可以按需修改。
ip地址
默认为在“在线推理”页签选择的ip地址,您也可以按需修改。
错误信息
错误码
报错的错误码,包含4xx和5xx。单击4xx或5xx前的
图标,可查看详细的错误码、发生次数、占比和错误信息。发生次数
4xx和5xx错误发生的次数。
占比(%)
该错误码发生次数占全部错误次数的比例。
错误信息
4xx和5xx错误的描述信息。
- “监控”页签:查看该服务的调用次数、调用失败率、输入tokens大小、输出tokens大小、端到端时延等变化趋势。
导出服务调用的监控数据
“服务调用详情”页面提供监控数据导出功能,支持导出所有或指定监控指标折线图对应的数据。
- 在“调用统计”页面的“在线推理”页签,在“服务列表”区域单击目标服务右侧的“查看监控”。
- 在“服务调用详情”页面,按需选择“时间范围”、“服务类型”、“调用方式”和“ip地址”。
关于参数的说明,请参见表4。
- 在页面右上角,单击“导出”。
- 在导出监控数据对话框,按需选择监控指标(默认为全选),然后单击“确定”。
导出的文件为.xlsx格式,每个页签对应一个监控指标折线图数据,由时间列和对应折线图的指标列组成。
常见问题
- 为什么调用了模型,但是查不到消耗tokens数等信息?
由于数据更新存在延迟,消耗tokens数等统计数据的更新延迟为小时级别,请耐心等待后再查询。
- 输入和输出tokens的统计逻辑是什么?
- 输入tokens:用户请求中的文本经过分词后的token总数。
- 输出tokens:模型响应结果的token总数,包含终止符。
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨