j9九游会登录/ 应用平台 appstage/ api参考/ / / 查询知识数据集列表(token认证)
更新时间:2025-08-06 gmt 08:00

查询知识数据集列表(token认证)-j9九游会登录

功能介绍

该接口用于查询知识数据集列表。

调用方法

请参见。

uri

get https://aiae.appstage.myhuaweicloud.com/v1/unidata/knowledge-base-datasets

表1 query参数

参数

是否必选

参数类型

描述

category

string

参数解释:

数据集范围类型。

约束限制:

不涉及。

取值范围:

枚举值:

  • private:用户创建数据集。

  • public:平台预置数据集。

默认取值:

不涉及。

offset

integer

参数解释:

偏移量。

约束限制:

不涉及。

取值范围:

正整数。

默认取值:

0。

limit

integer

参数解释:

分页每页的条目数量。

约束限制:

不涉及。

取值范围:

1-100的整数。

默认取值:

10。

keyword

string

参数解释:

查询关键字。

约束限制:

支持中英文、数字、下划线(_),1-50个字符。

取值范围:

不涉及。

默认取值:

不涉及。

status

array of strings

参数解释:

数据集状态。

约束限制:

不涉及。

取值范围:

枚举值:

  • creating:创建中。

  • disable:状态异常。

  • waiting_schedule:等待执行。

  • scheduling:执行中。

  • normal:正常。

  • schedule_failed:执行失败。

  • freeze冻结:cbc触发。

默认取值:

不涉及。

data_type

string

参数解释:

数据集类型。

约束限制:

不涉及。

取值范围:

枚举值:

  • text:文档。

  • image_to_text:图片-摘要。

  • video_to_text:视频-摘要。

  • image:图片。

默认取值:

不涉及。

tags

array of strings

参数解释:

标签列表。

约束限制:

支持中英文、数字、下划线(_),1-100个字符。

取值范围:

1-100

默认取值:

不涉及。

schedule_type

string

参数解释:

任务类型。

约束限制:

不涉及。

取值范围:

枚举值:

  • once:一次性任务。

  • schedule:周期性任务。

默认取值:

不涉及。

schedule_status

string

参数解释:

任务状态。

约束限制:

不涉及。

取值范围:

枚举值:

  • active:生效中。

  • pause:暂停中。

默认取值:

不涉及。

请求参数

表2 请求header参数

参数

是否必选

参数类型

描述

x-auth-token

string

参数解释:

用户token。通过调用iam服务获取用户token接口获取(响应消息头中x-subject-token的值)。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

响应参数

状态码:200

表3 响应body参数

参数

参数类型

描述

data

pageinfoknowledgedatasetdetail object

知识数据集详情列表。

表4 pageinfoknowledgedatasetdetail

参数

参数类型

描述

total

long

参数解释:

知识库总数。

取值范围:

不涉及。

list

array of knowledgedataset objects

参数解释:

知识数据集列表。

取值范围:

不涉及。

pagenum

integer

参数解释:

当前页。

取值范围:

不涉及。

pagesize

integer

参数解释:

每页的数量。

取值范围:

不涉及。

size

integer

参数解释:

当前页的数量。

取值范围:

不涉及。

startrow

long

参数解释:

当前页面第一个元素在数据库中的行号。

取值范围:

不涉及。

endrow

long

参数解释:

当前页面最后一个元素在数据库中的行号。

取值范围:

不涉及。

pages

integer

参数解释:

总页数。

取值范围:

不涉及。

prepage

integer

参数解释:

前一页。

取值范围:

不涉及。

nextpage

integer

参数解释:

后一页。

取值范围:

不涉及。

isfirstpage

boolean

参数解释:

是否为第一页。

取值范围:

不涉及。

islastpage

boolean

参数解释:

是否为最后一页。

取值范围:

不涉及。

haspreviouspage

boolean

参数解释:

是否有前一页。

取值范围:

不涉及。

hasnextpage

boolean

参数解释:

是否有下一页。

取值范围:

不涉及。

navigatepages

integer

参数解释:

导航页总数。

取值范围:

不涉及。

navigatepagenums

array of integers

参数解释:

所有导航页号。

取值范围:

不涉及。

navigatefirstpage

integer

参数解释:

导航页上一页。

取值范围:

不涉及。

navigatelastpage

integer

参数解释:

导航页下一页。

取值范围:

不涉及。

表5 knowledgedataset

参数

参数类型

描述

last_updated_date

string

参数解释:

最近更新时间。

取值范围:

格式为:yyyy-mm-dd hh:mm:ss,如2024-11-21 11:36:55。

last_updated_by_user_id

string

参数解释:

最近一次更新人id。

取值范围:

不涉及。

last_updated_by_user_name

string

参数解释:

最近一次更新人名称。

取值范围:

不涉及。

last_updated_by_nick_name

string

参数解释:

最新一次更新人昵称。

取值范围:

不涉及。

tenant_id

string

参数解释:

租户id。

取值范围:

不涉及。

tenant_name

string

参数解释:

租户名称。

取值范围:

不涉及。

dept_code

string

参数解释:

部门编码。

取值范围:

不涉及。

created_date

string

参数解释:

创建日期。

取值范围:

不涉及。

created_by_user_id

string

参数解释:

创建人id。

取值范围:

不涉及。

created_by_user_name

string

参数解释:

创建人名称。

取值范围:

不涉及。

created_by_nick_name

string

参数解释:

创建人昵称。

取值范围:

不涉及。

deleted

boolean

参数解释:

是否删除。

取值范围:

不涉及。

id

string

参数解释:

知识库id。

取值范围:

不涉及。

name

string

参数解释:

知识库名称。

取值范围:

不涉及。

description

string

参数解释:

知识库描述。

取值范围:

不涉及。

tags

array of strings

参数解释:

标签列表。

取值范围:

不涉及。

scope

string

参数解释:

知识数据集范围。

取值范围:

枚举值:

  • private:用户创建数据集。

  • public:平台预置数据集。

data_type

string

参数解释:

数据集类型。

取值范围:

枚举值:

  • text:文档。

  • image_to_text:图片-摘要。

  • video_to_text:视频-摘要。

  • image:图片。

preprocess_config

preprocessconfig object

参数解释:

数据集预处理配置。

约束限制:

data_type为image时不传。

取值范围:

不涉及。

ingestion_config

ingestionconfig object

参数解释:

数据集数据接入配置。

取值范围:

不涉及。

chunk_config

chunkconfig object

参数解释:

数据集切分配置。

取值范围:

data_type不为text不传。

schedule_config

scheduleconfig object

参数解释:

调度配置。

取值范围:

不涉及。

extraction_config

extractionconfig object

参数解释:

切片提取配置。

取值范围:

不涉及。

schedule_status

string

参数解释:

调度状态。

取值范围:

不涉及

status

string

参数解释:

数据集状态。

取值范围:

  • creating:创建中。

  • disable:状态异常。

  • waiting_schedule:等待执行。

  • scheduling:执行中。

  • normal:正常。

  • schedule_failed:执行失败。

  • freeze冻结:cbc触发。

表6 preprocessconfig

参数

参数类型

描述

cleaning_methods

array of strings

参数解释:

数据集清洗方法。

约束限制:

不涉及。

取值范围:

枚举值:

  • url_and_email:删除所有的url和电子邮件地址。

  • continuous_symbol:清除连续的空格,换行符和制表符。

  • invisible:清除不可见字符。

  • whitespace:规范化空格。

  • garble:清除乱码。

  • web_symbol:清除网页标识符。

  • emoji:清除表情。

默认取值:

不涉及。

pdf_preprocess_type

string

参数解释:

数据集pdf文件预处理类型。

约束限制:

仅data_type为text时支持传入。

取值范围:

枚举值:

  • extract_rich_media:提取富媒体,如表、图。

  • no_preprocess:不做处理。

默认取值:

不涉及。

rich_media_intelligent_match

string

参数解释:

数据集pdf预处理后,富媒体提取类型。

约束限制:

仅data_type为text时支持传入。

取值范围:

枚举值:

  • smart_match_image_table:智能提取,仅预处理为extract_rich_media支持。

  • no_match:不提取。

默认取值:

不涉及。

表7 ingestionconfig

参数

参数类型

描述

data_source

string

参数解释:

数据来源。

约束限制:

不涉及。

取值范围:

枚举值:

  • file_upload:文件上传。

  • obs_ingestion:obs接入。

默认取值:

不涉及。

obs_ingestion

obsingestion object

参数解释:

obs接入配置。

取值范围:

不涉及

file_types

array of strings

参数解释:

数据集支持的文件类型。

约束限制:

不涉及。

取值范围:

pdf、txt、csv、xlsx、docx、pptx、html、json、xml、jpg、jpeg、png、mp4、webm。

默认取值:

不涉及。

summary_configs

array of summaryconfig objects

参数解释:

摘要类型数据集摘要配置。

约束限制:

在data_type为image_to_txt或video_to_text时需传入,其它类型则不传。

取值范围:

不涉及。

默认取值:

不涉及。

表8 obsingestion

参数

参数类型

描述

obs_bucket_name

string

参数解释:

obs桶名。

约束限制:

不涉及。

取值范围:

长度[3, 63]。

默认取值:

不涉及。

obs_input_directory

string

参数解释:

obs接入目录路径。

约束限制:

不涉及。

取值范围:

obs接入路径与目录下文件名组合成的路径,最长不超过200。

默认取值:

不涉及。

表9 summaryconfig

参数

参数类型

描述

file_name

string

参数解释:

文件名。

约束限制:

需与上传文件名称一致。

取值范围:

不涉及。

默认取值:

不涉及。

summary

string

参数解释:

摘要。

约束限制:

不涉及。

取值范围:

长度[1, 600]。

默认取值:

不涉及。

表10 chunkconfig

参数

参数类型

描述

slicing_configs

mapslicingconfig>

参数解释:

数据集切分配置列表。

约束限制:

切分配置数量需要与文件类型数量保持一致。

取值范围:

范围[1, 30]。

默认取值:

不涉及。

表11 slicingconfig

参数

参数类型

描述

slicing_method

string

参数解释:

数据集切分方法。

约束限制:

不涉及。

取值范围:

枚举值:

  • auto_slicing:自动切分。

  • title:标题切分。

  • sentence:自定义切分。

  • json:json切分。

  • xml:xml切分。

除自动切分外,其它类型切分需传入对应切分配置。

默认取值:

不涉及。

sentence_slicing_config

sentenceslicingconfig object

参数解释:

自定义切分配置。

取值范围:

不涉及。

title_slicing_config

titleslicingconfig object

参数解释:

标题切分配置。

取值范围:

不涉及。

json_slicing_config

jsonslicingconfig object

参数解释:

json切分配置。

取值范围:

不涉及。

xml_slicing_config

xmlslicingconfig object

参数解释:

xml切分配置。

取值范围:

不涉及。

表12 sentenceslicingconfig

参数

参数类型

描述

slicing_strategy

string

参数解释:

文本切分策略。

约束限制:

不涉及。

取值范围:

枚举值:

  • recursive:递归切分。

  • equivalent:等价切分。

默认取值:

不涉及。

spec_symbols

array of strings

参数解释:

分段分隔符。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^? 且不允许为

默认取值:

不涉及。

chunk_size

integer

参数解释:

分段长度。

约束限制:

不涉及。

取值范围:

取值[1, 500]。

默认取值:

不涉及。

chunk_overlap

integer

参数解释:

分段重叠长度。

约束限制:

不涉及。

取值范围:

取值[0, 50]。

默认取值:

不涉及。

contain_separator

boolean

参数解释:

切片是否包含分隔符。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

表13 titleslicingconfig

参数

参数类型

描述

slicing_strategy

string

参数解释:

文本切分策略。

约束限制:

不涉及。

取值范围:

枚举值:

  • recursive:递归切分。

  • equivalent:等价切分。

默认取值:

不涉及。

title_level

string

参数解释:

标题层级深度。

约束限制:

不涉及。

取值范围:

h1、h2、h3、h4、h5。

默认取值:

不涉及。

title_saved_method

string

参数解释:

标题保存方式。

约束限制:

不涉及。

取值范围:

枚举值:

  • combination:多标题组合。

  • last:最后一级标题。

默认取值:

不涉及。

spec_symbols

array of strings

参数解释:

分段分隔符。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^? 且不允许为

默认取值:

不涉及。

chunk_size

integer

参数解释:

分段长度。

约束限制:

不涉及。

取值范围:

取值[1,500]。

默认取值:

不涉及。

chunk_overlap

integer

参数解释:

分段重叠长度。

约束限制:

不涉及。

取值范围:

取值[0,50]。

默认取值:

不涉及。

contain_separator

boolean

参数解释:

切片是否包含分隔符。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

表14 jsonslicingconfig

参数

参数类型

描述

levels_back

integer

参数解释:

输出层级。

约束限制:

不涉及。

取值范围:

取值[0,20]。

默认取值:

不涉及。

collapse_length

integer

参数解释:

递归最小长度。

约束限制:

不涉及。

取值范围:

取值[0,1000]。

默认取值:

不涉及。

表15 xmlslicingconfig

参数

参数类型

描述

tree_level_split

integer

参数解释:

遍历层级。

约束限制:

不涉及。

取值范围:

取值[0,20]。

默认取值:

不涉及。

表16 scheduleconfig

参数

参数类型

描述

schedule_type

string

参数解释:

调度类型。

约束限制:

data_source为file_upload时仅支持once。

取值范围:

枚举值:

  • once:一次性调度。

  • schedule:周期性调度。

默认取值:

不涉及。

scheduled_task_config

scheduledtaskconfig object

参数解释:

调度任务配置。

取值范围:

不涉及。

表17 scheduledtaskconfig

参数

参数类型

描述

cycle_type

string

参数解释:

定时任务周期类型。

约束限制:

不涉及。

取值范围:

枚举值:

  • day:按日更新。

  • week:按周更新。

默认取值:

不涉及。

run_time

string

参数解释:

定时任务执行时间。

约束限制:

不涉及。

取值范围:

格式为:hh:mm:ss,如18:30:00。

默认取值:

不涉及。

week_day

string

参数解释:

定时任务的星期。

约束限制:

不涉及。

取值范围:

枚举值:

  • sunday:星期天。

  • monday:星期一。

  • tuesday:星期二。

  • wednesday:星期三。

  • thursday:星期四。

  • friday:星期五。

  • saturday:星期六。

默认取值:

不涉及。

execute_immediately

boolean

参数解释:

定时任务是否立即执行一次。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

version_refresh_mode

string

参数解释:

版本刷新模式。

约束限制:

不涉及。

取值范围:

枚举值:

  • one_version:每次执行覆盖原版本。

  • multi_version:每次执行生成新版本。

默认取值:

不涉及。

表18 extractionconfig

参数

参数类型

描述

extraction_example

string

参数解释:

切片提取样例。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

extraction_mode

string

参数解释:

切片提取模式。

约束限制:

不涉及。

取值范围:

枚举:

  • rule_extraction:规则提取。

  • smart_extraction:智能提取。

默认取值:

不涉及。

rule_extraction_configs

array of ruleextractionconfig objects

参数解释:

规则提取配置列表。

约束限制:

extraction_mode为rule_extraction需传入,为smart_extraction不传。

取值范围:

规则提取配置数量不超过10个,提取字段名称长度[1,20],不允许重复。

默认取值:

不涉及。

表19 ruleextractionconfig

参数

参数类型

描述

field_name

string

参数解释:

提取字段名称。

约束限制:

不涉及。

取值范围:

字段数量不超过10个,其中名称长度[1,20],不允许重复,仅可包含字母数字下划线,并且以字母开头;

不允许为以下名称(大小写不敏感)【"file_name", "file_id", "path", "order", "document", "base64","chunk",不能以ki_、ko_开头】。

默认取值:

不涉及。

extraction_rule

string

参数解释:

提取规则。

约束限制:

不涉及。

取值范围:

枚举值:

  • separator:分隔符提取。

  • template:模板提取。

默认取值:

不涉及。

separator_extraction

separatorextractionconfig object

参数解释:

分隔符提取配置。

取值范围:

不涉及。

template_extraction

headandtailextractiontemplate object

参数解释:

模板提取配置。

取值范围:

不涉及。

表20 separatorextractionconfig

参数

参数类型

描述

separator

string

参数解释:

分隔符。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^? 且不允许为

默认取值:

不涉及。

extraction_code

integer

参数解释:

提取分段序号。

约束限制:

不涉及。

取值范围:

范围[1,100],提取序号大于可提取分段数量时字段内容为空串。

默认取值:

不涉及。

contain_separator

boolean

参数解释:

提取分段是否包含分隔符。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

表21 headandtailextractiontemplate

参数

参数类型

描述

start_with

string

参数解释:

提取分段开头。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^? 且不允许为

默认取值:

不涉及。

contain_start

boolean

参数解释:

提取分段是否包含开头。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

end_with

string

参数解释:

提取分段结尾。

约束限制:

不涉及。

取值范围:

长度[1,20],除\n外,不允许包含以下字符 *./$^? 且不允许为

默认取值:

不涉及。

contain_end

boolean

参数解释:

提取分段是否包含结尾。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

extraction_code

integer

参数解释:

提取分段序号。

约束限制:

不涉及。

取值范围:

范围[1,100],提取序号大于可提取分段数量时字段内容为空串。

默认取值:

不涉及。

状态码:400

表22 响应body参数

参数

参数类型

描述

error_code

string

参数解释:

异常错误码。

取值范围:

不涉及。

error_msg

string

参数解释:

异常错误信息。

取值范围:

不涉及。

请求示例

响应示例

状态码:200

查询知识数据集成功响应参数。

{
  "data" : {
    "total" : 1,
    "list" : [ {
      "last_updated_date" : "2025-07-21t01:22:00.000 00:00",
      "last_updated_by_user_id" : "f0e1c67f3ee445cb938fb86bfbdf2255",
      "last_updated_by_user_name" : "developer",
      "last_updated_by_nick_name" : "developer",
      "tenant_id" : "1015192394",
      "tenant_name" : "developer",
      "dept_code" : "1015192394",
      "created_date" : "2025-07-21t01:22:00.000 00:00",
      "created_by_user_id" : "f0e1c67f3ee445cb938fb86bfbdf2255",
      "created_by_user_name" : "developer",
      "created_by_nick_name" : "developer",
      "deleted" : false,
      "id" : "83be02f0-0b99-419b-81e4-83a9c0676a0c",
      "name" : "测试0716_003",
      "description" : "测试",
      "tags" : [ ],
      "scope" : "private",
      "data_type" : "text",
      "company_id" : null,
      "preprocess_config" : {
        "cleaning_methods" : [ "normalizewhitespace" ],
        "pdf_preprocess_type" : "no_preprocess",
        "rich_media_intelligent_match" : "no_match"
      },
      "ingestion_config" : {
        "data_source" : "file_upload",
        "obs_ingestion" : null,
        "file_types" : [ "txt" ],
        "summary_configs" : null
      },
      "chunk_config" : {
        "slicing_configs" : {
          "txt" : {
            "slicing_method" : "autoslicing"
          }
        }
      },
      "schedule_config" : {
        "schedule_type" : "once",
        "scheduled_task_config" : {
          "cycle_type" : null,
          "run_time" : null,
          "week_day" : null,
          "execute_immediately" : null,
          "version_refresh_mode" : null
        }
      },
      "extraction_config" : null,
      "schedule_status" : null,
      "status" : "normal",
      "on_shelf_status" : "off_shelf",
      "source_asset_id" : null
    } ],
    "pagenum" : 0,
    "pagesize" : 0,
    "size" : 3,
    "startrow" : 1,
    "endrow" : 3,
    "pages" : 0,
    "prepage" : 0,
    "nextpage" : 0,
    "isfirstpage" : false,
    "islastpage" : false,
    "haspreviouspage" : false,
    "hasnextpage" : false,
    "navigatepages" : 0,
    "navigatepagenums" : null,
    "navigatefirstpage" : 0,
    "navigatelastpage" : 0
  }
}

状态码

状态码

描述

200

查询知识数据集成功响应参数。

400

请求错误。

错误码

请参见错误码

相关文档

网站地图