j9九游会登录/ 应用平台 appstage/ api参考/ / 知识数据集请求参数说明
更新时间:2025-01-20 gmt 08:00

知识数据集请求参数说明-j9九游会登录

createknowledgedatasetreq

创建知识数据集的data_set参数具有特定结构,需要按照以下实体进行构造后转成json。

表1 请求body参数

参数

是否必选

参数类型

描述

name

string

参数解释:

数据集名称。

约束限制:

不涉及。

取值范围:

长度2-50个字符,支持中英文、数字、下划线(_),以中英文、数字开头。

默认取值:

不涉及。

description

string

参数解释:

数据集描述。

约束限制:

不涉及。

取值范围:

长度0-255个字符,只能包含英文、中文、数字、下划线、中划线、空格及,.?:;"':;“”’‘,。?、()()/等符号。

默认取值:

不涉及。

tags

array of strings

参数解释:

数据集标签。

约束限制:

不涉及。

取值范围:

传入数量0~5个,需为以下标签:航空、语音转文本、电力、文本、城市数字化、文案生成、水运、1m-10m、nl2sql、全功能、公路交通、银行业务、制造、数字基础设施、高质量数据(训练)、英文、流媒体、图像理解、托管服务、政府、医疗、>100m、文本向量化、文本生图、城市交通、对话问答、多模生成、功能调用、语音合成、城轨、图文向量化、证券业务、大语言模型、铁路、互联网交换中心、企业基础设施与运营、通用、口岸海关和特殊监管区、10m-100m、代码生成、0-1m、中文、矿业、教育、油气、大企业、种子数据(数据膨胀)、任务规划、保险业务、政务/政党数字化。

默认取值:

不涉及。

data_type

string

参数解释:

数据集类型。

约束限制:

不涉及。

取值范围:

枚举值:text(文档)、image_to_text(图片摘要)、video_to_text(视频摘要)、image(图片)。

默认取值:

不涉及。

preprocess_config

preprocessconfig object

参数解释:

数据集预处理配置。

约束限制:

data_type为image时不传。

取值范围:

不涉及。

默认取值:

不涉及。

ingestion_config

ingestionconfig object

数据集数据接入配置。

参数解释:

数据集数据接入配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

chunk_config

chunkconfig object

参数解释:

数据集切分配置。

约束限制:

不涉及。

取值范围:

data_type不为text不传。

默认取值:

不涉及。

schedule_config

scheduleconfig object

参数解释:

调度配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

extraction_config

extractionconfig object

参数解释:

切片提取配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

index_config

indexconfig object

参数解释:

知识数据集索引配置。

约束限制:

创建知识库需要索引,若需创建知识库则需传入。

取值范围:

不涉及。

默认取值:

不涉及。

表2 preprocessconfig

参数

是否必选

参数类型

描述

cleaning_methods

array of strings

参数解释:

数据集清洗方法。

约束限制:

不涉及。

取值范围:

枚举值:url_and_email(删除所有的url和电子邮件地址)、continuous_symbol(清除连续的空格,换行符和制表符)、invisible(清除不可见字符)、whitespace(规范化空格)、garble(清除乱码)、web_symbol(清除网页标识符)、emoji(清除表情)。

默认取值:

不涉及。

pdf_preprocess_type

string

参数解释:

数据集pdf文件预处理类型。

约束限制:

仅data_type为text时支持传入。

取值范围:

枚举值:extract_rich_media(提取富媒体,如表、图)、no_preprocess(不做处理)。

默认取值:

不涉及。

rich_media_intelligent_match

string

数据集pdf预处理后,富媒体提取类型,仅data_type为text时支持传入,枚举值:smart_match_image_table(智能提取,仅预处理为extract_rich_media支持)、no_match(不提取)。

参数解释:

数据集pdf预处理后,富媒体提取类型。

约束限制:

仅data_type为text时支持传入。

取值范围:

枚举值:smart_match_image_table(智能提取,仅预处理为extract_rich_media支持)、no_match(不提取)。

默认取值:

不涉及。

表3 ingestionconfig

参数

是否必选

参数类型

描述

data_source

string

参数解释:

数据来源。

约束限制:

不涉及。

取值范围:

枚举值:file_upload(文件上传)、obs_ingestion(obs接入)。

默认取值:

不涉及。

obs_ingestion

obsingestion object

参数解释:

obs接入配置。

约束限制:

data_source为file_upload(文件上传)则不传obs接入配置,否则需传入。

取值范围:

不涉及。

默认取值:

不涉及。

file_types

array of strings

参数解释:

数据集支持的文件类型。

约束限制:

不涉及。

取值范围:

枚举值:pdf、txt、csv、xlsx、docx、pptx、html、json、xml、jpg、jpeg、png、mp4、webm。

默认取值:

不涉及。

summary_configs

array of summaryconfig objects

参数解释:

摘要类型数据集摘要配置。

约束限制:

在data_type为image_to_txt或video_to_text时需传入,其它类型则不传。

取值范围:

不涉及。

默认取值:

不涉及。

表4 obsingestion

参数

是否必选

参数类型

描述

obs_bucket_name

string

参数解释:

obs桶名。

约束限制:

不涉及。

取值范围:

长度3~63个字符。

默认取值:

不涉及。

obs_input_directory

string

参数解释:

obs接入目录路径。

约束限制:

不涉及。

取值范围:

obs接入路径与目录下文件名组合成的路径,最长不超过200。

默认取值:

不涉及。

表5 summaryconfig

参数

是否必选

参数类型

描述

file_name

string

参数解释:

文件名。

约束限制:

需与上传文件名称一致。

取值范围:

不涉及。

默认取值:

不涉及。

summary

string

参数解释:

摘要。

约束限制:

不涉及。

取值范围:

长度1~600。

默认取值:

不涉及。

表6 chunkconfig

参数

是否必选

参数类型

描述

slicing_configs

mapslicingconfig>

参数解释:

数据集切分配置列表。

约束限制:

切分配置数量需要与文件类型数量保持一致。

取值范围:

范围1~30。

默认取值:

不涉及。

表7 slicingconfig

参数

是否必选

参数类型

描述

slicing_method

string

参数解释:

数据集切分方法。

约束限制:

不涉及。

取值范围:

枚举值:auto_slicing(自动切分)、title(标题切分)、sentence(自定义切分)、json(json切分)、xml(xml切分),除自动切分外,其它类型切分需传入对应切分配置。

默认取值:

不涉及。

sentence_slicing_config

sentenceslicingconfig object

参数解释:

自定义切分配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

title_slicing_config

titleslicingconfig object

参数解释:

标题切分配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

json_slicing_config

jsonslicingconfig object

参数解释:

json切分配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

xml_slicing_config

xmlslicingconfig object

参数解释:

xml切分配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

表8 sentenceslicingconfig

参数

是否必选

参数类型

描述

slicing_strategy

string

参数解释:

文本切分策略。

约束限制:

不涉及。

取值范围:

枚举值:recursive(递归切分)、equivalent(等价切分)。

默认取值:

不涉及。

spec_symbols

array of strings

参数解释:

分段分隔符。

约束限制:

不涉及。

取值范围:

长度1~20,除\n外,不允许包含以下字符 *./$^? 且不允许为

默认取值:

不涉及。

chunk_size

integer

参数解释:

分段长度。

约束限制:

不涉及。

取值范围:

取值1~500。

默认取值:

不涉及。

chunk_overlap

integer

参数解释:

分段重叠长度。

约束限制:

不涉及。

取值范围:

取值0~50。

默认取值:

不涉及。

contain_separator

boolean

参数解释:

切片是否包含分隔符。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

表9 titleslicingconfig

参数

是否必选

参数类型

描述

slicing_strategy

string

参数解释:

文本切分策略。

约束限制:

不涉及。

取值范围:

枚举值:recursive(递归切分)、equivalent(等价切分)。

默认取值:

不涉及。

title_level

string

参数解释:

标题层级深度。

约束限制:

不涉及。

取值范围:

枚举值:h1、h2、h3、h4、h5。

默认取值:

不涉及。

title_saved_method

string

参数解释:

标题保存方式。

约束限制:

不涉及。

取值范围:

枚举值:combination(多标题组合)、last(最后一级标题)。

默认取值:

不涉及。

spec_symbols

array of strings

参数解释:

分段分隔符。

约束限制:

不涉及。

取值范围:

长度1~20,除\n外,不允许包含以下字符 *./$^? 且不允许为

默认取值:

不涉及。

chunk_size

integer

参数解释:

分段长度。

约束限制:

不涉及。

取值范围:

取值1~500。

默认取值:

不涉及。

chunk_overlap

integer

参数解释:

分段重叠长度。

约束限制:

不涉及。

取值范围:

取值0~50。

默认取值:

不涉及。

contain_separator

boolean

参数解释:

切片是否包含分隔符。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

表10 jsonslicingconfig

参数

是否必选

参数类型

描述

levels_back

integer

参数解释:

输出层级。

约束限制:

不涉及。

取值范围:

取值0~20。

默认取值:

不涉及。

collapse_length

integer

参数解释:

递归最小长度。

约束限制:

不涉及。

取值范围:

取值0~1000。

默认取值:

不涉及。

表11 xmlslicingconfig

参数

是否必选

参数类型

描述

tree_level_split

integer

参数解释:

遍历层级。

约束限制:

不涉及。

取值范围:

取值0~20。

默认取值:

不涉及。

表12 scheduleconfig

参数

是否必选

参数类型

描述

schedule_type

string

参数解释:

调度类型。

约束限制:

data_source为file_upload时仅支持once(一次性调度)。

取值范围:

枚举值:once(一次性调度)、schedule(周期性调度)。

默认取值:

不涉及。

scheduled_task_config

scheduledtaskconfig object

参数解释:

定时调度配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

表13 scheduledtaskconfig

参数

是否必选

参数类型

描述

cycle_type

string

参数解释:

定时任务周期类型。

约束限制:

不涉及。

取值范围:

枚举值:day(按日更新)、week(按周更新)。

默认取值:

不涉及。

run_time

string

参数解释:

定时任务执行时间。

约束限制:

不涉及。

取值范围:

格式为:hh:mm:ss,如:18:30:00。

默认取值:

不涉及。

week_day

string

参数解释:

定时任务执行日期(星期)。

约束限制:

cycle_type为week时需传入。

取值范围:

枚举值:sunday(星期天)、monday(星期一)、tuesday(星期二)、wednesday(星期三)、thursday(星期四)、friday(星期五)、saturday(星期六)。

默认取值:

不涉及。

execute_immediately

boolean

参数解释:

定时任务是否立即执行一次。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

version_refresh_mode

string

参数解释:

版本刷新模式。

约束限制:

不涉及。

取值范围:

枚举值:one_version(每次执行覆盖原版本)、multi_version(每次执行生成新版本)。

默认取值:

不涉及。

表14 extractionconfig

参数

是否必选

参数类型

描述

extraction_example

string

参数解释:

切片提取样例。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

extraction_mode

string

参数解释:

切片提取模式。

约束限制:

不涉及。

取值范围:

枚举:rule_extraction(规则提取)、smart_extraction(智能提取)。

默认取值:

不涉及。

rule_extraction_configs

array of ruleextractionconfig objects

参数解释:

规则提取配置列表。

约束限制:

extraction_mode为rule_extraction时需传入,为smart_extraction时则不传。

取值范围:

规则提取配置数量不超过10个,提取字段名称长度1~20,不允许重复。

默认取值:

不涉及。

表15 ruleextractionconfig

参数

是否必选

参数类型

描述

field_name

string

参数解释:

提取字段名称。

约束限制:

不涉及。

取值范围:

字段数量不超过10个,其中名称长度1~20,不允许重复,不允许为以下名称(大小写不敏感):“file_name”、“file_id”、“path”、“order”、“document”、“base64”、“chunk”,不能以“ki_”、“ko_”开头,仅可包含字母、数字、下划线,并且以字母开头。

默认取值:

不涉及。

extraction_rule

string

参数解释:

提取规则。

约束限制:

不涉及。

取值范围:

枚举:separator(分隔符提取)、template(模板提取)。

默认取值:

不涉及。

separator_extraction

separatorextractionconfig object

参数解释:

分隔符提取配置。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

template_extraction

headandtailextractiontemplate object

参数解释:

首尾匹配提取模板。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

表16 separatorextractionconfig

参数

是否必选

参数类型

描述

separator

string

参数解释:

分隔符。

约束限制:

不涉及。

取值范围:

长度1~20,除\n外,不允许包含以下字符 *./$^? 且不允许为

默认取值:

不涉及。

extraction_code

integer

参数解释:

提取分段序号。

约束限制:

不涉及。

取值范围:

范围1~100,提取序号大于可提取分段数量时字段内容为空串。

默认取值:

不涉及。

contain_separator

boolean

参数解释:

提取分段是否包含分隔符。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

表17 headandtailextractiontemplate

参数

是否必选

参数类型

描述

start_with

string

参数解释:

提取分段开头。

约束限制:

不涉及。

取值范围:

长度1~20,除\n外,不允许包含以下字符 *./$^? ,且不允许为

默认取值:

不涉及。

contain_start

boolean

参数解释:

提取分段是否包含开头。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

end_with

string

参数解释:

提取分段结尾。

约束限制:

不涉及。

取值范围:

长度1~20,除\n外,不允许包含以下字符 *./$^? ,且不允许为

默认取值:

不涉及。

contain_end

boolean

参数解释:

提取分段是否包含结尾。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

extraction_code

integer

参数解释:

提取分段序号。

约束限制:

不涉及。

取值范围:

范围1~100,提取序号大于可提取分段数量时字段内容为空串。

默认取值:

不涉及。

表18 indexconfig

参数

是否必选

参数类型

描述

name

string

参数解释:

索引配置名称。

约束限制:

不涉及。

取值范围:

支持中英文、数字、“_”,长度为2~50个字符,以中英文、数字开头。

默认取值:

不涉及。

description

string

参数解释:

索引配置描述。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

rag_type

string

参数解释:

知识库rag类型。

约束限制:

不涉及。

取值范围:

可以为空,为空则使用默认值。

枚举值:vector_rag(向量rag,是一种结合了向量化和大语言模型的rag技术)、graph_rag(知识图谱rag,是一种结合了知识图谱和大语言模型的rag技术)。

默认取值:

vector_rag

vector_model_service_key

string

参数解释:

向量化模型的service_key。

约束限制:

不涉及。

取值范围:

长度1~128,不能为空白字符,如空格。

默认取值:

不涉及。

long_text_solution

string

参数解释:

知识数据集切片长文本处理方式。

约束限制:

不涉及。

取值范围:

枚举值:

  • truncate_mode(如果分片的token长度超过向量化模型的token数,则知识库向量化失败)。
  • smart_mode(如果分片的token长度超过向量化模型的token数,则自动对超长部分进行截断处理)。
  • default_mode(如果分片的token长度超过向量化模型的token数,则大模型对超长部分进行重写;如果重写后仍然超长,则进入截断模式。此模式较为耗时)。

默认取值:

不涉及。

index_graph_config

object indexgraphconfig objects

参数解释:

知识图谱相关配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

retrieval_configs

array of indexconfigfield objects

参数解释:

知识库召回配置。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

表19 indexconfigfield

参数

是否必选

参数类型

描述

name

string

参数解释:

索引字段名称。

约束限制:

不涉及。

取值范围:

名称长度1~20,仅可包含字母、数字、下划线,并且以字母开头,不允许为以下名称(大小写不敏感):“file_name”、“file_id”、“path”、“order”、“document”、“base64”、“chunk”,不能以“ki_”、“ko_”开头。

默认取值:

不涉及。

category

string

参数解释:

索引字段类型。

约束限制:

不涉及。

取值范围:

枚举值:full_chunk(完整切片)、chunk_fragment(切片提取片段)。

默认取值:

不涉及。

vector_retrieval

boolean

参数解释:

是否为向量化字段。

约束限制:

整个索引配置中,必须有且只有一个向量化字段。

取值范围:

true或false。

默认取值:

不涉及。

graph_extract

boolean

参数解释:

是否为知识图谱抽取字段。

约束限制:

索引配置适配rag类型为graph_rag时有效,整个索引配置中,最多有一个字段为true。

取值范围:

true或false。

默认取值:

false。

text_filter

boolean

参数解释:

是否为文本过滤字段。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

false。

retrieval_return

boolean

参数解释:

是否为附加返回字段。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

false。

表20 indexgraphconfig

参数

是否必选

参数类型

描述

entity_extract_method

string

参数解释:

实体抽取方式。

约束限制:

不涉及。

取值范围:

枚举值:triplet(三元组抽取)。

默认取值:

不涉及。

extract_model_service_key

string

参数解释:

实体抽取模型服务key。

约束限制:

不涉及。

取值范围:

长度1~128,不能为空白字符,如空格。

默认取值:

不涉及。

customize_extract_prompt

boolean

参数解释:

是否自定义实体抽取提示语。

约束限制:

不涉及。

取值范围:

true或false。

默认取值:

不涉及。

extract_prompt

string

参数解释:

用户自定义实体抽取prompt。

约束限制:

不涉及。

取值范围:

不涉及。

默认取值:

不涉及。

相关文档

网站地图