自动化评测

用一份 Excel，验证这件工作能不能交给 AI

描述你的重复工作，上传一小批真实样本，平台会帮你跑模型、比结果、找风险，最后给出“建议自动化 / 建议半自动 / 暂不建议”。你不需要先写代码，也不需要一开始就写 Prompt。

1. 说清任务这是什么工作？每行数据代表什么？AI 应该输出什么？

2. 小样本验证先跑 5-20 行，确认输出能解析、结果接近人工判断。

3. 看自动化建议得到推荐模型、主要风险、成本耗时和下一步行动。

加载任务库…

状态	任务 / 文件	结果	操作

1

描述工作

2

确认 AI 怎么做

3

运行实验

第 1 步：描述你想自动化的工作

不用写 Prompt。你只要说清楚这份表格是什么、AI 每行要判断什么、有没有人工答案。平台会帮你生成可运行的验证方案。

作业批改质检
每行一份学生答案，对比人工标注，输出是否一致和简短原因。

客服回复提效
每行一条用户问题，批量生成回复草稿、风险标签和置信度。

1. 上传样本数据

点击或拖拽上传 Excel / CSV

.xlsx / .csv，最大 50MB · 建议先用 20-200 行样本，不要一上来全量。

已上传 sample.xlsx — 0 行，0 列

2. 这是什么工作？

选择最接近的任务类型

数据是否含敏感信息？

否，可直接用于测试有，但已脱敏 / 仅测试样本有，未脱敏

若选择“有，未脱敏”，平台会阻止进入第 2 步，请先脱敏或改用测试样本。

3. 说明这份数据集

数据集说明建议写清：一行代表什么、关键列含义、有没有人工标注列

列名请尽量使用文件里真实存在的名称。下一步只读取列名和前 5 行样本来理解任务，不会默认扫描全表。

4. 你希望 AI 每行输出什么？

期望输出必填

如果有人工答案，AI 输出要能和人工答案直接比较；如果没有人工答案，平台会用多模型一致率和分歧样本来判断是否值得继续。

5. 可选上传规则/标准文档

规则/标准文档 .txt / .md，最大 512KB；支持删除与替换

点击上传评分标准（可选）

澄清与补充说明时会将该文档一并交给大模型。

6. 用哪个模型帮你生成验证方案

厂商

模型

自定义模型 ID 与厂商 API 文档一致

API Key / 演示口令

可填真实 API Key；若已配置服务端 Key，也可填演示口令。不会写入结果文件。

第 2 步：确认 AI 怎么做、怎么判断

本步只看流程是否对
模型先读什么（输入列）→ 输出什么（JSON/标签）→ 是否符合你的数据集理解。先看懂，不必急着手改。

当前视图：基础模式：看懂输入/输出/Prompt 是否正确。

验证方案摘要

先看这张摘要：它决定 AI 看什么、输出什么、怎么判断。看不懂或不符合业务时，再改下面的列映射。

确认数据列

通常只需要确认核心输入和人工标注。下拉后缀为「有值行数/总行」。

AI 每行输出

告诉 AI 你希望如何修改 Prompt 常驻；可单独填写后让 AI 重写

这个输入会和上方澄清答案一起传给 AI。即使上方没有追问，也可以只填这里。

给模型的指令（Prompt）核心检查：是否引用了输入列、输出格式是否符合你的任务

一般不用从零写 Prompt。基础模式建议先看对不对；要改就用上面的「告诉 AI 如何修改」。

启用优化策略

先确认方案并准备数据，再用 1 行试跑检查输出是否能解析。

路径提示：先点「确认方案」，再点右侧「选择模型并运行实验」。

第 3 步：运行可行性实验

建议先跑 5-20 行，看输出是否稳定、能否解析、是否接近人工判断。通过后再全量。跨厂商对比时请分别填写 API Key。

小样本优先
先试跑可以避免全量跑完才发现输出格式不对、Key 配错、或模型根本不适合这类任务。

各厂商 API Key / 演示口令（按所选模型自动显示）

第 1 步同厂商的 Key / 口令会自动填入；多厂商评测可复用同一个演示口令。真实 Key 建议配置在服务端环境变量中。

备用 Key（可选）

Gemini 3.5 Flash

快 · 最新 Flash

GPT-5.5

OpenAI 最新

GPT-5.2

高精度

Gemini 3.1 Pro

高精度

Gemini 3.1 Flash-Lite

低成本

豆包 Seed Pro

国产 · 高精度

豆包 Seed 2.1 Pro

国产 · 最新高精度

豆包 Seed Lite

国产 · 便宜

豆包 Seed Mini

国产 · 低成本

豆包 1.6 Flash

国产 · 无思考快模型

豆包 1.6 Thinking

国产 · 思考

GLM-4.6V

智谱 · 多模态

Qwen Flash

通义 · 快

Qwen Plus

通义 · 均衡

Qwen Max

通义 · 高精度

Qwen3 Max Thinking

通义 · 推理

Qwen VL Plus

通义 · 看图

DeepSeek Chat

DeepSeek · V3

DeepSeek Reasoner

DeepSeek · R1 推理

Claude Opus 4.8

Claude · 旗舰

Claude Sonnet 4.6

Claude · 均衡

Claude Sonnet 4.5

Claude · 稳定

Claude Haiku 4.5

Claude · 快速

高级运行设置：豆包思考模式

思考模式

思考预算 tokens（可选）

仅对 Pro / Mini / 1.6 Thinking 等支持思考参数的豆包模型生效；Lite / Flash 会忽略。关闭时不向接口传 thinking 字段。

高级运行设置：自定义模型（手动输入 ID）

预设没有你要的型号时，填写 API 文档中的 model 名称并添加；可与上方预设多选一起跑。

厂商

Model ID

显示名（可选）

并发数

每模型内并行行数，默认 10。看图/vision 任务单条较慢，可适当调高；遇 API 限流再调低。多模型同时跑时总并发≈模型数×本值。

稳定性复测（每行同一模型输出 2 次，统计一致率；耗时和成本约翻倍）

自动化建议报告

语文错别字识别

语文 · 小学 437 行 · 1682 字 2 个模型

用 AI 帮你解读这次实验

根据本次指标生成业务结论：是否值得自动化、主要风险是什么、下一步该改 Prompt、换模型还是补标注。

—

最佳人工一致率

—

处理行数

—

一致 / 可评估

—

模型数

—

总耗时

—

单条耗时

—

估算单条成本

—

稳定性一致率

模型效果对比

有人工答案时，主看「和人工判断一致率」；没有人工答案时，主看「多模型一致率」。接口调用成功只表示模型有返回，不代表做对。

模型	和人工判断一致率	一致/可评估	耗时	接口调用成功

AI 输出预览

行	模型	模型预测	人工标注	分列	判断	接口	响应（截取）

仅展示前 50 条，完整结果请点击上方「导出 CSV」。