编写 AI Skill 的随笔

2026-07-05

问题和尝试

编写 AI Skill 时,我一开始的做法是输入需求,让 AI 生成 Skill,再跑端到端测试。流程看起来省事,但结果并不稳定。

主要问题出在脚本匹配。脚本执行快,也容易复现结果,但前提是规则覆盖得足够完整。规则一旦漏掉某些情况,名称识别就会出现比较奇怪的结果。有些错误模型能看出来,脚本自己却判断不出来。

后来我试过直接让 LLM 识别:先写好规则和筛选条件,再调用 completion 接口,让模型根据上下文判断。小范围数据效果不错,尤其是名称识别、模糊匹配这类问题。但每条数据都调用一次模型,速度太慢,数据量到上万时基本不可用。

当前方案

目前先改成“脚本匹配 + 模型审核”:

  1. 先用脚本处理规则明确、覆盖稳定的数据。
  2. 再用模型对脚本匹配结果进行审核。
  3. 如果发现结果不正确,再进入修正流程。
  4. 如果出现异常数据,说明当前脚本规则覆盖不够,再调用 LLM 进行识别。

这样脚本先处理大部分稳定场景,LLM 只处理不确定或异常的数据。比起全部交给 LLM,这个方式更实际一些。

当前阶段的理解

现在的感觉是,AI Skill 不能简单地把所有事情都交给 LLM。脚本适合做批量、稳定、可复现的事情;LLM 更适合做判断、审核和异常兜底。

评分和反思也不适合每条都跑模型,最好只放在异常流程里。异常数据本身就说明脚本规则可能没覆盖到,后面需要继续想清楚:哪些异常要交给 LLM,LLM 的审核结果又怎么反过来补充脚本规则。