编写 AI Skill 的随笔

2026-07-05

编写 AI Skill 时，我一开始的做法是输入需求，让 AI 生成 Skill，再跑端到端测试。流程看起来省事，但结果并不稳定。

主要问题出在脚本匹配。脚本执行快，也容易复现结果，但前提是规则覆盖得足够完整。规则一旦漏掉某些情况，名称识别就会出现比较奇怪的结果。有些错误模型能看出来，脚本自己却判断不出来。

后来我试过直接让 LLM 识别：先写好规则和筛选条件，再调用 completion 接口，让模型根据上下文判断。小范围数据效果不错，尤其是名称识别、模糊匹配这类问题。但每条数据都调用一次模型，速度太慢，数据量到上万时基本不可用。

目前先改成“脚本匹配 + 模型审核”：

这样脚本先处理大部分稳定场景，LLM 只处理不确定或异常的数据。比起全部交给 LLM，这个方式更实际一些。

现在的感觉是，AI Skill 不能简单地把所有事情都交给 LLM。脚本适合做批量、稳定、可复现的事情；LLM 更适合做判断、审核和异常兜底。

评分和反思也不适合每条都跑模型，最好只放在异常流程里。异常数据本身就说明脚本规则可能没覆盖到，后面需要继续想清楚：哪些异常要交给 LLM，LLM 的审核结果又怎么反过来补充脚本规则。