编写 AI Skill 的随笔
2026-07-05
问题和尝试
编写 AI Skill 时,我一开始的做法是输入需求,让 AI 生成 Skill,再跑端到端测试。流程看起来省事,但结果并不稳定。
主要问题出在脚本匹配。脚本执行快,也容易复现结果,但前提是规则覆盖得足够完整。规则一旦漏掉某些情况,名称识别就会出现比较奇怪的结果。有些错误模型能看出来,脚本自己却判断不出来。
后来我试过直接让 LLM 识别:先写好规则和筛选条件,再调用 completion 接口,让模型根据上下文判断。小范围数据效果不错,尤其是名称识别、模糊匹配这类问题。但每条数据都调用一次模型,速度太慢,数据量到上万时基本不可用。
当前方案
目前先改成“脚本匹配 + 模型审核”:
- 先用脚本处理规则明确、覆盖稳定的数据。
- 再用模型对脚本匹配结果进行审核。
- 如果发现结果不正确,再进入修正流程。
- 如果出现异常数据,说明当前脚本规则覆盖不够,再调用 LLM 进行识别。
这样脚本先处理大部分稳定场景,LLM 只处理不确定或异常的数据。比起全部交给 LLM,这个方式更实际一些。
当前阶段的理解
现在的感觉是,AI Skill 不能简单地把所有事情都交给 LLM。脚本适合做批量、稳定、可复现的事情;LLM 更适合做判断、审核和异常兜底。
评分和反思也不适合每条都跑模型,最好只放在异常流程里。异常数据本身就说明脚本规则可能没覆盖到,后面需要继续想清楚:哪些异常要交给 LLM,LLM 的审核结果又怎么反过来补充脚本规则。