Skills 全生命周期创造平台,让你的 Skill 可生成、可量化、可管理、可成长。
SkillNexus 系列导航(共 10 篇)
评测出了分,然后呢?
大多数工具到这里就停了——给你一张报告,剩下的靠你自己。
SkillNexus 的 Evo 模块做的是下一步:基于评测数据,自动诊断弱点,生成改进版本。
两类进化路径
Evo 的进化策略分两类:交互式(你参与,实时可见)和自动化(后台批量,无需干预)。
交互式进化:Studio 三范式
在 Studio 里,你可以选择三种进化范式,流式生成,实时看到 Skill 内容如何变化。
Evidence(证据驱动)
核心思路:外科手术式修复。
把评测低分的用例作为"证据"输入,AI 精准定位问题所在,只修改有问题的部分,不动其他内容。
适合场景:你知道 Skill 在某类输入上表现差,想针对性修复,不想大改。
Strategy(策略矩阵)
核心思路:目标导向优化。
你指定优化目标,比如"提升 G1 正确性和 S2 成本意识",AI 给出针对性的改进方案,并解释每处修改的理由。
适合场景:你有明确的优化方向,想让 AI 系统性地改,而不是随机调整。
Capability(能力感知)
核心思路:降低执行门槛。
分析 Skill 对 AI 执行能力的要求,识别哪些指令对模型来说太模糊或太复杂,重写成更容易被执行的形式。
适合场景:Skill 在强模型上表现好,但换到弱模型或本地模型就变差。
自动化 SDK 引擎:6 种算法
如果你想批量优化、无人值守运行,SDK 引擎是更好的选择。
SkVM:证据驱动外科手术
取最近评测历史中最弱的 2 个维度,找出对应的失败样本作为"证据",针对性修复,不动其他内容。同时追溯 4 代祖先版本,防止在同一问题上来回振荡。
逻辑:有证据的改动比随机调整更可靠,改得少比改得多更安全。
EvoSkill:最差样本驱动
找出评分最低的测试用例,针对这些"最差情况"改进 Skill,多轮迭代直到收敛。
逻辑:一个 Skill 的下限决定它的可靠性。 持续提升最差情况,整体质量自然上升。
CoEvoSkill:生成器 - 验证器循环
两个 AI 角色相互博弈:
- 生成器:提出 Skill 改进方案
- 验证器:对改进方案进行对抗性测试,找漏洞
循环迭代,直到验证器找不到明显问题。
逻辑:单一 AI 的盲点可以被另一个 AI 发现。对抗性验证比自我评估更可靠。
SkillX:成功模式提取
从历史高分用例中归纳规律——什么样的输入结构、什么样的任务类型,这个 Skill 表现最好?把这些规律编码进 Skill 正文。
逻辑:与其修复失败,不如放大成功。
SkillClaw:集体失败分析
跨多个会话、多个用例,聚类失败模式——找出结构性缺陷,而不是个案问题。
逻辑:单次失败可能是偶然,多次失败的共同模式才是真正的问题所在。
SkillMOO:多目标 Pareto 优化
在多个相互冲突的目标之间找最优解集。比如"提升 G1 正确性"和"降低 S2 token 消耗"往往是矛盾的——更详细的输出通常更正确,但也更贵。
SkillMOO 不给你一个"最优解",而是给你一组 Pareto 前沿:在不牺牲其他目标的前提下,每个目标能达到的最好结果。你根据实际需求选择。
进化历史树
每次进化都会记录:
- 进化前后的 Skill 内容(Diff 视图)
- 使用的进化策略
- 进化前后的评分变化
- 进化时间和使用的模型
这形成一棵进化历史树——你可以看到 Skill 是怎么一步步变好的,也可以随时回滚到任意历史版本。
Plugin 系统:自定义进化算法
如果内置的 6 种算法不够用,你可以开发自己的进化算法:
| |
放入 {userData}/plugins/ 目录,无需修改源码,无需重新构建,热加载即可使用。
进化引擎与 Electron 完全解耦,可以在 CLI、CI/CD 管道中独立运行——架构细节见 07 · 技术架构。
下一步
Skill 进化了,怎么知道哪些 Skill 是你资产库里的"明星"?
下一篇:06 · Trending 榜单:你的 Skill 资产地图
SkillNexus · 2026 · skyseraph · GitHub

