作者:skyseraph
日期:2026-05-02
原文:SkillNexus Intro
开源:SkillNexus
Skills 全生命周期创造平台,让你的 Skill 可生成、可量化、可管理、可成长。
你写的 Skill,到底有多好用?
打开 ~/.claude/skills/,数一数里面有多少个文件。
10 个?20 个?还是一堆叫不出名字的 my-prompt-v3-final?
更难回答的问题是:你知道哪个 Skill 真的好用吗?
大多数人的答案是:凭感觉。
Skill 是什么
如果你用过 Claude Code、Cursor 或 Windsurf,你一定接触过 Skill——一段 Markdown 文件,包含 YAML frontmatter 和自然语言指令,作为 system prompt 影响 AI 的行为。
| |
这类文件可以安装到 Claude Code 的 .claude/commands/、或 Cursor 的 .cursorrules,让 AI 在特定场景下按你的意图工作。
Skill 解决了"能力的载体"问题——模块化、可分发、跨工具。
但它没有解决:这个 Skill 好不好?怎么让它持续变好?
从"写提示词"到"培育能力"的认知跃迁
传统 Skill 创建的问题不在于写法,而在于缺乏闭环:
- 写完即丢,没有版本管理
- 效果好坏靠主观感受,没有量化数据
- 模型换代后只能从零调试
- 多人协作时同一能力被反复重造
Skill 标准只定义了"能力的载体"——如何生成、如何量化、如何持续改进,依然是空白。
SkillNexus 填补了这个空白。
真正的问题
随着 AI 工具普及,开发者积累的 Skill 越来越多,但面临几个共同困境:
写完不知道好不好——靠主观感受,没有量化数据。一个 Skill 在常见任务上表现不错,在边界情况下可能完全失效,但你不知道。
进化靠猜——改了一版,感觉"差不多",但不知道哪个维度变好了、哪个退步了。没有对比数据,优化靠直觉。
模型换代后悄悄失效——Claude 升级,原来调好的 Skill 可能悄悄变差,你甚至察觉不到。
重复造轮子——团队里三个人各自维护功能几乎相同的 code-review Skill,谁也不知道哪个最好。
这不是个人管理能力的问题。是 Skill 开发本身缺少基础设施。
SkillNexus:Skill 的全生命周期平台
SkillNexus 是一款桌面应用(Mac / Windows),把 Skill 从生成到进化的完整链路收进一个工具:
Home(管理)→ Studio(生成)→ TestCase(用例)→ Eval(评测)→ Evo(进化)→ Trending(榜单)
每一步都不是孤立功能,而是数据流转的节点:Studio 生成的 Skill 进入 Home 管理,TestCase 为 Skill 建立数据集,Eval 产出评分,Evo 消费评分产出进化版本,Trending 从历史评分中聚合排行——形成完整的能力培育闭环。

Studio:6 种方式生成 Skill
不知道怎么写 Skill?Studio 给了你 6 条路:
| 模式 | 说明 |
|---|---|
| 描述生成 | 用自然语言说清楚需求,AI 生成完整 Skill |
| 示例归纳 | 提供几组 Input/Output 样本,AI 从中归纳行为规则 |
| 对话提炼 | 把历史对话粘贴进来,把"调法"固化成 Skill |
| 文档提炼 | 上传 PDF、Markdown 或 TXT,从技术规范、SOP 中提炼 |
| 手动编辑 | 直接写或粘贴已有内容 |
| Agent 设计 | 构建工具调用型 Agent Skill |
每种模式生成后都有实时 5D 质量预评分,安装前就知道这个 Skill 大概在什么水平。

Eval:8 个维度,量化"好不好"
感觉好用和真的好用,差的是数据。
这是 SkillNexus 最核心的技术创新,也是让"感觉还行"变成"数据说话"的关键。
评测维度分为两组:
G 系列(任务质量):衡量 Skill 产出的结果好不好
| 维度 | 含义 |
|---|---|
| G1 · Correctness | 输出是否正确完成任务目标 |
| G2 · Instruction Following | 是否严格遵循格式和约束 |
| G3 · Safety | 输出是否安全、中立、无害 |
| G4 · Completeness | 是否涵盖所有必要内容 |
| G5 · Robustness | 对边界/模糊输入的鲁棒性 |
S 系列(Skill 质量):衡量 Skill 本身写得好不好
| 维度 | 含义 |
|---|---|
| S1 · Executability | 指令是否清晰可操作 |
| S2 · Cost Awareness | 输出是否简洁,避免 token 浪费 |
| S3 · Maintainability | 结构是否清晰易维护 |
8 个维度里:
- G 系列能告诉你"Skill 有没有做对事"
- S 系列能告诉你"Skill 有没有把事做好"
- 两者的分离设计是核心洞察:一个 Skill 可能任务成功率高但 token 耗费惊人,也可能指令模糊但碰巧跑对了
评测支持三种模式:
| 模式 | 说明 |
|---|---|
| 单次评测 | 对当前版本出分 |
| 对比模式 | A vs B 版本并排可视化差异,确认进化是否有效 |
| 三条件基线 | 无 Skill 组 vs 当前版本 vs AI 生成版,量化"装上这个 Skill 到底增益了多少" |
每次评测都留下历史记录,雷达图、趋势折线、热力图全部可视化。

Evo:让 Skill 自动变好
评测出了分,发现 Skill 有问题之后呢?
SkillNexus 内置 8 种进化策略,覆盖从交互式微调到全自动迭代的全场景。
Studio 流式进化(实时可见)
| 策略 | 核心思路 |
|---|---|
evidence | 外科手术式修复——把评测低分条目作为证据,精准定位问题并修复 |
strategy | 策略矩阵——用户指定优化目标(如"提升 G1+S2"),AI 给出针对性改进方案 |
capability | 能力感知编译——分析 Skill 对 AI 执行能力的要求,降低门槛 |
自动化 SDK 引擎(后台批量)
| 引擎 | 核心思路 |
|---|---|
| EvoSkill | 最差样本驱动:找出低分用例针对性改进,多轮迭代收敛 |
| CoEvoSkill | 生成器-验证器循环:生成改进方案 + 对抗性测试验证,相互博弈 |
| SkillX | 成功模式提取:从高分历史中归纳规律,编码进 Skill 正文 |
| SkillClaw | 集体失败分析:跨会话聚类失败模式,找结构性缺陷 |
| SkillMOO | 多目标 Pareto 优化:在质量与 token 效率之间找最优解集 |

Trending:你的 Skill 资产地图
基于所有历史评测数据,Trending 按 8 个维度实时排名——哪个 Skill 真正在用、真正好用,数据说话。

为什么是桌面应用
你的 Skill 文件和 API Key 都是本地资产,不应该经过任何第三方服务器。
- Skill 文件存在
~/.claude/skills/,与 Claude Code 直接共享,零迁移成本 - API Key 只在主进程内存中存在,渲染进程拿不到
- 支持本地 Ollama,完全离线可用
- 评测任务(Shell 命令执行)需要访问本地环境
技术栈
| 层 | 选择 | 理由 |
|---|---|---|
| 桌面框架 | Electron 31 + electron-vite 2.3 | 跨平台、原生文件访问、IPC 安全隔离 |
| 前端 | React 18 + TypeScript 5.5 | 流式渲染(Streaming UI)、类型安全 |
| 业务存储 | better-sqlite3 11 | 零网络延迟、事务完整性、进化历史持久化 |
| 配置存储 | electron-store 8(加密) | API Key 安全、跨重启持久 |
| AI SDK | @anthropic-ai/sdk 0.39 | 支持流式输出;via baseURL 兼容 13+ Provider |
| 测试 | Vitest 2(693 tests,38 suites) | 纯逻辑层快速测试,无 Electron 依赖 |
开源,现在可用
SkillNexus 以 Apache 2.0 协议开源,支持 macOS 和 Windows。
| |
如果你在用 Claude Code、Cursor 或任何支持 Skill 标准的 AI 工具,SkillNexus 可以直接扫描导入你现有的 Skill 目录,5 分钟内完成第一次评测。
感兴趣参与内测,或者有想法想交流,欢迎留言或私信。
系列文章
让 Skill 从「凭感觉」变成「有数据」,从「堆文件」变成「有生命」。
SkillNexus — 让能力可生成、可量化、可管理、可成长

