SkillNexus #02 · 5 分钟完成第一次 Skill 评测——SkillNexus 上手指南

Skills 全生命周期创造平台,让你的 Skill 可生成、可量化、可管理、可成长。

SkillNexus 系列导航(共 10 篇)

#文章
01你的 Skill 目录,正在变成屎山
→ 025 分钟完成第一次 Skill 评测(本篇)
03从一行描述到可用 Skill——Studio 的 5 种创作模式
048 维度评测框架:让"感觉还行"变成数据
05进化引擎:让 Skill 自动变好
06Trending 榜单:你的 Skill 资产地图
07技术架构:Electron 双进程 + 零依赖进化 SDK
08现状与路线图:SkillNexus 的下一步
09评测报告不只是看完就算——离线报告系统
10可视化设计:为什么 Skill 评测需要 6 种图表

这篇是纯操作指南。目标:从零开始,5 分钟内完成第一次 Skill 评测,看到 8 维度评分雷达图。


Step 1:安装

1
2
3
4
git clone https://github.com/skyseraph/SkillNexus.git
cd SkillNexus
npm install && npm run rebuild
npm run dev

支持 macOS 和 Windows。首次启动会引导你配置 LLM Provider。


Step 2:配置 LLM Provider

进入 Settings → LLM Providers,选择你的 Provider:

Provider需要什么
AnthropicAPI Key(claude-3-5-sonnet 推荐)
OpenAIAPI Key
DeepSeekAPI Key(性价比高,适合批量评测)
Ollama本地地址(完全免费,离线可用)
其他兼容 OpenAI 格式的 baseURL + Key

填入 Key 后点 Test Connection,绿色即可。


Step 3:导入你的 Skill

Home 页面 → 扫描导入

SkillNexus 会自动扫描以下目录:

  • ~/.claude/skills/(Claude Code)
  • ~/.claude/commands/(Claude Code slash commands)
  • 你手动指定的任意目录

扫描完成后,所有 Skill 以卡片形式展示,包含名称、描述、标签、信任等级。

如果你还没有 Skill,推荐先跳到 03 · Studio 生成一个,再回来跑评测。


Step 4:创建测试用例

选中一个 Skill,进入 TestCase 标签页,点击 AI 生成用例

SkillNexus 会根据 Skill 的描述和指令,自动生成覆盖 8 个评测维度的测试用例。每条用例包含:

  • input:发给 AI 的任务描述
  • expected:期望的输出特征
  • judge_type:判断方式(LLM 评判 / 字符串匹配 / Shell 命令)

生成后可以手动调整,也可以直接用。建议先用 3~5 条用例跑通流程。


Step 5:运行评测

进入 Eval 页面,选择目标 Skill,点击 开始评测

评测过程:

  1. 对每条测试用例,用选定的 LLM 执行 Skill
  2. 用 Judge 对输出打分(0~10 分)
  3. 汇总 8 个维度的得分

评测完成后,你会看到:

  • 雷达图:8 维度得分一览,直观看出强弱项
  • 总分:加权平均分
  • 用例明细:每条用例的输入、输出、各维度得分

看懂评分

8 个维度分两组:

G 系列(任务质量)——这个 Skill 产出的结果好不好:

  • G1 Correctness:输出是否正确完成任务
  • G2 Instruction Following:是否遵循格式约束
  • G3 Safety:输出是否安全无害
  • G4 Completeness:是否涵盖所有必要内容
  • G5 Robustness:对边界输入的鲁棒性

S 系列(Skill 质量)——这个 Skill 本身写得好不好:

  • S1 Executability:指令是否清晰可操作
  • S2 Cost Awareness:是否简洁,避免 token 浪费
  • S3 Maintainability:结构是否清晰易维护

G 系列告诉你"有没有做对事",S 系列告诉你"有没有把事做好"。


下一步

有了评分,就可以让 Evo 引擎自动改进 Skill 了。

下一篇:03 · 用 Studio 从零生成一个高质量 Skill


SkillNexus · 2026 · skyseraph · GitHub

SkySeraph
SkySeraph
AI for All & All for AI
留言 Comments