Skills 全生命周期创造平台,让你的 Skill 可生成、可量化、可管理、可成长。
SkillNexus 系列导航(共 10 篇)
| # | 文章 |
|---|---|
| 01 | 你的 Skill 目录,正在变成屎山 |
| 02 | 5 分钟完成第一次 Skill 评测 |
| 03 | 从一行描述到可用 Skill——Studio 的 5 种创作模式 |
| 04 | 8 维度评测框架:让"感觉还行"变成数据 |
| 05 | 进化引擎:让 Skill 自动变好 |
| 06 | Trending 榜单:你的 Skill 资产地图 |
| 07 | 技术架构:Electron 双进程 + 零依赖进化 SDK |
| 08 | 现状与路线图:SkillNexus 的下一步 |
| 09 | 评测报告不只是看完就算——离线报告系统 |
| → 10 | 可视化设计:为什么 Skill 评测需要 6 种图表(本篇) |
SkillNexus 的 Eval 页面有 6 种图表:雷达图、趋势折线、热力图、箱线图、对比柱状图、Pareto 散点图。
为什么需要这么多?每种图表解决的是不同的问题——用错图表,数据就会说谎。
图表 1:雷达图——截面快照
解决的问题:一眼看出 Skill 的强弱维度分布。
雷达图是 Eval 页的核心图表,8 个维度均匀分布在圆周上,得分越高越靠外。
为什么选雷达图而不是柱状图?
柱状图更精确,但雷达图更直观——你能立刻看出"这个 Skill 的形状":是均衡型(接近正圆),还是偏科型(某几个维度特别突出或凹陷)。
两个版本的雷达图叠加时,差异一目了然:B 版本的轮廓比 A 版本更大,说明整体提升;某个维度的轮廓缩小,说明那里退化了。
设计细节:当历史数据 ≥ 5 条时,雷达图会显示 min/max 置信带——不只是均值,还能看到得分的稳定性。一个均值 8 分但置信带很宽的 Skill,不如均值 7.5 分但置信带很窄的 Skill 可靠。
图表 2:趋势折线——时间维度
解决的问题:追踪 Skill 随版本迭代的变化轨迹。
雷达图是截面,趋势折线是纵切面。横轴是时间(或版本号),纵轴是各维度得分,8 条线同时显示。
关键设计:8 条线同时显示会很乱,所以默认只高亮总分和最弱的 2 个维度,其他维度淡化显示,点击可以切换高亮。
趋势折线最有价值的时刻是进化后:你能看到某次进化让 G1 从 6.5 跳到 8.2,同时 S2 从 8.0 微降到 7.8——这是权衡,不是失败,但你需要看到它。
图表 3:热力图——跨版本矩阵
解决的问题:在多个版本 × 多个维度的矩阵里,快速找到规律。
热力图的横轴是版本(v1、v2、v3……),纵轴是 8 个维度,颜色深浅表示得分高低。
它能发现趋势折线看不到的东西:某个维度在所有版本里都是浅色(持续低分),说明这是结构性问题,不是某次进化的偶然失误;某个版本整列都是深色,说明那次进化效果全面,值得分析它做了什么。
热力图特别适合有 5 个以上版本的 Skill——版本少时折线图更清晰,版本多时热力图的全局视角更有价值。
图表 4:箱线图——稳定性分析
解决的问题:均值相同的两个 Skill,哪个更稳定?
这是最容易被忽视的图表,也是最重要的之一。
一个 Skill 在 10 条测试用例上的 G1 得分可能是:
- Skill A:8, 8, 8, 8, 8, 8, 8, 8, 8, 8(均值 8,极度稳定)
- Skill B:10, 10, 10, 10, 10, 2, 2, 2, 2, 2(均值 6,两极分化)
均值不同,但更重要的是:Skill B 在某类输入上完全失效。箱线图能立刻暴露这个问题——中位数、四分位距、异常值一目了然。
实际意义:箱线图的异常值(outlier 点)往往就是最值得关注的测试用例——那些让 Skill 表现异常差的边界情况,正是下一次进化的重点。
图表 5:对比柱状图——A vs B 差值
解决的问题:两个版本对比时,精确量化每个维度的差值。
雷达图叠加能看出"形状差异",对比柱状图能看出"精确数字"。每个维度一组柱子,A 版本和 B 版本并排,差值用颜色标注(绿色提升、红色下降)。
设计原则:差值小于 0.3 分的维度用灰色显示,避免把统计噪声误读为有意义的变化。0.3 分是经验阈值——在 LLM Judge 的评分精度下,小于这个值的差异通常不可靠。
图表 6:Pareto 散点图——权衡可视化
解决的问题:在效果和成本之间,哪个版本是最优权衡?
这是 SkillMOO 进化引擎专属的图表。横轴是 S2 成本意识(越高越省 token),纵轴是 G1 正确性(越高越准确)。每个版本是一个点。
Pareto 前沿上的点是"无法同时在两个维度更优"的版本——你只能在这些点里选,选哪个取决于你的实际需求:高频调用的 Skill 优先选成本低的,关键任务的 Skill 优先选准确率高的。
为什么用纯前端 SVG 实现而不是引入图表库?
SkillNexus 的所有图表都是纯前端实现,没有引入 ECharts、D3 或 Recharts。原因很简单:这些图表的需求非常具体,通用图表库的配置成本不低于自己实现,而且自己实现可以精确控制交互细节(比如雷达图的置信带、热力图的版本对齐逻辑)。
两处雷达图的定位区别
SkillNexus 在两个地方都有雷达图,但含义不同:
| Eval 页「技能成长」Tab | Tasks 页任务详情面板 | |
|---|---|---|
| 视角 | Skill 级别:跨所有历史运行的聚合 | Job 级别:单次任务运行的快照 |
| 数据量 | 全部历史成功记录 | 单个 job 的用例结果 |
| 置信带 | ≥5 条历史时显示 min/max | ≥5 个用例时显示 |
| 用户问题 | 这个 Skill 长期表现如何? | 这次任务跑了什么结果? |
同一个组件,两种语境,两种答案。
图表选择的原则
回到最开始的问题:为什么需要 6 种图表?
因为每种图表回答的是不同的问题:
| 图表 | 回答的问题 |
|---|---|
| 雷达图 | 现在的截面是什么形状? |
| 趋势折线 | 随时间怎么变化的? |
| 热力图 | 跨版本跨维度的全局规律是什么? |
| 箱线图 | 稳定吗?有没有极端失效的情况? |
| 对比柱状图 | A 和 B 精确差多少? |
| Pareto 散点图 | 在效果和成本之间,最优权衡在哪里? |
用一种图表回答所有问题,必然会有信息损失。6 种图表,6 个视角,完整描述一个 Skill 的质量状态。
SkillNexus · 2026 · skyseraph · GitHub

