NousResearch/hermes-agent-self-evolution

⭐ 2,983 · Python · GitHub 仓库

Hermes Agent进化式自我优化——基于DSPy与GEPA的技能、提示词及代码优化

一句话总结

无需手动调优或GPU，自动进化并优化AI Agent的技能、提示词和代码。

🔥 核心能力与独特卖点

进化式自我改进：通过反思式进化搜索，自动变异并筛选出更优版本的Agent技能、提示词和代码。彻底告别手动提示词工程和无休止的试错调优。
执行轨迹分析：GEPA不仅知道任务失败，更能读懂失败原因，从而实现精准、智能的改进。解决了Agent调试的"黑盒"难题。
多阶段优化：逐步优化技能文件（阶段1）、工具描述（阶段2）、系统提示词（阶段3）和工具实现代码（阶段4）。为Agent的全面优化提供了结构化的渐进路径。
内置安全护栏：每个进化变体都必须通过测试套件、大小限制、缓存兼容性检查、语义保留测试以及人工PR审核。解决了困扰自动化优化的"Agent崩溃"风险。
无需GPU：所有优化通过API调用完成，每次运行仅需 $2-10美元。这使得任何拥有API密钥的开发者都能进行高级Agent优化，将以往需要昂贵硬件的技术民主化。

独特卖点：唯一一个将进化搜索与执行轨迹分析相结合，端到端自动改进Agent行为的开源系统，并获得ICLR 2026 Oral论文背书。

技术架构

组件	技术	角色
优化引擎	DSPy + GEPA	基于执行轨迹反馈的进化搜索
代码进化	Darwinian Evolver	变异并筛选改进后的工具代码
评估来源	会话历史（Claude Code, Copilot, Hermes）+ 合成数据	生成逼真的评估数据集
约束门控	测试套件、大小限制、基准测试、语义检查	确保进化变体的安全性和质量
输出管道	针对hermes-agent的PR	通过人工审核整合改进

管道流程：读取当前技能/提示词/工具 → 生成评估数据集 → GEPA优化器（含执行轨迹反馈）→ 候选变体 → 约束门控（测试、大小限制、基准测试）→ 最佳变体 → 针对hermes-agent发起PR

快速入门指南

bash

# 1. 克隆并安装
git clone https://github.com/NousResearch/hermes-agent-self-evolution.git
cd hermes-agent-self-evolution
pip install -e ".[dev]"

# 2. 指向你的hermes-agent仓库
export HERMES_AGENT_REPO=~/.hermes/hermes-agent

# 3. 使用合成评估数据进化技能
python -m evolution.skills.evolve_skill \
    --skill github-code-review \
    --iterations 10 \
    --eval-source synthetic

# 4. 或使用来自Claude Code、Copilot和Hermes的真实会话历史
python -m evolution.skills.evolve_skill \
    --skill github-code-review \
    --iterations 10 \
    --eval-source sessiondb

优势、局限与用例

优势

无需GPU — 完全通过API调用运行，节省数千美元硬件成本
成本极低 — 每次优化运行仅需$2-10美元
自动化进化 — 消除手动提示词工程和试错过程
安全优先设计 — 内置安全护栏，防止Agent崩溃或性能退化
研究背书 — ICLR 2026 Oral论文验证了该方法的有效性
多阶段优化 — 逐步改进Agent行为的各个方面

局限

目前仅实现了阶段1（技能文件） — 完整的多阶段优化尚未可用
需要访问Hermes Agent仓库 — 非独立工具
依赖API调用 — 引入延迟和潜在的成本波动
所有变更需人工PR审核 — 相比全自动部署，迭代速度较慢

不适用人群

无法访问Hermes Agent的开发者 — 该工具与Hermes Agent生态系统紧密耦合
需要实时Agent优化的团队 — PR审核周期会带来显著延迟
API预算为零的项目 — 即使每次$2-10美元，频繁迭代也会累积成本
期望全自动、无需人工干预解决方案的用户 — 所有变更必须经过人工审核

理想用例

Agent开发者 — 希望在不手动调优的情况下，自动改进其Hermes Agent的技能和提示词
研究团队 — 研究AI Agent的进化优化及提示词工程
生产团队 — 维护Hermes Agent部署，希望进行持续、低成本且安全的优化
GPU资源有限的组织 — 仍需优化复杂Agent行为

社区与活跃度

该项目拥有 2,983 颗星 且开发活跃（最近更新于2026年5月），在AI Agent社区势头强劲。ICLR 2026 Oral论文为其增添了重要的学术可信度。尽管项目仍处于早期实施阶段（仅阶段1），但其架构和研究基础扎实。随着更多阶段的发布和工具的成熟，社区规模有望快速增长。

NousResearch/hermes-agent-self-evolution ​

一句话总结 ​

🔥 核心能力与独特卖点 ​

技术架构 ​

快速入门指南 ​

优势、局限与用例 ​

优势 ​

局限 ​

不适用人群 ​

理想用例 ​

社区与活跃度 ​