不需要代理库来解决复杂的业务问题。Agentless 是OpenAI采用的非代理框架,用于在 o3 的 SWE Bench 上实现最高精度。SWE-bench 是
github的真实软件工程问题基准。Agentless 遵循简单的三阶段流程:本地化、修复和补丁验证:
1 ⃣生成存储库的树状结构以及问题/功能描述。
2 ⃣使用提示和基于嵌入的检索来识别最可疑的文件。
3 ⃣仅向 LLM 提供每个可疑文件的类和函数签名(“骨架”)。
4 ⃣在已识别的类/功能中,精确定位需要修改的确切行。
5 ⃣ LLM 为每个可能解决问题的位置生成多个搜索/替换差异(补丁)。
6 ⃣提示 LLM 创建测试来确认该错误是否仍然出现。
7 ⃣运行回归测试以避免破坏现有行为。
8 ⃣选择最佳补丁(通过多数投票和测试一致性)并更新文件
见解:
🥇 Claude 3.5 Sonnet 在 SWE-bench lite 上的求解率分别达到 40.7% 和 50.8%,并经过验证
🧠被 OpenAI 采用用于 GPT-4o、o1 和o3模型性能。
💰平均每期成本为 0.70 美元,明显低于基于代理的方法
🔍将嵌入和快速检索结合起来可提高准确性
🧪生成复制测试显著促进了补丁选择
📝使用“搜索/替换”差异代替完全的代码重写可以减少错误
💡简单的本地化+修复流程可以击败基于代理的框架
无代理是一个很好的例子,说明如何专注于解决问题可以避免传统基于代理的系统的复杂性和缺陷。
参考资料
https://x.com/_philschmid/status/1878395725404344390