认识 Devin,世界上第一位完全自主的 AI 软件工程师。
Devin 是一位孜孜不倦、技术娴熟的队友,同样愿意与您一起构建或独立完成任务供您查看。
有了 Devin,工程师可以专注于更有趣的问题,工程团队可以为更雄心勃勃的目标而奋斗。
Devin的能力
随着我们在长期推理和规划方面的进步,Devin 可以计划和执行需要数千个决策的复杂工程任务。Devin 可以在每一步中回忆相关的上下文,随着时间的推移学习并纠正错误。
我们还为 Devin 配备了通用的开发人员工具,包括 shell、代码编辑器和沙盒计算环境中的浏览器——人类完成工作所需的一切。
最后,我们赋予了 Devin 主动与用户协作的能力。Devin 实时报告其进度,接受反馈,并根据需要与您一起完成设计选择。
以下是 Devin 可以执行的操作示例:
Devin 可以学习如何使用不熟悉的技术。
在阅读了一篇博文后,Devin 在 Modal 上运行 ControlNet,为 Sara 生成带有隐藏消息的图像。
Devin 可以端到端地构建和部署应用程序。
Devin制作了一个模拟生命游戏的互动网站!它以增量方式添加用户请求的功能,然后将应用部署到 Netlify。
Devin 可以自主查找和修复代码库中的错误。
Devin 帮助 Andrew 维护和调试他的开源竞争性编程书籍。
Devin 可以训练和微调自己的 AI 模型。
Devin 为大型语言模型设置了微调,只给出了指向 GitHub 上研究存储库的链接。
Devin 可以解决开源存储库中的错误和功能请求。只要有一个指向 GitHub 问题的链接,Devin 就会完成所需的所有设置和上下文收集。
Devin 可以为成熟的生产存储库做出贡献。
此示例是 SWE-bench 基准测试的一部分。Devin 解决了 sympy Python 代数系统中对数计算的错误。Devin 设置代码环境,重现错误,并自行编码和测试修复程序。
我们甚至尝试在 Upwork 上给 Devin 提供真正的工作,它也可以做到这些!
在这里,Devin 编写和调试代码以运行计算机视觉模型。Devin 对生成的数据进行采样,并在最后编制一份报告。
德文的表现
我们在 SWE-bench 上评估了 Devin,这是一个具有挑战性的基准测试,要求代理解决在 Django 和 scikit-learn 等开源项目中发现的真实 GitHub 问题。
Devin 正确地解决了 13.86%* 的端到端问题,远远超过了之前最先进的 1.96%。即使给定要编辑的确切文件,最好的以前模型也只能解决 4.80% 的问题。
*Devin 是在数据集的随机 25% 子集上进行的。Devin 是无辅助的,而所有其他模型都是辅助的(这意味着模型被确切地告知哪些文件需要编辑)。
我们计划很快发布更详细的技术报告,请继续关注更多细节。
关于认知
我们是一个专注于推理的应用人工智能实验室。
我们正在培养 AI 团队成员,其能力远远超出当今现有的 AI 工具。通过解决推理问题,我们可以在广泛的学科中解锁新的可能性——代码只是一个开始。我们希望帮助世界各地的人们将他们的想法变为现实。
我们资金充足,包括由 Founders Fund 领投的 2100 万美元 A 轮融资。我们感谢行业领导者的支持,包括 Patrick 和 John Collison、Elad Gil、Sarah Guo、Chris Re、Eric Glyman、Karim Atiyeh、Erik Bernhardsson、Tony Xu、Fred Ehrsam 等。