深度评测DeepSeek、ChatGPT O1和谷歌Gemini AI应用开发场景 - DeepSeek性能完胜!

下面我会展示我为期一周的实验结果,创作不宜,希望大家关注我,以后多多互3!前一阵我在互联网上看到很多关于DeepSeek R1的讨论,这个开源模型据说可以媲美,甚至优于像OpenAI o1这样的付费模型。

由于我在日常工作中广泛使用这些AI模型(主要在Cursor里使用这些AI),我决定看看哪个最适合代码开发。经过200次的Cursor实验后,我在这里和大家分享这次实验的结果。

实验配置

我从一个AI代码开排行榜 - lmarena中选择了前两名的模型,即Gemini-Exp-1206和OpenAI的o1,以及挑战者——DeepSeek R1作为对比。然后我设计了三个实用的编程场景来测试每个模型的能力:

1. 情绪追踪Web应用

主要功能包括:在日历上进行情绪记录、视觉化追踪情绪、图表数据可视化

2. 随机食谱生成器

主要功能包括集成MealDB API、食谱类别筛选、收藏夹管理

3. “打地鼠”游戏

主要内容有实时动画、添加音效、游戏的难度会递增

我是如何测试每个模型的?

我对所有三个AI开发场景都使用了相同的测试流程:

1. 编写简要需求文档

我列出了每个项目的核心功能,比如“使用日历API库”、“用本地存储保存数据”或“从外部API获取数据”等。

2. 让AI生成完整代码

我将需求文档提供给模型并等待代码生成结束。如果代码有Bug或缺少功能,我会提供具体的反馈(比如“情绪的颜色编码显示错误”),直到模型修正问题并达到可用状态。

3. 评分结果

当应用运行后,我按照提前制定好的评分表进行测试:比如主要功能是否正常?代码是否结构清晰?用户体验是否良好?最终我为每个模型给出了评分。

4. 结果对比

在完成所有三个应用的测试后,我整理了最终数据并统计得分。

代码生成流程

以下是一个我是用的示例PRD(产品需求文档):

---
name: "Mood Tracker"
about: "Modern mood tracking web app with data visualization"
date_created: "2025-01-26"
project_name: "MoodTracker"
tech_stack: ["NextJS 15", "TypeScript", "Shadcn", "Tailwind CSS", "Chart.js", "date-fns"]
version: "1.3"
---# 🎯 Mood Tracker PRDA modern web application for logging daily moods and visualizing emotional trends with charts.---## 1. **Success Criteria**1. **Core Functionality**- [ ] **Clickable Calendar**: Users can select a date to log or edit a mood entry.- [ ] **Emoji & Note Input**: A modal or dialog with an emoji picker and text field.- [ ] **Local Data Storage**: Persist mood entries between sessions.- [ ] **Data Visualization**: At least two Chart.js charts to display weekly, monthly, or overall trends.- [ ] **Mobile-Responsive**: Layout should adjust for smaller screens without major issues.2. **Validation Checklist**- [ ] **Build & Run**: Fresh `npm install && npm run dev` works without errors.- [ ] **Calendar Interaction**: Clicking a calendar date opens the mood logging UI.- [ ] **Color Coding**: Each date cell or icon changes based on mood score or emoji.- [ ] **Chart Page**: A separate page or section to visualize stats (e.g., line chart + pie chart).- [ ] **Data Persistence**: Entries remain available if the user navigates away and comes back later.---## 2. **Tech Stack**- **NextJS 15** (App Router) for site structure
- **TypeScript** for type safety
- **Shadcn** UI components (dialogs, buttons, forms)
- **Tailwind CSS** for styling
- **Chart.js** for data visualization
- **date-fns** for date operations
- **localforage** (or equivalent) for local data storage
- **@emoji-mart/react** for an emoji picker### **Why These Choices?**
- **NextJS + TypeScript**: Great for server/client flexibility and type safety
- **Shadcn + Tailwind**: Rapid UI development with consistent design
- **Chart.js**: Straightforward library for rendering charts
- **date-fns**: Lightweight date utilities---## 3. **Design & Mood Scores**| MoodScore | Mood       | Tailwind Color | Emoji     |
|-----------|------------|----------------|-----------|
| 1         | Angry      | `red-500`      | 😡         |
| 2         | Sad        | `orange-400`   | 😞         |
| 3         | Neutral    | `yellow-300`   | 😐         |
| 4         | Happy      | `lime-400`     | 😊         |
| 5         | Ecstatic   | `emerald-500`  | 😄         |> You can style each date cell background or display an icon to indicate the logged mood.---## 4. **User Stories**1. **Daily Mood Logging**- **As a user**, I want to quickly log how I feel each day so I can track my emotional journey.- **Given** I click on a specific date- **When** I choose an emoji and type a note- **Then** the date on the calendar updates visually to reflect my mood2. **Mood Analysis**- **As a user**, I want to see a higher-level overview of my moods so I can spot trends.- **Given** I navigate to a “Stats” page- **When** I select a timeframe (weekly, monthly, etc.)- **Then** I see at least two types of charts illustrating changes or distributions in my mood data---## 5. **Data Structures**```typescript
export interface MoodEntry {date: string;    // e.g. "2025-01-23"emoji: string;   // e.g. "😊"note: string;moodScore: 1 | 2 | 3 | 4 | 5;
}
```- Store mood entries in `lib/storage.ts` using local data storage (e.g., localforage).
- Components like `MoodCalendar` and `MoodChart` can import these entries to display logs.### 6. File Structure
```mood-tracker/
├── app/
│   ├── (dashboard)/
│   │   └── page.tsx     # main calendar view
│   ├── stats/
│   │   └── page.tsx     # charts & statistics
│   └── layout.tsx       # global layout or shared UI
├── components/
│   ├── MoodCalendar.tsx
│   ├── MoodChart.tsx
│   └── EmojiPicker.tsx
├── lib/
│   ├── storage.ts
│   └── mood.ts          # data types
└── styles/└── globals.css
```### 7. Additional Notes
- **Shadcn**: Ideal for modals (Dialog component), buttons, forms, etc.
- **Chart.js**: Use a line chart, bar chart, pie chart, or any combination to showcase data trends.
- **Optional**: You can add a hover tooltip on each calendar day to preview the note or emoji.

评测结果与分析

在计算性能得分(以获得的总分数占总分数的百分比)后,结果如下:

  • DeepSeek R1:77.66%
  • OpenAI o1:73.50%
  • Gemini 2.0:71.24%

DeepSeek R1最终获得最高分,但是从结果数据中我们也可以看到所有模型的表现都还不错。话虽如此,我并不认为哪个模型是“万能工具”——每个模型都有其优势和劣势,下面我们具体分析。

各模型的优缺点深度解析

DeepSeek R1

优点

  • 思考推理型模型(可以进行更深入的推理提升准确度)
  • 高质量
  • 生成能力强
  • 稳定
  • 免费

缺点

  • 推理速度慢(长时间推理)
  • 在Cursor AI中经常超时
  • 在调试时有时会过度思考

OpenAI o1

优点

  • 与Cursor AI集成良好
  • 高质量
  • 生成能力强
  • 稳定

缺点

  • 价格昂贵
  • 不是思考推理型模型
  • 调试提示词优化结果的能力不如Claude Sonnet

Gemini 2.0

优点

  • 严格遵循指令
  • 速度极快!
  • 免费

缺点

  • 生成能力较低
  • 在Cursor AI中不支持思考和推理
  • 需要非常具体的指令才能表现良好

额外测试的模型Claude Sonnet 3.5

优点

  • 调试提示词优化结果的极强
  • 运行速度快
  • 稳定性好(表现一致,可靠)

缺点

  • 生成能力较弱(相比“推理”类模型)

总结

在这次编程场景的测试中,DeepSeek R1以 77.66% 的最高分胜出,但OpenAI o1和Gemini 2.0的表现也并不差。在我们实际使用过程中,模型的选择往往取决于以下具体需求:

  • 如果需要速度,Gemini的响应速度非常快。
  • 如果需要更好的生成能力或更“拟人化”生成近似人类生成的响应,DeepSeek和o1都是不错的选择。
  • 如果调试优化结果是首要任务,Claude Sonnet尽管没有参与本次的测试,但它的调试能力非常出色。

没有哪个模型是“万能神器”,选择合适的工具取决于预算、与大家正使用的IDE(如Cursor AI)的兼容性,还有性能需求。如果大家对这些模型有任何问题或使用经验,欢迎分享共同讨论!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31780.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用DeepSeek+蓝耘快速设计网页简易版《我的世界》小游戏

前言:如今,借助先进的人工智能模型与便捷的云平台,即便是新手开发者,也能开启创意游戏的设计之旅。DeepSeek 作为前沿的人工智能模型,具备强大的功能与潜力,而蓝耘智算云平台则为其提供了稳定高效的运行环境…

Hcaptcha验证码自动识别方案详解

Hcaptcha验证系统简介 这个令人头疼的验证系统长这样: 还有这样: 看着就让人不开心,每次都要玩这种小游戏。 工作原理 1. 环境评估(形式主义阶段) 它会检查这些东西: 浏览器指纹行为数据IP地址网站设置 如果你看起来像个"正常访客",它可能就放你过。但要是发现…

SpringBoot事务管理

Spring事务管理 在日常开发过程中,只要涉及数据操作,都不可避免地会涉及事务管理相关内容,而Spring提供了强大的事务管理机制,能够帮助开发者更轻松地处理数据一致性和事务的问题。 一、什么是事务管理 事务(Transa…

JU TPS研究笔记

这个模板的Cover Demo和尘白禁区一样,是自由观察和背后锁定视角可切换的TPS。这种模式比单独做自由观察或背后锁定都要复杂。在非瞄准也就是自由观察状态,鼠标控制相机转动,WASD控制人物以相机前方为前方一边移动一边平滑旋转到面对移动方向。…

[NewStarCTF 2023 公开赛道]ez_sql1 【sqlmap使用/大小写绕过】

题目: 发现id处可以sql注入: 虽然输入id1;show databases;#没什么回显,但是知道这里是字符型注入了 这次利用sqlmap注入 --dbs:列出所有数据库名字 python .\sqlmap.py -u http://a40b2f0a-823f-4c99-b43c-08b94ed0abb2.node5.…

DeepSeek-实用集成大礼包

随着DeepSeek的持续火热,在各种平台看到大家基于deepseek+各类应用的案例。这些案例真假难辨,现在DeepSeek已经推出了官方的Awesome DeepSeek Integrations,集成了各类应用,下面是详细的介绍。 DeepSeek Integrations 是 DeepSeek 官方在 GitHub 上精心整理的一个集合了各种…

Ubuntu安装问题汇总

参考文章: 【Ubuntu常用快捷键总结】 【王道Python常用软件安装指引】 1. 无法连接虚拟设备 sat0:0 【问题】:出现下图所示弹框。 【问题解决】: 点击 “否” 。 点击左上角的 “虚拟机” → “设置…” → “CD/DVD (SATA)” ,…

深陷帕金森困境,怎样重燃生活信心?

帕金森,这个悄然影响无数中老年人生活的神经系统疾病,正逐渐走进大众视野。患病后,患者常出现静止性震颤,安静时手部、下肢不自主抖动,如同在默默诉说着身体的异常。肢体变得僵硬,行动迟缓,起步…

空间遥感智能处理技术发展现状与趋势

在数字化时代,空间遥感技术已经成为获取地球表面信息的重要手段。随着卫星遥感技术的快速发展,获取的遥感数据量激增,这对遥感数据的智能处理提出了更高的要求。本文将探讨空间遥感智能处理技术的发展现状与未来趋势。 发展现状 大数据与人工…

svn删除所有隐藏.svn文件,文件夹脱离svn控制

新建一个文件,取名remove-svn-folders.reg,输入如下内容: Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\DeleteSVN] "Delete SVN Folders" [HKEY_LOCAL_MACHINE\SOFTWARE\Class…

Datawhale coze-ai-assistant 笔记2

目录 快速搭建一个 AI 助手智能体 搭建步骤 步骤1:创建一个智能体 步骤2:编写提示词 步骤3:调试智能体 步骤4:发布智能体 设置智能体模型 选择模型 生成多样性 输入及输出设置 如何使用 步骤1:更换模型 步…

win10电脑鼠标速度突然变的很慢?

电脑鼠标突然变很慢,杀毒检测后没问题,鼠标设置也没变,最后发现可能是误触鼠标的“DPI”调节键。 DPI调节键在鼠标滚轮下方,再次点击即可恢复正常鼠标速度。 如果有和-的按键,速度变快,-速度变慢。 图源&…

若依RuoYi-Cloud-Plus微服务版(完整版)前后端部署

一.目标 在浏览器上成功登录进入 二.源码下载 后端源码:前往Gitee下载页面(https://gitee.com/dromara/RuoYi-Cloud-Plus)下载解压到工作目录。 前端源码: 前往Gitee下载页面(https://gitee.com/JavaLionLi/plus-ui)下载解压到工作目录。 文档地址&a…

vue3+elementuiplus的table表格动态高度

table表格流体高度 1、前提 了解自定义指令、hooks 2、核心思路 通过自定义指令(new ResizeObserver)监听表格变化,然后通过hooks去更新表格高度。 3、核心代码 src/directives/resize.ts // import { debounce } from /utils;import { t…

Django与数据库

我叫补三补四,很高兴见到大家,欢迎一起学习交流和进步 今天来讲一讲alpha策略制定后的测试问题 mysql配置 Django模型体现了面向对象的编程技术,是一种面向对象的编程语言和不兼容类型能相互转化的编程技术,这种技术也叫ORM&#…

VMware下载安装Ubuntu详解

一、Linux简介 1、不同领域的主流操作系统 桌面操作系统服务器操作系统移动设备操作系统嵌入式操作系统 1.1、桌面操作系统 Windows(用户数量最多)Mac OS(苹果电脑操作系统)Linux(用户数量少) 1.2、服…

动态规划详解(二):从暴力递归到动态规划的完整优化之路

目录 一、什么是动态规划?—— 从人类直觉到算法思维 二、暴力递归:最直观的问题分解方式 1. 示例:斐波那契数列 2. 递归树分析(以n5为例) 3. 问题暴露 三、第一次优化:记忆化搜索(Memoiza…

下降路径最⼩和(medium)

题目描述: 给你一个 n x n 的 方形 整数数组 matrix ,请你找出并返回通过 matrix 的下降路径 的 最小和 。 下降路径 可以从第一行中的任何元素开始,并从每一行中选择一个元素。在下一行选择的元素和当前行所选元素最多相隔一列&#xff08…

YashanDB认证,YCA证书认证教程,免费证书,内含真题考试题库及答案——五分钟速成

目录 一.账号及平台注册登录流程 二.登录进行设备调试核验 三.考试(考完获取分数) 四.获取证书 五.题库及答案 一.账号及平台注册登录流程 1-点击这里进行账号注册(首次学习必须先注册,有账号之后可以直接在2号链接登录&#…

texstudio: 编辑器显示行号+给PDF增加行号

texstudio在编辑器部分增加行号: texstudio默认在编辑器部分不显示行号,如下图: 要实现以下的在编辑部分增加行号: 执行如下操作: 选项-->设置TexStudio-->编辑器-->显示行号-->所有行号选择好后&…