我在網上看到了關于DeepSeek R1的各種說法,這是一個開源模型,其能力即便不比OpenAI o1等付費模型強,也與之相當:
由于我在日常工作中廣泛使用這些人工智能模型(使用Cursor AI),我決定看看哪種模型最適合我。
在進行了200次Cursor請求后,我將分享我的實驗結果。
一、實驗設置
我從lmarena排行榜上挑選了前兩名的模型,即DeepSeek R1和OpenAI的o1:
以及競爭對手——Gemini-Exp-1206……
我設計了三個實際的編碼挑戰來測試每個模型的能力:
情緒追蹤網絡應用程序
- 基于日歷的情緒記錄
- 可視化情緒追蹤
- 圖表數據可視化
由o1設計的情緒追蹤器
隨機食譜生成器
- 與MealDB API集成
- 類別過濾
- 收藏管理
由DeepSeek R1設計的食譜生成器
“抓鼴鼠”游戲
- 實時動畫
- 音效
- 難度遞進
由Gemini設計的“抓鼴鼠”游戲
二、如何測試每個模型
我對這三個挑戰都采用了完全相同的流程:
- 編寫小型需求文檔
我列出了每個項目應包含內容的簡要清單,比如“使用日歷庫”“使用本地存儲來存儲數據”或“從外部API獲取數據”。 - 向人工智能索要完整代碼
我向模型提出需求,然后等待生成代碼。如果代碼有漏洞或缺少某些功能,我會提供具體反饋(比如“情緒的顏色編碼有問題”等),直到代碼能夠正常運行。 - 對結果進行評分
一旦應用程序運行起來,我就會根據我的檢查清單對其進行測試。主要功能是否可用?代碼結構是否整潔?從用戶角度看是否良好?我會給每個模型一個最終評級。 - 進行比較
在使用這三個模型完成了所有三個應用程序后,我收集了我的筆記并進行了整理。
下圖是代碼生成的流程。
以下是一個示例產品需求文檔(PRD)的樣子:
---
name: "Mood Tracker"
about: "Modern mood tracking web app with data visualization"
date_created: "2025-01-26"
project_name: "MoodTracker"
tech_stack: ["NextJS 15", "TypeScript", "Shadcn", "Tailwind CSS", "Chart.js", "date-fns"]
version: "1.3"
---# ?? Mood Tracker PRDA modern web application for logging daily moods and visualizing emotional trends with charts.---## 1. **Success Criteria**1. **Core Functionality**-