曠野之間12 - 內容創作用的最佳大模型評測

曠野之間12 - 內容創作用的最佳大模型評測

web/2025/9/18 10:57:22/文章來源:https://blog.csdn.net/ms44/article/details/140343776

??????

曠野之間12 - 內容創作用的最佳大模型評測

我正在做一個項目，需要我找出最適合內容創作的 LLM。我查看了 lmsys 排行榜上的頂級模型，閱讀了其他人對這些模型的評價，查看了頂級 LLM 的模型卡，在沒有明確答案后，我決定對所有這些 LLM 進行測試，以完成不同的內容創作任務。

評估模型

我想要評估的模型（考慮到它們的成本、易用性以及在 lmsys 排行榜上的排名）：

駱駝-3–70b
Mixtral-8x7B
雙子座 1.5 專業版
克勞德 3 十四行詩

以下是我所做的……

首先，我將內容創作領域分為 5 種不同的用例：

博客寫作
電子郵件寫作
文案撰寫——包括廣告、搜索引擎優化、網站、技術和社交媒體
寫劇本
內容摘要

在每個用例中，我創建了多個類別，它們要么是子用例，要么是該用例流程的步驟。

每個用例如下所示：

曠野之間12 - 內容創作用的最佳大模型評測

簡單的評估框架

1. GPT-4 Turbo 將擔任第一位評委，根據我根據用例編寫的評估提示，對每個答案進行滿分 10 分的評分。

2.我本人擔任第二位評委。

3. 每位評委將對答案進行滿分 10 分的評分

4. 最終得分為兩次得分的平均數。

制作和策劃提示

在擴展每個用例的類別后，我必須仔細設計將提供給每個 LLM 的提示。不僅僅是創作提示，我知道如果我是唯一一個評估這些 LLM 的回復的人，那將是非常有偏見和不可靠的，所以我和那里最好的 LLM 聯手了gpt-04-turbo。

現在，

每個類別的創建提示
每個類別的評估提示

評估將由另一個 LLM 進行，我知道這聽起來很奇怪，但像MT-Bench這樣的基準（請注意，這個評估與 MT-Bench 相差甚遠）也使用強大的 LLM 作為評判者來自動化評估過程。

為了策劃創作提示，我使用了提示工程技術，例如人員采用、明確的指示、思考時間和分隔的參考文本。

例如，

社交媒體文案提示：假設您是一家精品咖啡店的社交媒體經理，這家咖啡店以使用公平貿易的有機咖啡豆而自豪。您的目標是吸引經常光顧咖啡店作為社交中心的年輕時尚受眾。制作一系列社交媒體帖子：— 用生動的視覺效果和誘人的描述介紹一種新的季節性混合咖啡

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/43545.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/43545.shtml
英文地址，請注明出處：http://en.pswp.cn/web/43545.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

在iPhone / iPad上輕松模擬GPS位置 AnyGo for Mac

在iPhone / iPad上輕松模擬GPS位置 AnyGo for Mac

在iPhone / iPad上輕松模擬GPS位置 AnyGo for Mac AnyGo for Mac是一款專為Mac電腦用戶設計的虛擬定位工具。它可以模擬你的GPS位置，讓你的設備顯示你在任何世界上的任何地方。無論你是想在游戲中虛擬移動，還是在社交媒體上分享虛擬的旅行照片&#xff0…

閱讀更多...

Flask+Layui開發案例教程

Flask+Layui開發案例教程

基于 Python 語言的敏捷開發框架_DjangoAdmin敏捷開發框架FlaskLayui版本_開發文檔軟件產品基于 Python 語言，采用 Flask2.x、Layui、MySQL 等技術棧精心打造的一款集模塊化、高性能、組件化于一體的企業級敏捷開發框架，本著簡化開發、提升開發效率的初…

閱讀更多...

C 語言中如何實現字符串的拼接？

C 語言中如何實現字符串的拼接？

🍅關注博主🎗? 帶你暢游技術世界，不錯過每一次成長機會！ 📙C 語言百萬年薪修煉課程【https://dwz.mosong.cc/cyyjc】通俗易懂，深入淺出，匠心打磨，死磕細節，6年迭代&…

閱讀更多...

Objective-C 中的 isa 不再是簡單的結構體指針

Objective-C 中的 isa 不再是簡單的結構體指針

了解 Objective-C 中的 isa 指針內存結構在 Objective-C 中，isa 指針是對象和類之間的重要橋梁。它不僅幫助運行時系統識別對象的類型，還參與了一些內存和性能優化。本文將深入講解 isa 指針的內存結構，包括其在早期和現代實現中的演變。 …

閱讀更多...

Linux使用python調用串口＜Ubuntu＞

Linux使用python調用串口＜Ubuntu＞

要在 Ubuntu 上使用 /dev/ttyUSB0 設備編寫一個簡單的串口收發程序，你可以使用 Python，結合 pyserial 庫來實現。這種方法相對簡單，適用于各種串行通信任務。以下是如何在 Python 中編寫串口收發程序的步驟及代碼示例： 步驟 1: 安…

閱讀更多...

JWT重放漏洞攻防策略

JWT重放漏洞攻防策略

JWT重放漏洞概述概念：JWT（JSON Web Token）是Web應用廣泛使用的身份驗證令牌。重放攻擊：攻擊者截獲JWT后，利用其有效性冒充用戶執行操作。重放攻擊的危害權限濫用：攻擊者可越權操作，如非法…

閱讀更多...

ffmpeg新舊函數對比

ffmpeg新舊函數對比

搬運博客園“kn-zheng”大佬博客從FFmpeg 3.0 開始 ， 使用了很多新接口，對不如下： 1、avcodec_decode_video2() 原本的解碼函數被拆解為兩個函數avcodec_send_packet()和avcodec_receive_frame() 具體用法如下： old: avcodec_d…

閱讀更多...

MySQL8之mysql-community-embedded-compat的作用

MySQL8之mysql-community-embedded-compat的作用

MySQL8中的mysql-community-embedded-compat包的作用主要是提供MySQL服務器作為嵌入式庫時的兼容性支持，特別是對于那些使用庫版本18的應用程序。嵌入式MySQL服務器允許開發者將MySQL數據庫直接嵌入到他們的應用程序中，而無需運行獨立的MySQL服務器進程。…

閱讀更多...

Transformer 論文通俗解讀：FFN 的作用

Transformer 論文通俗解讀：FFN 的作用

在經過前面3節關于 Transformer 論文的解讀之后，相信你對提出 Transformer 架構的這篇論文有了一定的了解了，你可以點擊下面的鏈接復習一下前3節的內容。《Attention is all you need》通俗解讀，徹底理解版：part1 《Attention …

閱讀更多...

合合信息“大模型加速器”亮相2024世界人工智能大會

合合信息“大模型加速器”亮相2024世界人工智能大會

文章目錄 📑引言一、大模型發展的挑戰數據稀缺問題二、大模型“加速器”解決方案概述文檔解析引擎的特征三、文檔解析引擎的優勢3.1 高速處理能力3.2 智能理解文檔結構3.3 多種數據類型支持3.4 高精度數據提取3.5 應用廣泛，適應性強四、復雜圖表解析4…

閱讀更多...

Auslogics Disk Defrag Pro v11激活版下載、安裝、使用教程 (磁盤碎片整理工具)

Auslogics Disk Defrag Pro v11激活版下載、安裝、使用教程 (磁盤碎片整理工具)

前言 Auslogics Disk Defrag Pro 是一款支持 FAT16 文件系統的磁盤碎片整理工具，它可以快速整理磁盤碎片，使磁盤空間更加整潔，顯著提升電腦的運行速度。該軟件無需任何分析階段，并且速度比大多數其他碎片整理軟件更快。它可以幫助…

閱讀更多...

stm32 開發板可以拿來做什么？

stm32 開發板可以拿來做什么？

STM32開發板可以用來做許多不同的事情，具體取決于您的應用需求和編程能力。我收集歸類了一份嵌入式學習包，對于新手而言簡直不要太棒，里面包括了新手各個時期的學習方向編程教學、問題視頻講解、畢設800套和語言類教學，敲個22就可…

閱讀更多...

詳解太陽能控制器PWM / MPPT極簡方案其設計要點，臺灣遠翔FP7209升壓24V，30V，36V，42V，48V

詳解太陽能控制器PWM / MPPT極簡方案其設計要點，臺灣遠翔FP7209升壓24V，30V，36V，42V，48V

文章目錄前言一、單節電池升壓9V、12V、24V方案二、單節電池升壓30V，36V，42V，48V方案三、芯片介紹 FP7209X與FP7209M的區別： 四、單節電池升壓成為市面上太陽能控制器首選的原因？ 總結前言太陽能是一種環保…

閱讀更多...

定時器TIM配置微妙延時函數

定時器TIM配置微妙延時函數

定時器TIM配置微妙延時函數文章目錄定時器TIM配置微妙延時函數開胃小菜（BOOT0、BOOT1）Boot0Boot1（如果有） 三種定時器高級控制定時器（TIM1，TIM8）通用定時器（TIM2, TIM3, TIM4, TIM…

閱讀更多...

linux命令: rsync的使用

linux命令: rsync的使用

使用rsync同步本地文件夾到遠程目錄 rsync -zvrt /localdir/ -e ssh -p 30000 rootip:/remotedir/rsync -zvrt /localdir/ /remotedir/ 遠程備份 rsync -avlR --delete -e ssh -p 3231 tangboqi221.122.114.27:backup ~/backup/ R表示保留目錄結構，如果不保留…

閱讀更多...

基于Intel Chainer 和姿勢檢測的動作識別（人體、面部、手部關鍵點識別動作識別）

基于Intel Chainer 和姿勢檢測的動作識別（人體、面部、手部關鍵點識別動作識別）

項目概述目標開發一個能夠實時或近實時識別特定動作的系統，如運動姿勢、表情變化或手勢控制。實現對人體關鍵點的精確追蹤，以便于分析和理解人的動態行為。技術棧 Intel硬件：可能使用Intel的高性能計算平臺，如Xeon處理器或…

閱讀更多...

【國潮】國產化系統甲方問題總結

【國潮】國產化系統甲方問題總結

持續更新。。。。。。。。。。。。。。。【國潮】國產化系統甲方問題總結 1. 安全性問題2. 可靠性和穩定性問題3. 性能問題4. 符合軍事標準問題5. 兼容性和集成問題6. 維護和升級問題7. 項目管理問題8. 隱私和合規性問題9. 災難恢復和備份問題10. 技術支持和培訓問題引言&am…

閱讀更多...

zookeeper的shell操作

zookeeper的shell操作

一：啟動拽庫的shell命令行 zkCli.sh -server localhost:2181 退出：quit 二：查詢所有的命令 help 三：查詢對應的節點 --查詢zk上的根節點 ls / ls /zookeeper 四：查詢對應節點的節點信息（節點的元數據&a…

閱讀更多...

[AI 大模型] 阿里巴巴通義千問

[AI 大模型] 阿里巴巴通義千問

文章目錄 [AI 大模型] 阿里巴巴通義千問簡介模型架構發展新技術和優勢示例 [AI 大模型] 阿里巴巴通義千問簡介阿里巴巴的通義千問是由阿里云開發的一款大型語言模型，旨在為用戶提供高效、智能的自然語言處理服務。通義千問能夠處理多種語言輸入&#xff0c…

閱讀更多...

c# Bitmap

c# Bitmap

在C#中，Bitmap 類是一個表示位圖圖像的類，它屬于 System.Drawing 命名空間。Bitmap 類是從 Image 類派生的，因此它繼承了 Image 類的所有屬性和方法，并添加了一些專門用于處理位圖的功能。以下是關于 Bitmap 類的一些基本信息和…

閱讀更多...

最新文章