曠野之間12 - 內容創作用的最佳大模型評測

??????

曠野之間12 - 內容創作用的最佳大模型評測

我正在做一個項目,需要我找出最適合內容創作的 LLM。我查看了 lmsys 排行榜上的頂級模型,閱讀了其他人對這些模型的評價,查看了頂級 LLM 的模型卡,在沒有明確答案后,我決定對所有這些 LLM 進行測試,以完成不同的內容創作任務。

評估模型

我想要評估的模型(考慮到它們的成本、易用性以及在 lmsys 排行榜上的排名):

  1. 駱駝-3–70b
  2. Mixtral-8x7B
  3. 雙子座 1.5 專業版
  4. 克勞德 3 十四行詩

以下是我所做的……

首先,我將內容創作領域分為 5 種不同的用例:

  1. 博客寫作
  2. 電子郵件寫作
  3. 文案撰寫——包括廣告、搜索引擎優化、網站、技術和社交媒體
  4. 寫劇本
  5. 內容摘要

在每個用例中,我創建了多個類別,它們要么是子用例,要么是該用例流程的步驟。

每個用例如下所示:

曠野之間12 - 內容創作用的最佳大模型評測

簡單的評估框架

1. GPT-4 Turbo 將擔任第一位評委,根據我根據用例編寫的評估提示,對每個答案進行滿分 10 分的評分。

2.我本人擔任第二位評委。

3. 每位評委將對答案進行滿分 10 分的評分

4. 最終得分為兩次得分的平均數。

制作和策劃提示

在擴展每個用例的類別后,我必須仔細設計將提供給每個 LLM 的提示。不僅僅是創作提示,我知道如果我是唯一一個評估這些 LLM 的回復的人,那將是非常有偏見和不可靠的,所以我和那里最好的 LLM 聯手了gpt-04-turbo

現在,

  1. 每個類別的創建提示
  2. 每個類別的評估提示

評估將由另一個 LLM 進行,我知道這聽起來很奇怪,但像MT-Bench這樣的基準(請注意,這個評估與 MT-Bench 相差甚遠)也使用強大的 LLM 作為評判者來自動化評估過程。

為了策劃創作提示,我使用了提示工程技術,例如人員采用、明確的指示、思考時間和分隔的參考文本。

例如,

社交媒體文案提示:假設您是一家精品咖啡店的社交媒體經理,這家咖啡店以使用公平貿易的有機咖啡豆而自豪。您的目標是吸引經常光顧咖啡店作為社交中心的年輕時尚受眾。制作一系列社交媒體帖子:— 用生動的視覺效果和誘人的描述介紹一種新的季節性混合咖啡

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/43545.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/43545.shtml
英文地址,請注明出處:http://en.pswp.cn/web/43545.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

在iPhone / iPad上輕松模擬GPS位置 AnyGo for Mac

在iPhone / iPad上輕松模擬GPS位置 AnyGo for Mac AnyGo for Mac是一款專為Mac電腦用戶設計的虛擬定位工具。它可以模擬你的GPS位置,讓你的設備顯示你在任何世界上的任何地方。無論你是想在游戲中虛擬移動,還是在社交媒體上分享虛擬的旅行照片&#xff0…

Flask+Layui開發案例教程

基于 Python 語言的敏捷開發框架_DjangoAdmin敏捷開發框架FlaskLayui版本_開發文檔 軟件產品基于 Python 語言,采用 Flask2.x、Layui、MySQL 等技術棧精心打造的一款集模塊化、高性能、組件化于一體的企業級敏捷開發框架,本著簡化開發、提升開發效率的初…

C 語言中如何實現字符串的拼接?

🍅關注博主🎗? 帶你暢游技術世界,不錯過每一次成長機會! 📙C 語言百萬年薪修煉課程 【https://dwz.mosong.cc/cyyjc】通俗易懂,深入淺出,匠心打磨,死磕細節,6年迭代&…

Objective-C 中的 isa 不再是簡單的結構體指針

了解 Objective-C 中的 isa 指針內存結構 在 Objective-C 中,isa 指針是對象和類之間的重要橋梁。它不僅幫助運行時系統識別對象的類型,還參與了一些內存和性能優化。本文將深入講解 isa 指針的內存結構,包括其在早期和現代實現中的演變。 …

Linux使用python調用串口<Ubuntu>

要在 Ubuntu 上使用 /dev/ttyUSB0 設備編寫一個簡單的串口收發程序,你可以使用 Python,結合 pyserial 庫來實現。這種方法相對簡單,適用于各種串行通信任務。以下是如何在 Python 中編寫串口收發程序的步驟及代碼示例: 步驟 1: 安…

JWT重放漏洞攻防策略

JWT重放漏洞概述 概念:JWT(JSON Web Token)是Web應用廣泛使用的身份驗證令牌。重放攻擊:攻擊者截獲JWT后,利用其有效性冒充用戶執行操作。 重放攻擊的危害 權限濫用:攻擊者可越權操作,如非法…

ffmpeg新舊函數對比

搬運博客園“kn-zheng”大佬博客 從FFmpeg 3.0 開始 , 使用了很多新接口,對不如下: 1、avcodec_decode_video2() 原本的解碼函數被拆解為兩個函數avcodec_send_packet()和avcodec_receive_frame() 具體用法如下: old: avcodec_d…

MySQL8之mysql-community-embedded-compat的作用

MySQL8中的mysql-community-embedded-compat包的作用主要是提供MySQL服務器作為嵌入式庫時的兼容性支持,特別是對于那些使用庫版本18的應用程序。嵌入式MySQL服務器允許開發者將MySQL數據庫直接嵌入到他們的應用程序中,而無需運行獨立的MySQL服務器進程。…

Transformer 論文通俗解讀:FFN 的作用

在經過前面3節關于 Transformer 論文的解讀之后,相信你對提出 Transformer 架構的這篇論文有了一定的了解了,你可以點擊下面的鏈接復習一下前3節的內容。 《Attention is all you need》通俗解讀,徹底理解版:part1 《Attention …

合合信息“大模型加速器”亮相2024世界人工智能大會

文章目錄 📑引言一、大模型發展的挑戰數據稀缺問題 二、大模型“加速器”解決方案概述文檔解析引擎的特征 三、文檔解析引擎的優勢3.1 高速處理能力3.2 智能理解文檔結構3.3 多種數據類型支持3.4 高精度數據提取3.5 應用廣泛,適應性強 四、復雜圖表解析4…

Auslogics Disk Defrag Pro v11激活版下載、安裝、使用教程 (磁盤碎片整理工具)

前言 Auslogics Disk Defrag Pro 是一款支持 FAT16 文件系統的磁盤碎片整理工具,它可以快速整理磁盤碎片,使磁盤空間更加整潔,顯著提升電腦的運行速度。該軟件無需任何分析階段,并且速度比大多數其他碎片整理軟件更快。它可以幫助…

stm32 開發板可以拿來做什么?

STM32開發板可以用來做許多不同的事情,具體取決于您的應用需求和編程能力。我收集歸類了一份嵌入式學習包,對于新手而言簡直不要太棒,里面包括了新手各個時期的學習方向編程教學、問題視頻講解、畢設800套和語言類教學,敲個22就可…

詳解太陽能控制器PWM / MPPT極簡方案其設計要點,臺灣遠翔FP7209升壓24V,30V,36V,42V,48V

文章目錄 前言 一、單節電池升壓9V、12V、24V方案 二、單節電池升壓30V,36V,42V,48V方案 三、芯片介紹 FP7209X與FP7209M的區別: 四、單節電池升壓成為市面上太陽能控制器首選的原因? 總結 前言 太陽能是一種環保…

定時器TIM配置微妙延時函數

定時器TIM配置微妙延時函數 文章目錄 定時器TIM配置微妙延時函數開胃小菜(BOOT0、BOOT1)Boot0Boot1(如果有) 三種定時器高級控制定時器(TIM1,TIM8)通用定時器(TIM2, TIM3, TIM4, TIM…

linux命令: rsync的使用

使用rsync同步本地文件夾到遠程目錄 rsync -zvrt /localdir/ -e ssh -p 30000 rootip:/remotedir/rsync -zvrt /localdir/ /remotedir/ 遠程備份 rsync -avlR --delete -e ssh -p 3231 tangboqi221.122.114.27:backup ~/backup/ R表示保留目錄結構,如果不保留…

基于Intel Chainer 和姿勢檢測的動作識別(人體、面部、手部關鍵點識別動作識別)

項目概述 目標 開發一個能夠實時或近實時識別特定動作的系統,如運動姿勢、表情變化或手勢控制。實現對人體關鍵點的精確追蹤,以便于分析和理解人的動態行為。 技術棧 Intel硬件:可能使用Intel的高性能計算平臺,如Xeon處理器或…

【國潮】國產化系統甲方問題總結

持續更新。。。。。。。。。。。。。。。 【國潮】國產化系統甲方問題總結 1. 安全性問題2. 可靠性和穩定性問題3. 性能問題4. 符合軍事標準問題5. 兼容性和集成問題6. 維護和升級問題7. 項目管理問題8. 隱私和合規性問題9. 災難恢復和備份問題10. 技術支持和培訓問題 引言&am…

zookeeper的shell操作

一:啟動拽庫的shell命令行 zkCli.sh -server localhost:2181 退出:quit 二:查詢所有的命令 help 三:查詢對應的節點 --查詢zk上的根節點 ls / ls /zookeeper 四:查詢對應節點的節點信息(節點的元數據&a…

[AI 大模型] 阿里巴巴 通義千問

文章目錄 [AI 大模型] 阿里巴巴 通義千問簡介模型架構發展新技術和優勢示例 [AI 大模型] 阿里巴巴 通義千問 簡介 阿里巴巴的 通義千問 是由阿里云開發的一款大型語言模型,旨在為用戶提供高效、智能的自然語言處理服務。 通義千問能夠處理多種語言輸入&#xff0c…

c# Bitmap

在C#中,Bitmap 類是一個表示位圖圖像的類,它屬于 System.Drawing 命名空間。Bitmap 類是從 Image 類派生的,因此它繼承了 Image 類的所有屬性和方法,并添加了一些專門用于處理位圖的功能。 以下是關于 Bitmap 類的一些基本信息和…