??????
我正在做一個項目,需要我找出最適合內容創作的 LLM。我查看了 lmsys 排行榜上的頂級模型,閱讀了其他人對這些模型的評價,查看了頂級 LLM 的模型卡,在沒有明確答案后,我決定對所有這些 LLM 進行測試,以完成不同的內容創作任務。
評估模型
我想要評估的模型(考慮到它們的成本、易用性以及在 lmsys 排行榜上的排名):
- 駱駝-3–70b
- Mixtral-8x7B
- 雙子座 1.5 專業版
- 克勞德 3 十四行詩
以下是我所做的……
首先,我將內容創作領域分為 5 種不同的用例:
- 博客寫作
- 電子郵件寫作
- 文案撰寫——包括廣告、搜索引擎優化、網站、技術和社交媒體
- 寫劇本
- 內容摘要
在每個用例中,我創建了多個類別,它們要么是子用例,要么是該用例流程的步驟。
每個用例如下所示:
簡單的評估框架
1. GPT-4 Turbo 將擔任第一位評委,根據我根據用例編寫的評估提示,對每個答案進行滿分 10 分的評分。
2.我本人擔任第二位評委。
3. 每位評委將對答案進行滿分 10 分的評分
4. 最終得分為兩次得分的平均數。
制作和策劃提示
在擴展每個用例的類別后,我必須仔細設計將提供給每個 LLM 的提示。不僅僅是創作提示,我知道如果我是唯一一個評估這些 LLM 的回復的人,那將是非常有偏見和不可靠的,所以我和那里最好的 LLM 聯手了gpt-04-turbo
。
現在,
- 每個類別的創建提示
- 每個類別的評估提示
評估將由另一個 LLM 進行,我知道這聽起來很奇怪,但像MT-Bench這樣的基準(請注意,這個評估與 MT-Bench 相差甚遠)也使用強大的 LLM 作為評判者來自動化評估過程。
為了策劃創作提示,我使用了提示工程技術,例如人員采用、明確的指示、思考時間和分隔的參考文本。
例如,
社交媒體文案提示:假設您是一家精品咖啡店的社交媒體經理,這家咖啡店以使用公平貿易的有機咖啡豆而自豪。您的目標是吸引經常光顧咖啡店作為社交中心的年輕時尚受眾。制作一系列社交媒體帖子:— 用生動的視覺效果和誘人的描述介紹一種新的季節性混合咖啡