強化學習常用數據集
- 數學推理數據集
- 數值標簽
- GSM8K(2021 OpenAI)
- 問答數據集
在LLM場景下進行強化學習訓練的時候,時常會涉及到各種各樣的數據集,容易記不住,因此開個帖子記錄一下。可采取的分類方法有很多,這里直接按照領域和標簽的類型進行層次劃分。
數學推理數據集
數值標簽
GSM8K(2021 OpenAI)
由Openai在2021年提出的,包括約8500個小學數學問題(小學數學詞匯水平)。
下載地址:https://huggingface.co/datasets/openai/gsm8k
論文地址:https://arxiv.org/pdf/2110.14168
下面是論文中給出的三個例子,其中紅色用<<>>擴起來的是對具體計算過程的注釋。
最終的final answer是對于問題最終答案結果的注釋。
但是,在觀察實際數據的時候如下:
其中對于計算過程的注釋沒問題,用:<<>>
對于最終答案的注釋,在實際的數據集中:用`#### `后的內容表示