DatawhaleAI夏令營2024 Task2

#AI夏令營 #Datawhale #夏令營

賽題解析
一、Baseline詳解
- 1.1 環境配置
- 1.2 數據處理任務理解
- 2.3 prompt設計
- 2.4 數據抽取
二、完整代碼
總結

賽題解析

賽事背景
在數字化時代，企業積累了大量對話數據，這些數據不僅是交流記錄，還隱藏著寶貴的信息。群聊對話分角色要素提取是企業營銷和服務的重要策略，通過分析這些數據，企業可以更好地理解客戶需求，提供個性化服務，提升客戶滿意度和商業價值。
賽事任務
從給定的<客服>與<客戶>的群聊對話中，提取出指定的字段信息，具體待提取的字段信息見下文。
數據說明

序號	字段名稱	是否單值	是否可空	難度分數	答案是否唯一
1	基本信息-姓名	是	是	1	是
2	基本信息-手機號碼	是	是	1	是
3	基本信息-郵箱	是	是	1	是
4	基本信息-地區	是	是	1	是
5	基本信息-詳細地址	是	是	1	是
6	基本信息-性別	是	是	1	是
7	基本信息-年齡	是	是	1	是
8	基本信息-生日	是	是	1	是
9	咨詢類型	否	是	2	是
10	意向產品	否	是	3	是
11	購買異議點	否	是	3	是
12	客戶預算-預算是否充足	是	是	2	是
13	客戶預算-總體預算金額	是	是	2	是
14	客戶預算-預算明細	是	是	3	否
15	競品信息	是	是	2	是
16	客戶是否有意向	是	是	1	是
17	客戶是否有卡點	是	是	1	是
18	客戶購買階段	是	是	2	是
19	下一步跟進計劃-參與人	否	是	2	是
20	下一步跟進計劃-時間點	是	是	2	是
21	下一步跟進計劃-具體事項	是	是	3	否
備注

1. 可為空的字段，當判定無相應信息、無法做出判斷等情況，統一取值為空字符串。
2. 對于非單值字段，請使用列表（list）來表示。

平臺說明
參賽選手需基于訊飛星火大模型V3.5完成任務。允許使用大模型微調的方式進行信息抽取, 但微調的基座模型僅限星火大模型。
關于星火V3.5資源，組委會將為報名參賽選手統一發放API資源福利，選手用個人參賽賬號登錄訊飛開放平臺，前往控制臺中查看使用。關于微調訓練資源，選手用參賽賬戶登陸大模型訓練平臺，可領取本次比賽的訓練資源福利。
評審規則
測試集的每條數據同樣包含共21個字段, 按照各字段難易程度劃分總計滿分36分。每個提取正確性的判定標準如下:

1）對于答案唯一字段，將使用完全匹配的方式計算提取是否正確，提取正確得到相應分數，否則為0分

2）對于答案不唯一字段，將綜合考慮提取完整性、語義相似度等維度判定提取的匹配分數，最終該字段得分為 “匹配分數 * 該字段難度分數”

每條測試數據的最終得分為各字段累計得分。最終測試集上的分數為所有測試數據的平均得分。
作品提交要求

1、文件格式：按照 json格式提交

2、文件大小：無要求

3、提交次數限制：每支隊伍每天最多3次

4、文件詳細說明：編碼為UTF-8，具體格式參考提交示例

5、關于大模型的使用說明&限制。

? 如果使用大模型進行信息抽取, 本次僅限使用星火大模型。

? 為了排除人工校驗、修正等作弊方式，本次比賽除了提交答案之外，排行榜前3名選手需要提供完整的源代碼進行審核，要求抽取的結果必須可以準確復現。

? 注：排行榜前3名有審核不通過現象時，依次按得分順延。滿分36分，原則上最終入圍決賽三甲得分不得低于20分。

? 允許使用大模型微調的方式進行信息抽取, 微調的基座模型僅限星火大模型。

一、Baseline詳解

基于星火大模型的群聊對話分角色要素提取挑戰-baseline - 飛槳AI Studio星河社區 (baidu.com)

1.1 環境配置

環境配置

!pip install --upgrade -q spark_ai_python tqdm

大模型api配置

#星火認知大模型Spark3.5 Max的URL值，其他版本大模型URL值請前往文檔（https://www.xfyun.cn/doc/spark/Web.html）查看
SPARKAI_URL = 'wss://spark-api.xf-yun.com/v3.5/chat'
#星火認知大模型調用秘鑰信息，請前往訊飛開放平臺控制臺（https://console.xfyun.cn/services/bm35）查看
SPARKAI_APP_ID = ''
SPARKAI_API_SECRET = ''
SPARKAI_API_KEY = ''
#星火認知大模型Spark3.5 Max的domain值，其他版本大模型domain值請前往文檔（https://www.xfyun.cn/doc/spark/Web.html）查看
SPARKAI_DOMAIN = 'generalv3.5'

1.2 數據處理任務理解

簡單讀取訓練集和測試集，了解任務的具體要求
在這里插入圖片描述
簡單理解為從日常雜亂的聊天數據中自動抽取出結構化的數據

import jsondef read_json(json_file_path):"""讀取json文件"""with open(json_file_path, 'r') as f:data = json.load(f)return datadef write_json(json_file_path, data):"""寫入json文件"""with open(json_file_path, 'w') as f:json.dump(data, f, ensure_ascii=False, indent=4)# 讀取數據
train_data = read_json("dataset/train.json")
test_data = read_json("dataset/test_data.json")# 查看對話數據
print(train_data[100]['chat_text'])

2.3 prompt設計

設計思路：任務目標——抽取數據定義——抽取內容引入——抽取規則強調
設計內容：

# prompt 設計
PROMPT_EXTRACT = """
你將獲得一段群聊對話記錄。你的任務是根據給定的表單格式從對話記錄中提取結構化信息。在提取信息時，請確保它與類型信息完全匹配，不要添加任何沒有出現在下面模式中的屬性。表單格式如下：
info: Array<Dict("基本信息-姓名": string | "",  // 客戶的姓名。"基本信息-手機號碼": string | "",  // 客戶的手機號碼。"基本信息-郵箱": string | "",  // 客戶的電子郵箱地址。"基本信息-地區": string | "",  // 客戶所在的地區或城市。"基本信息-詳細地址": string | "",  // 客戶的詳細地址。"基本信息-性別": string | "",  // 客戶的性別。"基本信息-年齡": string | "",  // 客戶的年齡。"基本信息-生日": string | "",  // 客戶的生日。"咨詢類型": string[] | [],  // 客戶的咨詢類型，如詢價、答疑等。"意向產品": string[] | [],  // 客戶感興趣的產品。"購買異議點": string[] | [],  // 客戶在購買過程中提出的異議或問題。"客戶預算-預算是否充足": string | "",  // 客戶的預算是否充足。示例：充足, 不充足"客戶預算-總體預算金額": string | "",  // 客戶的總體預算金額。"客戶預算-預算明細": string | "",  // 客戶預算的具體明細。"競品信息": string | "",  // 競爭對手的信息。"客戶是否有意向": string | "",  // 客戶是否有購買意向。示例：有意向, 無意向"客戶是否有卡點": string | "",  // 客戶在購買過程中是否遇到阻礙或卡點。示例：有卡點, 無卡點"客戶購買階段": string | "",  // 客戶當前的購買階段，如合同中、方案交流等。"下一步跟進計劃-參與人": string[] | [],  // 下一步跟進計劃中涉及的人員（客服人員）。"下一步跟進計劃-時間點": string | "",  // 下一步跟進的時間點。"下一步跟進計劃-具體事項": string | ""  // 下一步需要進行的具體事項。
)>請分析以下群聊對話記錄，并根據上述格式提取信息：**對話記錄：**{content}請將提取的信息以JSON格式輸出。
不要添加任何澄清信息。
輸出必須遵循上面的模式。
不要添加任何沒有出現在模式中的附加字段。
不要隨意刪除字段。**輸出：**[{{"基本信息-姓名": "姓名","基本信息-手機號碼": "手機號碼","基本信息-郵箱": "郵箱","基本信息-地區": "地區","基本信息-詳細地址": "詳細地址","基本信息-性別": "性別","基本信息-年齡": "年齡","基本信息-生日": "生日","咨詢類型": ["咨詢類型"],"意向產品": ["意向產品"],"購買異議點": ["購買異議點"],"客戶預算-預算是否充足": "充足或不充足","客戶預算-總體預算金額": "總體預算金額","客戶預算-預算明細": "預算明細","競品信息": "競品信息","客戶是否有意向": "有意向或無意向","客戶是否有卡點": "有卡點或無卡點","客戶購買階段": "購買階段","下一步跟進計劃-參與人": ["跟進計劃參與人"],"下一步跟進計劃-時間點": "跟進計劃時間點","下一步跟進計劃-具體事項": "跟進計劃具體事項"
}}, ...]"""

2.4 數據抽取

使用prompt進行調試發現以下幾個問題：
1. 大模型總是不能直接輸出python直接可讀取的json格式，如：

[{"基本信息-姓名": "張三","基本信息-手機號碼": "12345678901","基本信息-郵箱": "zhangsan@example.com","基本信息-地區": "北京市","基本信息-詳細地址": "朝陽區某街道","基本信息-性別": "男","基本信息-年齡": "30","基本信息-生日": "1990-01-01","咨詢類型": ["詢價"],"意向產品": ["產品A"],"購買異議點": ["價格高"],"客戶預算-預算是否充足": "充足","客戶預算-總體預算金額": "10000","客戶預算-預算明細": "詳細預算內容","競品信息": "競爭對手B","客戶是否有意向": "有意向","客戶是否有卡點": "無卡點","客戶購買階段": "合同中","下一步跟進計劃-參與人": ["客服A"],"下一步跟進計劃-時間點": "2024-07-01","下一步跟進計劃-具體事項": "溝通具體事項"}
]

  故使用函數convert_all_json_in_text_to_dict對json數據進行提取

def convert_all_json_in_text_to_dict(text):"""提取LLM輸出文本中的json字符串"""dicts, stack = [], []for i in range(len(text)):if text[i] == '{':stack.append(i)elif text[i] == '}':begin = stack.pop()if not stack:dicts.append(json.loads(text[begin:i+1]))return dicts

大模型偶爾會出現缺少字段的情況，故使用check_and_complete_json_format函數對大模型抽取的結果進行字段格式的檢查以及缺少的字段進行補全。

二、完整代碼

# 數據導入
from sparkai.llm.llm import ChatSparkLLM, ChunkPrintHandler
from sparkai.core.messages import ChatMessage
import json
from tqdm import tqdm
---
#星火認知大模型Spark3.5 Max的URL值，其他版本大模型URL值請前往文檔（https://www.xfyun.cn/doc/spark/Web.html）查看
SPARKAI_URL = 'wss://spark-api.xf-yun.com/v3.5/chat'
#星火認知大模型調用秘鑰信息，請前往訊飛開放平臺控制臺（https://console.xfyun.cn/services/bm35）查看
SPARKAI_APP_ID = ''
SPARKAI_API_SECRET = ''
SPARKAI_API_KEY = ''
#星火認知大模型Spark3.5 Max的domain值，其他版本大模型domain值請前往文檔（https://www.xfyun.cn/doc/spark/Web.html）查看
SPARKAI_DOMAIN = 'generalv3.5'
---
# 測試模型配置是否正確
def get_completions(text):messages = [ChatMessage(role="user",content=text)]spark = ChatSparkLLM(spark_api_url=SPARKAI_URL,spark_app_id=SPARKAI_APP_ID,spark_api_key=SPARKAI_API_KEY,spark_api_secret=SPARKAI_API_SECRET,spark_llm_domain=SPARKAI_DOMAIN,streaming=False,)handler = ChunkPrintHandler()a = spark.generate([messages], callbacks=[handler])return a.generations[0][0].texttext = "你好"
get_completions(text)
---
# prompt 設計
PROMPT_EXTRACT = """
你將獲得一段群聊對話記錄。你的任務是根據給定的表單格式從對話記錄中提取結構化信息。在提取信息時，請確保它與類型信息完全匹配，不要添加任何沒有出現在下面模式中的屬性。表單格式如下：
info: Array<Dict("基本信息-姓名": string | "",  // 客戶的姓名。"基本信息-手機號碼": string | "",  // 客戶的手機號碼。"基本信息-郵箱": string | "",  // 客戶的電子郵箱地址。"基本信息-地區": string | "",  // 客戶所在的地區或城市。"基本信息-詳細地址": string | "",  // 客戶的詳細地址。"基本信息-性別": string | "",  // 客戶的性別。"基本信息-年齡": string | "",  // 客戶的年齡。"基本信息-生日": string | "",  // 客戶的生日。"咨詢類型": string[] | [],  // 客戶的咨詢類型，如詢價、答疑等。"意向產品": string[] | [],  // 客戶感興趣的產品。"購買異議點": string[] | [],  // 客戶在購買過程中提出的異議或問題。"客戶預算-預算是否充足": string | "",  // 客戶的預算是否充足。示例：充足, 不充足"客戶預算-總體預算金額": string | "",  // 客戶的總體預算金額。"客戶預算-預算明細": string | "",  // 客戶預算的具體明細。"競品信息": string | "",  // 競爭對手的信息。"客戶是否有意向": string | "",  // 客戶是否有購買意向。示例：有意向, 無意向"客戶是否有卡點": string | "",  // 客戶在購買過程中是否遇到阻礙或卡點。示例：有卡點, 無卡點"客戶購買階段": string | "",  // 客戶當前的購買階段，如合同中、方案交流等。"下一步跟進計劃-參與人": string[] | [],  // 下一步跟進計劃中涉及的人員（客服人員）。"下一步跟進計劃-時間點": string | "",  // 下一步跟進的時間點。"下一步跟進計劃-具體事項": string | ""  // 下一步需要進行的具體事項。
)>請分析以下群聊對話記錄，并根據上述格式提取信息：**對話記錄：**{content}請將提取的信息以JSON格式輸出。
不要添加任何澄清信息。
輸出必須遵循上面的模式。
不要添加任何沒有出現在模式中的附加字段。
不要隨意刪除字段。**輸出：**[{{"基本信息-姓名": "姓名","基本信息-手機號碼": "手機號碼","基本信息-郵箱": "郵箱","基本信息-地區": "地區","基本信息-詳細地址": "詳細地址","基本信息-性別": "性別","基本信息-年齡": "年齡","基本信息-生日": "生日","咨詢類型": ["咨詢類型"],"意向產品": ["意向產品"],"購買異議點": ["購買異議點"],"客戶預算-預算是否充足": "充足或不充足","客戶預算-總體預算金額": "總體預算金額","客戶預算-預算明細": "預算明細","競品信息": "競品信息","客戶是否有意向": "有意向或無意向","客戶是否有卡點": "有卡點或無卡點","客戶購買階段": "購買階段","下一步跟進計劃-參與人": ["跟進計劃參與人"],"下一步跟進計劃-時間點": "跟進計劃時間點","下一步跟進計劃-具體事項": "跟進計劃具體事項"
}}, ...]"""
---
# 讀取數據
def read_json(json_file_path):"""讀取json文件"""with open(json_file_path, 'r') as f:data = json.load(f)return datadef write_json(json_file_path, data):"""寫入json文件"""with open(json_file_path, 'w') as f:json.dump(data, f, ensure_ascii=False, indent=4)def get_completions(text):messages = [ChatMessage(role="user",content=text)]spark = ChatSparkLLM(spark_api_url=SPARKAI_URL,spark_app_id=SPARKAI_APP_ID,spark_api_key=SPARKAI_API_KEY,spark_api_secret=SPARKAI_API_SECRET,spark_llm_domain=SPARKAI_DOMAIN,streaming=False,)handler = ChunkPrintHandler()a = spark.generate([messages], callbacks=[handler])return a.generations[0][0].textdef convert_all_json_in_text_to_dict(text):"""提取LLM輸出文本中的json字符串"""dicts, stack = [], []for i in range(len(text)):if text[i] == '{':stack.append(i)elif text[i] == '}':begin = stack.pop()if not stack:dicts.append(json.loads(text[begin:i+1]))return dictsclass JsonFormatError(Exception):def __init__(self, message):self.message = messagesuper().__init__(self.message)def check_and_complete_json_format(data):required_keys = {"基本信息-姓名": str,"基本信息-手機號碼": str,"基本信息-郵箱": str,"基本信息-地區": str,"基本信息-詳細地址": str,"基本信息-性別": str,"基本信息-年齡": str,"基本信息-生日": str,"咨詢類型": list,"意向產品": list,"購買異議點": list,"客戶預算-預算是否充足": str,"客戶預算-總體預算金額": str,"客戶預算-預算明細": str,"競品信息": str,"客戶是否有意向": str,"客戶是否有卡點": str,"客戶購買階段": str,"下一步跟進計劃-參與人": list,"下一步跟進計劃-時間點": str,"下一步跟進計劃-具體事項": str}if not isinstance(data, list):raise JsonFormatError("Data is not a list")for item in data:if not isinstance(item, dict):raise JsonFormatError("Item is not a dictionary")for key, value_type in required_keys.items():if key not in item:item[key] = [] if value_type == list else ""if not isinstance(item[key], value_type):raise JsonFormatError(f"Key '{key}' is not of type {value_type.__name__}")if value_type == list and not all(isinstance(i, str) for i in item[key]):raise JsonFormatError(f"Key '{key}' does not contain all strings in the list")if __name__ == "__main__":retry_count = 5 # 重試次數result = []error_data = []# 讀取數據train_data = read_json("dataset/train.json")test_data = read_json("dataset/test_data.json")for index, data in tqdm(enumerate(test_data)):index += 1is_success = Falsefor i in range(retry_count):try:res = get_completions(PROMPT_EXTRACT.format(content=data["chat_text"]))infos = convert_all_json_in_text_to_dict(res)infos = check_and_complete_json_format(infos)result.append({"infos": infos,"index": index})is_success = Truebreakexcept Exception as e:print("index:", index, ", error:", e)continueif not is_success:data["index"] = indexerror_data.append(data)write_json("output.json", result)