Python使用FastAPI結合Word2vec來向量化200維的語言向量數值

準備

pip install fastapi>=0.68.0
pip install uvicorn[standard]>=0.15.0
pip install gensim>=4.0.0
pip install jieba>=0.42.1
pip install numpy>=1.21.0
pip install scikit-learn>=1.0.0

少了的就直接補充就好

代碼

from fastapi import FastAPI, HTTPException
from gensim.models import KeyedVectors
import jieba
import numpy as np
import os
import logging# 配置日志
logging.basicConfig(level=logging.INFO)app = FastAPI(title="Text Embedding API")# 路徑配置
MODEL_PATH = os.path.abspath("../light_Tencent_AILab_ChineseEmbedding.bin")# 服務啟動前檢查
@app.on_event("startup")
async def load_model():global modeltry:if not os.path.exists(MODEL_PATH):raise FileNotFoundError(f"Model file not found: {MODEL_PATH}")model = KeyedVectors.load_word2vec_format(MODEL_PATH, binary=True)logging.info(f"? 模型加載成功 | 詞表量:{len(model.key_to_index)}")logging.info(f"? 詞向量維度:{model.vector_size}")  # 確認輸出200except Exception as e:logging.error(f"? 初始化失敗:{str(e)}")raise RuntimeError("Service initialization failed")def text_to_vector(text: str) -> np.ndarray:"""直接返回200維向量"""words = jieba.lcut(text)vectors = []for word in words:if word in model.key_to_index:vec = model[word]# 添加維度驗證assert vec.shape == (200,), f"詞向量維度異常: {vec.shape}"vectors.append(vec)if not vectors:return np.zeros(model.vector_size)avg_vector = np.mean(vectors, axis=0)assert avg_vector.shape == (200,), f"平均向量維度異常: {avg_vector.shape}"return avg_vector@app.get("/vector")
async def get_vector(sentence: str):if not model:raise HTTPException(503, "服務未就緒")if len(sentence.strip()) < 2:raise HTTPException(400, "輸入文本過短")try:vector = text_to_vector(sentence)return {"dimension": vector.size,"vector": vector.tolist()}except Exception as e:logging.error(f"處理失敗:{str(e)}")raise HTTPException(500, "內部錯誤")if __name__ == "__main__":import uvicornuvicorn.run(app, host="0.0.0.0", port=8000)

結果

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/71759.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/71759.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/71759.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ControlNet

文章目錄 摘要abstract1.ControlNet1.1 原文摘要1.2 模型架構1.3 架構細節1.4 訓練損失函數1.5 實驗1.6 結論 2.總結參考文獻 摘要 本周學習的ControlNet 是一種用于文本到圖像擴散模型&#xff08;如 Stable Diffusion&#xff09;的條件控制方法。它通過凍結預訓練的擴散模型…

Visual-RFT視覺強化微調:用「試錯學習」教會AI看圖說話

&#x1f4dc; 文獻卡 英文題目: Visual-RFT: Visual Reinforcement Fine-Tuning;作者: Ziyu Liu; Zeyi Sun; Yuhang Zang; Xiaoyi Dong; Yuhang Cao; Haodong Duan; Dahua Lin; Jiaqi WangDOI: 10.48550/arXiv.2503.01785摘要翻譯: 像OpenAI o1這樣的大型推理模型中的強化微調…

Hadoop管理頁看不到任務的問題

這個yarn分配任務了但是為空 在$HADOOP_HOME/conf/mapred-site.xml 原來的配置文件基礎之上添加&#xff1a; <property><name>mapreduce.framework.name</name><value>yarn</value></property> 重啟之后就好了

傅里葉變換:跨越時空的數學魔法

引言&#xff1a;從振動到信息——傅里葉的智慧 傅里葉變換&#xff08;Fourier Transform&#xff09;是數學與工程領域最具影響力的工具之一。它的核心思想是將復雜的信號分解為簡單的正弦波和余弦波的疊加&#xff0c;從而揭示隱藏在數據背后的頻率信息。自19世紀法國數學家…

DR和BDR的選舉規則

在 OSPF&#xff08;開放最短路徑優先&#xff09;協議中&#xff0c;DR&#xff08;Designated Router&#xff0c;指定路由器&#xff09; 和 BDR&#xff08;Backup Designated Router&#xff0c;備份指定路由器&#xff09; 的選舉是為了在廣播型網絡&#xff08;如以太網…

【linux網絡編程】套接字編程API詳細介紹

在C語言中&#xff0c;套接字&#xff08;Socket&#xff09;編程主要用于網絡通信&#xff0c;尤其是在基于TCP/IP協議的應用程序開發中。常用的套接字編程API主要基于Berkeley Sockets&#xff08;伯克利套接字&#xff09;接口&#xff0c;這些函數通常在<sys/socket.h&g…

Linux和gcc/g++常用命令總結

目錄 Linux命令總結 文件操作相關命令 ls cd pwd cp mv rm cat mkdir rmdir touch 文本處理操作命令 grep awk sed 進程管理操作相關命令 ps top htop kill pkill killall chmod chown 網絡操作相關命令 ping ifconfig netstat ss lsof curl …

VUE的第二天

1. 指令修飾符 1.1什么是指令修飾符&#xff1f; ? 所謂指令修飾符就是通過“.”指明一些指令后綴 不同的后綴封裝了不同的處理操作 —> 簡化代碼 1.2按鍵修飾符 keyup.enter —>當點擊enter鍵的時候才觸發 代碼演示&#xff1a; <div id"app"><…

WSL with NVIDIA Container Toolkit

一、wsl 下安裝 docker 會提示安裝 docekr 桌面版&#xff0c;所以直接安裝 docker 桌面版本即可 二、安裝 NVIDIA Container Toolkit NVIDIA Container Toolkit倉庫 https://github.com/NVIDIA/nvidia-container-toolkit?github.com/NVIDIA/nvidia-container-toolkit 安裝…

mysql下載

目錄 下載地址&#xff1a; 1.MSI安裝包下載 2.ZIP壓縮包下載 卸載MySQL&#xff1a; 下載地址&#xff1a; MySQL :: Download MySQL Community Server到mysql官網進行下載&#xff1a;MySQL :: Download MySQL Community Server &#xff08;下面二選一&#xff0c;選擇一…

基于Kubernetes部署MySQL主從集群

以下是一個基于Kubernetes部署MySQL主從集群的詳細YAML示例&#xff0c;包含StatefulSet、Service、ConfigMap和Secret等關鍵配置。MySQL主從集群需要至少1個主節點和多個從節點&#xff0c;這里使用 StatefulSet 初始化腳本 實現主從自動配置。 1. 創建 Namespace (可選) ap…

如何使用 GPT-4o 翻譯播客聲音

Voice Translation into Different Languages | OpenAI Cookbook 如何使用 GPT-4o 將播客翻譯并配音成您的母語 您是否曾想過將播客翻譯成您的母語&#xff1f;翻譯和配音音頻內容可以讓全球更多的觀眾獲取信息。而現在&#xff0c;借助 GPT-4o 的音頻輸入&#xff08;audio-i…

Lab17_ Blind SQL injection with out-of-band data exfiltration

文章目錄 前言&#xff1a;進入實驗室構造 payload 前言&#xff1a; 實驗室標題為&#xff1a; 帶外數據泄露的 SQL 盲注 簡介&#xff1a; 本實驗包含一個SQL盲目注入漏洞。應用程序使用跟蹤Cookie進行分析&#xff0c;并執行包含提交的Cookie值的SQL查詢。 SQL查詢是異…

深入解析 configService.addListener 使用中的注意事項

在使用 Nacos 的 configService.addListener 方法進行配置監聽時&#xff0c;為了確保程序的穩定性、可靠性以及高效性&#xff0c;有諸多注意事項需要我們關注。下面將對這些關鍵要點進行詳細闡述。 一、連接穩定性 1.1 網絡連接問題 Nacos 客戶端與服務端通過網絡進行通信&…

C/C++藍橋杯算法真題打卡(Day4)

一、P11041 [藍橋杯 2024 省 Java B] 報數游戲 - 洛谷 算法代碼&#xff1a; #include<bits/stdc.h> using namespace std;// 計算第 n 個滿足條件的數 long long findNthNumber(long long n) {long long low 1, high 1e18; // 二分查找范圍while (low < high) {lo…

【Python 數據結構 10.二叉樹】

目錄 一、二叉樹的基本概念 1.二叉樹的定義 2.二叉樹的特點 3.特殊的二叉樹 Ⅰ、斜樹 Ⅱ、滿二叉樹 Ⅲ、完全二叉樹 Ⅳ、完全二叉樹和滿二叉樹的區別 4.二叉樹的性質 5.二叉樹的順序存儲 Ⅰ、完全二叉樹 Ⅱ、非完全二叉樹 Ⅲ、稀疏二叉樹 6.二叉樹的鏈式存儲 7.二叉樹的遍歷概念…

Windows 系統 Docker Desktop 入門教程:從零開始掌握容器化技術

文章目錄 前言一、Docker 簡介二、Docker Desktop 安裝2.1 系統要求2.2 安裝步驟 三、Docker 基本概念四、Docker 常用命令五、實戰&#xff1a;運行你的第一個容器5.1 拉取并運行 Nginx 容器5.2 查看容器日志5.3 停止并刪除容器 六、總結 前言 隨著云計算和微服務架構的普及&…

可變參數與遞歸

可變參數與遞歸 可變參數 package method; ? public class Demo03 {public static void main(String[] args) {Demo03 demo03new Demo03();demo03.test(1,2,3);?}public void test (int... i){System.out.println(i[0]);//1System.out.println(i[1]);//2System.out.println(…

【redis】全局命令exists、del、expire、ttl(惰性刪除和定期刪除)

exists——判定 key 是否存在 語法&#xff1a; exists key [key...] # 返回值&#xff1a;key 存在的個數針對多個 key 來說&#xff0c;是非常有用的時間復雜度 O ( 1 ) O(1) O(1) Redis 組織這些 key 就是按照哈希表的方式來組織的。Redis 支持很多數據結構指的是 value …

系統架構設計師—系統架構設計篇—特定領域軟件體系結構

文章目錄 概述領域分類垂直域水平域 系統模型基本活動參與角色 概述 特定領域軟件架構&#xff08;Domain Specific Software Architecture&#xff0c;DSSA&#xff09;是在一個特定應用領域中&#xff0c;為一組應用提供組織結構參考的標準團建體系結構。 領域分類 垂直域…