機器學習——詞向量模型(CBOW代碼實現-未開始)

本來是不打算做這個CBOW代碼案例的,想快馬加鞭看看前饋神經網絡
畢竟書都買好了
可是…可是…我看書的時候,感覺有點兒困難,哭的很大聲…
感覺自己腦細胞可能無法這么快接受
要不,還是退而求個稍微難度沒那么大的事,想想自己還有什么是沒實現的呢
哦!CBOW的案例還沒做呢~
在一個巨人面前,我無恥地選擇了暫避其鋒芒
就好像,我本應該英勇地邁過刀山火海,可是我卻慫了
而且,慫的有理有據:CBOW還沒實現呢
只希望,CBOW案例,不要太難,不然我根本寸步難行,只能天天打游戲聊以自慰

首先,我計劃做一個客服預料包,然后用CBOW去預測某個中間關鍵詞

目標明確后,問題接踵而至

問題1-能否用中文語料:不行,因為中文分詞很麻煩,我懶得去搞分詞,重點是CBOW
英文語料很簡單,因為英文是一個詞跟另一個詞,用空格分開,獲取十分簡單

問題2-頭尾單詞怎么解決:畢竟CBOW是獲取關鍵詞的前c個和后c個單詞來訓練的,但開頭單詞沒有前c個單詞,末尾單詞沒有后c個單詞
解決辦法:用額外的單詞替代,比如None,應該問題不大的吧

問題3-按句還是按所有句取上下文:如果是按句取上下文,那么一個句子開頭和末尾單詞的下文就是None,語料文件有很多個句子,就會有很多個None。
如果按所有句取上下文,那整個語料文件就只有開頭有None,末尾有None,None數量很少
解決辦法:還是按句吧,畢竟兩句之間的上下文,是毫無關系的。

按照【基于HierarchicalSoftmax的CBOW】正反向傳播流程,來設計程序吧!

【基于HierarchicalSoftmax的CBOW】正向傳播過程

  • 輸入層:
    • 轉換獨熱編碼:將詞典D轉換為one-hot獨熱編碼,
    • 獲取上下文:按規定上下文的長度k,來截取語庫C里的上下文單詞 x x x和預測單詞 y ? y* y?
    • 獲取獨熱編碼:獲取上下文單詞x的獨熱編碼向量 x 1 x1 x1, x 2 x2 x2, x 3 x3 x3, x 4 x4 x4,作為初始輸入矩陣X=[ x 1 x1 x1, x 2 x2 x2, x 3 x3 x3, x 4 x4 x4]
  • 投影層:
    • 計算中間向量:
      • 將初始矩陣X乘以一個權重矩陣W,提取出各個初始向量 x 1 x1 x1, x 2 x2 x2, x 3 x3 x3, x 4 x4 x4的權重系數 w 1 w1 w1 w 2 w2 w2 w 3 w3 w3 w 4 w4 w4
      • 將這些權重系數加和,作為中間向量h=[ w 1 w1 w1+ w 2 w2 w2+ w 3 w3 w3+ w 4 w4 w4],注意,這里的加和是按列加和
  • 輸出層:
    • 構建huffman樹,
    • 計算路徑概率
    • 計算預測模型

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/166359.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/166359.shtml
英文地址,請注明出處:http://en.pswp.cn/news/166359.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【多線程】-- 01 線程創建之繼承Thread多線程同步下載網絡圖片

多線程 1 簡介 1.1 多任務、多線程 普通方法調用:只有主線程一條執行路徑 多線程:多條執行路徑,主線程和子線程并行交替執行 如下圖所示: 1.2 程序.進程.線程 一個進程可以有多個線程,例如視頻中同時聽聲音、看圖…

idea 問題合集

調試按鈕失效: 依次點擊:Modules-web-src-Sources,重啟IDEA即可(網上看到的方法,原因呢未明)

U-boot(四):start_armboot

本文主要探討210的uboot啟動的第二階段,主要函數為start_armboot。 uboot 一階段初始化SoC內部部件(看門狗、時鐘等),初始化DDR,重定位 二階段初始化其余硬件(iNand、網卡芯片)以及命令、環境變量等 啟動打印硬件信息,進入bootdelay,讀秒完后執行bootc…

SpringCloud Alibaba集成 Gateway(自定義負載均衡器)、Nacos(配置中心、注冊中心)、loadbalancer

文章目錄 POM依賴環境準備配置配置文件配置類 案例展示 POM依賴 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.7.10</version><relativePath/></p…

【華為OD】C卷真題 100%通過:執行時長 C/C++實現

【華為OD】C卷真題 100%通過:執行時長 C/C實現 目錄 題目描述&#xff1a; 示例1 示例2 代碼實現&#xff1a; 題目描述&#xff1a; 為了充分發揮GPU算力&#xff0c;需要盡可能多的將任務交給GPU執行&#xff0c;現在有一個任務數組&#xff0c;數組元素表示在這1秒內…

百度ai試用

JMaven Central: com.baidu.aip:java-sdk (sonatype.com) Java sdk地址如上&#xff1a; 文心一言開發者 文心一言 (baidu.com) ERNIE Bot SDK提供便捷易用的接口&#xff0c;可以調用文心一言的能力&#xff0c;包含文本創作、通用對話、語義向量、AI作圖等。 pip install…

什么是輕量應用服務器?可以從亞馬遜云科技的優勢入手了解

什么是輕量應用服務器&#xff1f; 隨著如今各行各業對云計算的需求越來越多&#xff0c;云服務器也被越來越多的企業所廣泛采用。其中&#xff0c;輕量應用服務器是一種簡單、高效、可靠的云計算服務&#xff0c;能夠為開發人員、企業和個人提供輕量級的虛擬專用服務器&#x…

PTP精密時鐘同步(1588)如何完成精準時間同步?

PTP精密時鐘同步&#xff08;1588&#xff09;如何完成精準時間同步&#xff1f; PTP精密時鐘同步&#xff08;1588&#xff09;如何完成精準時間同步&#xff1f; 引言   以太網技術由于其開放性好、價格低廉和使用方便等特點&#xff0c;已經廣泛應用于電信級別的網絡中&am…

Centos部署GitLab-備份恢復

1. 下載rpm包 wget https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/gitlab-ce-10.8.4-ce.0.el7.x86_64.rpm2. 安裝依賴 yum -y install policycoreutils openssh-server openssh-clients postfix policycoreutils-python3. rpm安裝 rpm -ivh gitlab-ce-10.8.4-ce.…

TCP 重傳、滑動窗口、流量控制、擁塞控制的剖析

TCP 是一個可靠傳輸的協議&#xff0c;那它是如何保證可靠的呢&#xff1f; 為了實現可靠性傳輸&#xff0c;需要考慮很多事情&#xff0c;例如數據的破壞、丟包、重復以及分片順序混亂等問題。如不能解決這些問題&#xff0c;也就無從談起可靠傳輸。 那么&#xff0c;TCP 是…

zend studio 的主題安裝、卸載和更新

zend studio的主題插件安裝 我的zend studio版本是13.6 在Welcome頁面右側看到有好多插件可以安裝&#xff0c;現在我們來安裝主題&#xff0c;主題插件就是Eclipse Color Theme。先選中Eclipse Color Theme選項打勾&#xff0c;然后點擊Apply changs 按鈕進行安裝。 安裝完成…

深入理解移動端H5視頻通話中的攝像頭切換實踐

在移動端H5應用中實現視頻通話功能,已經成為現代Web應用的標配之一。隨著Web技術的發展,我們不僅能夠在桌面瀏覽器上實現復雜的視頻通話功能,也能夠在移動端瀏覽器中提供幾乎原生應用級別的流暢體驗。本文將詳細介紹如何在使用聲網(Agora)Web SDK的移動端H5應用中實現攝像…

亞馬遜云科技向量數據庫助力生成式AI成功落地實踐探秘(一) ?

隨著大語言模型效果明顯提升&#xff0c;其相關的應用不斷涌現呈現出越來越火爆的趨勢。其中一種比較被廣泛關注的技術路線是大語言模型&#xff08;LLM&#xff09;知識召回&#xff08;Knowledge Retrieval&#xff09;的方式&#xff0c;在私域知識問答方面可以很好的彌補通…

案例023:基于微信小程序的童裝商城的設計與實現

文末獲取源碼 開發語言&#xff1a;Java 框架&#xff1a;SSM JDK版本&#xff1a;JDK1.8 數據庫&#xff1a;mysql 5.7 開發軟件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序開發軟件&#xff1a;HBuilder X 小程序…

Nginx503有哪些解決辦法

還是經常見到的服務部署問題&#xff0c;今天遇見的是503&#xff1a; 503 的可能原因 Nginx 返回 503 錯誤通常表示服務暫時不可用。一些常見的原因包括&#xff1a; 后端服務故障&#xff1a;后端服務可能由于程序錯誤、崩潰或異常情況而無法正常響應請求。這可能是由于服…

在vue或者react或angular中,模板表達式中的箭頭函數是無效的嗎?為什么無效?

出現此問題的背景&#xff1a; 我在Angular項目中對一個標簽屬性綁定了一個箭頭函數&#xff0c;編譯報錯。 在vue或者react或angular中&#xff0c;模板表達式中的箭頭函數是無效的嗎&#xff1f; 在 Vue、React 或 Angular 中&#xff0c;模板表達式中的箭頭函數是無效的。…

Java常量池理論篇:Class常量池、運行時常量池、String常量池、基本類型常量池,intern方法1.6、1.7的區別

文章目錄 Class常量池運行時常量池String常量池基本類型常量池Integer 常量池Long 常量池 加餐部分 Class常量池 每個Class字節碼文件中包含類常量池用來存放字面量以及符號引用等信息。 運行時常量池 java文件被編譯成class文件之后&#xff0c;也就是會生成我上面所說的 …

webshell之基于框架免殺

thinkphp array_map_recursive函數 array_map_recursive函數分析 這里存在一個call_user_func命令執行函數 免殺效果 B函數 免殺效果 B函數分析 exec函數分析 在exec函數用存在有個類調用&#xff0c;且所有的參數都可控 smarty_php_tag函數 免殺效果 smarty_php_tag函數分析…

【開源】基于Vue.js的數據可視化的智慧河南大屏

項目編號&#xff1a; S 059 &#xff0c;文末獲取源碼。 \color{red}{項目編號&#xff1a;S059&#xff0c;文末獲取源碼。} 項目編號&#xff1a;S059&#xff0c;文末獲取源碼。 目錄 一、摘要1.1 項目介紹1.2 項目錄屏 二、功能模塊三、系統展示四、核心代碼4.1 數據模塊 …

HTML新手入門筆記整理:塊元素和行內元素

塊元素 在HTML中&#xff0c;塊元素在瀏覽器顯示狀態下獨占一行&#xff0c;并且排斥其他元素與其位于一行。一般情況下&#xff0c;塊元素內部可以容納其他塊元素和行內元素。 常見塊元素 塊元素 說明 h1~h6 標題元素 p 段落元素 div div元素 hr 水平線 ol 有序列…