[python] 使用Jieba工具中文分詞及文本聚類概念

https://img-blog.csdn.net/20151211021909383

前面講述了很多關于Python爬取本體Ontology、消息盒InfoBox、虎撲圖片等例子,同時講述了VSM向量空間模型的應用。但是由于InfoBox沒有前后文和語義概念,所以效果不是很好,這篇文章主要是爬取百度5A景區摘要信息,再利用Jieba分詞工具進行中文分詞,最后提出文本聚類算法的一些概念知識。

一. Selenium爬取百度百科摘要

? ? ? ? 簡單給出Selenium爬取百度百科5A級景區的代碼:

[python]?view plain?copy

  1. #?coding=utf-8????
  2. """??
  3. Created?on?2015-12-10?@author:?Eastmount???
  4. """????
  5. ????
  6. import?time????????????
  7. import?re????????????
  8. import?os????
  9. import?sys??
  10. import?codecs??
  11. import?shutil??
  12. from?selenium?import?webdriver????????
  13. from?selenium.webdriver.common.keys?import?Keys????????
  14. import?selenium.webdriver.support.ui?as?ui????????
  15. from?selenium.webdriver.common.action_chains?import?ActionChains????
  16. ????
  17. #Open?PhantomJS????
  18. driver?=?webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")????
  19. #driver?=?webdriver.Firefox()????
  20. wait?=?ui.WebDriverWait(driver,10)??
  21. ??
  22. #Get?the?Content?of?5A?tourist?spots????
  23. def?getInfobox(entityName,?fileName):????
  24. ????try:????
  25. ????????#create?paths?and?txt?files??
  26. ????????print?u'文件名稱:?',?fileName??
  27. ????????info?=?codecs.open(fileName,?'w',?'utf-8')????
  28. ??
  29. ????????#locate?input??notice:?1.visit?url?by?unicode?2.write?files??
  30. ????????#Error:?Message:?Element?not?found?in?the?cache?-??
  31. ????????#???????Perhaps?the?page?has?changed?since?it?was?looked?up??
  32. ????????#解決方法:?使用Selenium和Phantomjs??
  33. ????????print?u'實體名稱:?',?entityName.rstrip('\n')???
  34. ????????driver.get("http://baike.baidu.com/")????
  35. ????????elem_inp?=?driver.find_element_by_xpath("//form[@id='searchForm']/input")????
  36. ????????elem_inp.send_keys(entityName)????
  37. ????????elem_inp.send_keys(Keys.RETURN)????
  38. ????????info.write(entityName.rstrip('\n')+'\r\n')??#codecs不支持'\n'換行????
  39. ????
  40. ????????#load?content?摘要??
  41. ????????elem_value?=?driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")??
  42. ????????for?value?in?elem_value:??
  43. ????????????print?value.text??
  44. ????????????info.writelines(value.text?+?'\r\n')??
  45. ??
  46. ????????#爬取文本信息??
  47. ????????#爬取所有段落<div?class='para'>的內容?class='para-title'為標題?[省略]??
  48. ????????time.sleep(2)????
  49. ????????????
  50. ????except?Exception,e:????#'utf8'?codec?can't?decode?byte????
  51. ????????print?"Error:?",e????
  52. ????finally:????
  53. ????????print?'\n'????
  54. ????????info.close()???
  55. ????
  56. #Main?function????
  57. def?main():??
  58. ????#By?function?get?information??
  59. ????path?=?"BaiduSpider\\"??
  60. ????if?os.path.isdir(path):??
  61. ????????shutil.rmtree(path,?True)??
  62. ????os.makedirs(path)??
  63. ????source?=?open("Tourist_spots_5A_BD.txt",?'r')??
  64. ????num?=?1??
  65. ????for?entityName?in?source:????
  66. ????????entityName?=?unicode(entityName,?"utf-8")????
  67. ????????if?u'故宮'?in?entityName:???#else?add?a?'?'????
  68. ????????????entityName?=?u'北京故宮'??
  69. ????????name?=?"%04d"?%?num??
  70. ????????fileName?=?path?+?str(name)?+?".txt"??
  71. ????????getInfobox(entityName,?fileName)??
  72. ????????num?=?num?+?1??
  73. ????print?'End?Read?Files!'????
  74. ????source.close()????
  75. ????driver.close()??
  76. ??????
  77. if?__name__?==?'__main__':??
  78. ????main()????

? ? ? ? 內容如下圖所示,共204個國家5A級景點的摘要信息。這里就不再敘述:

https://img-blog.csdn.net/20151210232925012



?

二. Jieba中文分詞

? ? ? ? Python中分分詞工具很多,包括盤古分詞、Yaha分詞、Jieba分詞等。
? ? ? ? 中文分詞庫:中文分詞庫 - 開源軟件 - OSCHINA - 中文開源技術交流社區
? ? ? ? 其中它們的基本用法都相差不大,但是Yaha分詞不能處理如“黃琉璃瓦頂”或“圜丘壇”等詞,所以使用了結巴分詞。

? ? ? ??1.安裝及入門介紹
? ? ? ? 參考地址:jieba首頁、文檔和下載 - Python中文分詞組件 - OSCHINA - 中文開源技術交流社區
? ? ? ? 下載地址:jieba · PyPI
? ? ? ? Python 2.0我推薦使用"pip install jieba"或"easy_install jieba"全自動安裝,再通過import jieba來引用(第一次import時需要構建Trie樹,需要等待幾秒時間)。
? ? ? ? 安裝時如果出現錯誤"unknown encoding: cp65001",輸入"chcp 936"將編碼方式由utf-8變為簡體中文gbk。

https://img-blog.csdn.net/20151211001842210


? ? ? ? 結巴中文分詞涉及到的算法包括:
? ? ? ? (1)?基于Trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG);
? ? ? ? (2)?采用了動態規劃查找最大概率路徑, 找出基于詞頻的最大切分組合;
? ? ? ? (3)?對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。

? ? ? ? 結巴中文分詞支持的三種分詞模式包括:
? ? ? ? (1)?精確模式:試圖將句子最精確地切開,適合文本分析;
? ? ? ? (2)?全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義問題;
? ? ? ? (3)?搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
? ? ? ? 同時結巴分詞支持繁體分詞和自定義字典方法。

?

[python]?view plain?copy

  1. #encoding=utf-8??
  2. import?jieba??
  3. ??
  4. #全模式??
  5. text?=?"我來到北京清華大學"??
  6. seg_list?=?jieba.cut(text,?cut_all=True)??
  7. print?u"[全模式]:?",?"/?".join(seg_list)???
  8. ??
  9. #精確模式??
  10. seg_list?=?jieba.cut(text,?cut_all=False)??
  11. print?u"[精確模式]:?",?"/?".join(seg_list)??
  12. ??
  13. #默認是精確模式??
  14. seg_list?=?jieba.cut(text)??
  15. print?u"[默認模式]:?",?"/?".join(seg_list)???
  16. ??
  17. #新詞識別?“杭研”并沒有在詞典中,但是也被Viterbi算法識別出來了??
  18. seg_list?=?jieba.cut("他來到了網易杭研大廈")???
  19. print?u"[新詞識別]:?",?"/?".join(seg_list)??
  20. ??
  21. #搜索引擎模式??
  22. seg_list?=?jieba.cut_for_search(text)???
  23. print?u"[搜索引擎模式]:?",?"/?".join(seg_list)??

? ? ? ? 輸出如下圖所示:

https://img-blog.csdn.net/20151211004304803

? ? ? ? 代碼中函數簡單介紹如下:
? ? ? ? jieba.cut():第一個參數為需要分詞的字符串,第二個cut_all控制是否為全模式。
? ? ? ? jieba.cut_for_search():僅一個參數,為分詞的字符串,該方法適合用于搜索引擎構造倒排索引的分詞,粒度比較細。
? ? ? ? 其中待分詞的字符串支持gbk\utf-8\unicode格式。返回的結果是一個可迭代的generator,可使用for循環來獲取分詞后的每個詞語,更推薦使用轉換為list列表。

? ? ? ??2.添加自定義詞典
? ? ? ? 由于"國家5A級景區"存在很多旅游相關的專有名詞,舉個例子:
? ?[輸入文本]?故宮的著名景點包括乾清宮、太和殿和黃琉璃瓦等
? ?[精確模式]?故宮//著名景點/包括//清宮//太和殿///琉璃瓦/
? ?[ ]?故宮//著名/著名景點/景點/包括//清宮/太和/太和殿///琉璃/琉璃瓦/
? ? ? ? 顯然,專有名詞"乾清宮"、"太和殿"、"黃琉璃瓦"(假設為一個文物)可能因分詞而分開,這也是很多分詞工具的又一個缺陷。但是Jieba分詞支持開發者使用自定定義的詞典,以便包含jieba詞庫里沒有的詞語。雖然結巴有新詞識別能力,但自行添加新詞可以保證更高的正確率,尤其是專有名詞。
? ? ? ? 基本用法:jieba.load_userdict(file_name) #file_name為自定義詞典的路徑
? ? ? ??詞典格式和dict.txt一樣,一個詞占一行;每一行分三部分,一部分為詞語,另一部分為詞頻,最后為詞性(可省略,ns為地點名詞),用空格隔開。
? ? ? ? 強烈推薦一篇詞性標注文章,鏈接如下:
? ? ? ??
http://www.hankcs.com/nlp/part-of-speech-tagging.html
?

[python]?view plain?copy

  1. #encoding=utf-8??
  2. import?jieba??
  3. ??
  4. #導入自定義詞典??
  5. jieba.load_userdict("dict.txt")??
  6. ??
  7. #全模式??
  8. text?=?"故宮的著名景點包括乾清宮、太和殿和黃琉璃瓦等"??
  9. seg_list?=?jieba.cut(text,?cut_all=True)??
  10. print?u"[全模式]:?",?"/?".join(seg_list)???
  11. ??
  12. #精確模式??
  13. seg_list?=?jieba.cut(text,?cut_all=False)??
  14. print?u"[精確模式]:?",?"/?".join(seg_list)??
  15. ??
  16. #搜索引擎模式??
  17. seg_list?=?jieba.cut_for_search(text)???
  18. print?u"[搜索引擎模式]:?",?"/?".join(seg_list)??

? ? ? ? 輸出結果如下所示,其中專有名詞連在一起,即"乾清宮"和"黃琉璃瓦"。

https://img-blog.csdn.net/20151211013017417


? ? ? ??3.關鍵詞提取
? ? ? ? 在構建VSM向量空間模型過程或者把文本轉換成數學形式計算中,你需要運用到關鍵詞提取的技術,這里就再補充該內容,而其他的如詞性標注、并行分詞、獲取詞位置和搜索引擎就不再敘述了。
? ? ? ? 基本方法:jieba.analyse.extract_tags(sentence, topK)?
? ? ? ??需要先import jieba.analyse,其中sentence為待提取的文本,topK為返回幾個TF/IDF權重最大的關鍵詞,默認值為20。

?

[python]?view plain?copy

  1. #encoding=utf-8??
  2. import?jieba??
  3. import?jieba.analyse??
  4. ??
  5. #導入自定義詞典??
  6. jieba.load_userdict("dict.txt")??
  7. ??
  8. #精確模式??
  9. text?=?"故宮的著名景點包括乾清宮、太和殿和午門等。其中乾清宮非常精美,午門是紫禁城的正門,午門居中向陽。"??
  10. seg_list?=?jieba.cut(text,?cut_all=False)??
  11. print?u"分詞結果:"??
  12. print?"/".join(seg_list)??
  13. ??
  14. #獲取關鍵詞??
  15. tags?=?jieba.analyse.extract_tags(text,?topK=3)??
  16. print?u"關鍵詞:"??
  17. print?"?".join(tags)??

? ? ? ? 輸出結果如下,其中"午門"出現3次、"乾清宮"出現2次、"著名景點"出現1次,按照順序輸出提取的關鍵詞。如果topK=5,則輸出:"午門 乾清宮 著名景點 太和殿 向陽"。

[python]?view plain?copy

  1. >>>???
  2. 分詞結果:??
  3. 故宮/的/著名景點/包括/乾清宮/、/太和殿/和/午門/等/。/其中/乾清宮/非常/精美/,/午門/是/紫禁城/的/正門/,/午門/居中/向陽/。??
  4. 關鍵詞:??
  5. 午門?乾清宮?著名景點??
  6. >>>???


? ? ? ??4.對百度百科獲取摘要分詞
? ? ? ? 從BaiduSpider文件中讀取0001.txt~0204.txt文件,分別進行分詞處理再保存。

?

[python]?view plain?copy

  1. #encoding=utf-8??
  2. import?sys??
  3. import?re??
  4. import?codecs??
  5. import?os??
  6. import?shutil??
  7. import?jieba??
  8. import?jieba.analyse??
  9. ??
  10. #導入自定義詞典??
  11. jieba.load_userdict("dict_baidu.txt")??
  12. ??
  13. #Read?file?and?cut??
  14. def?read_file_cut():??
  15. ????#create?path??
  16. ????path?=?"BaiduSpider\\"??
  17. ????respath?=?"BaiduSpider_Result\\"??
  18. ????if?os.path.isdir(respath):??
  19. ????????shutil.rmtree(respath,?True)??
  20. ????os.makedirs(respath)??
  21. ??
  22. ????num?=?1??
  23. ????while?num<=204:??
  24. ????????name?=?"%04d"?%?num???
  25. ????????fileName?=?path?+?str(name)?+?".txt"??
  26. ????????resName?=?respath?+?str(name)?+?".txt"??
  27. ????????source?=?open(fileName,?'r')??
  28. ????????if?os.path.exists(resName):??
  29. ????????????os.remove(resName)??
  30. ????????result?=?codecs.open(resName,?'w',?'utf-8')??
  31. ????????line?=?source.readline()??
  32. ????????line?=?line.rstrip('\n')??
  33. ??????????
  34. ????????while?line!="":??
  35. ????????????line?=?unicode(line,?"utf-8")??
  36. ????????????seglist?=?jieba.cut(line,cut_all=False)??#精確模式??
  37. ????????????output?=?'?'.join(list(seglist))?????????#空格拼接??
  38. ????????????print?output??
  39. ????????????result.write(output?+?'\r\n')??
  40. ????????????line?=?source.readline()??
  41. ????????else:??
  42. ????????????print?'End?file:?'?+?str(num)??
  43. ????????????source.close()??
  44. ????????????result.close()??
  45. ????????num?=?num?+?1??
  46. ????else:??
  47. ????????print?'End?All'??
  48. ??
  49. #Run?function??
  50. if?__name__?==?'__main__':??
  51. ????read_file_cut()??

? ? ? ? 運行結果如下圖所示:

?


? ? ? ??5.去除停用詞
? ? ? ? 在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表。但是,并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。[參考百度百科]

?

[python]?view plain?copy

  1. #encoding=utf-8??
  2. import?jieba??
  3. ??
  4. #去除停用詞??
  5. stopwords?=?{}.fromkeys(['的',?'包括',?'等',?'是'])??
  6. text?=?"故宮的著名景點包括乾清宮、太和殿和午門等。其中乾清宮非常精美,午門是紫禁城的正門。"??
  7. segs?=?jieba.cut(text,?cut_all=False)??
  8. final?=?''??
  9. for?seg?in?segs:??
  10. ????seg?=?seg.encode('utf-8')??
  11. ????if?seg?not?in?stopwords:??
  12. ????????????final?+=?seg??
  13. print?final??
  14. #輸出:故宮著名景點乾清宮、太和殿和午門。其中乾清宮非常精美,午門紫禁城正門。??
  15. ??
  16. seg_list?=?jieba.cut(final,?cut_all=False)??
  17. print?"/?".join(seg_list)??
  18. #輸出:故宮/?著名景點/?乾清宮/?、/?太和殿/?和/?午門/?。/?其中/?乾清宮/?非常/?精美/?,/?午門/?紫禁城/?正門/?。??


?

三. 基于VSM的文本聚類算法

? ? ? ? 這部分主要參考2008年上海交通大學姚清壇等《基于向量空間模型的文本聚類算法》的論文,因為我的實體對齊使用InfoBox存在很多問題,發現對齊中會用到文本內容及聚類算法,所以簡單講述下文章一些知識。

?

? ? ? ? 文本聚類的主要依據聚類假設是:同類的文檔相似度較大,而非同類文檔相似度較小。同時使用無監督學習方法,聚類不需要訓練過程以及不需要預先對文檔手工標注類別,因此具有較高的靈活性和自動化處理能力。主要分為以下部分:
? ? ? ? (1) 預處理常用方法
? ? ? ? 文本信息預處理(詞性標注、語義標注),構建統計詞典,對文本進行詞條切分,完成文本信息的分詞過程。
? ? ? ? (2) 文本信息的特征表示
? ? ? ? 采用方法包括布爾邏輯型、概率型、混合型和向量空間模型。其中向量空間模型VSM(Vector Space Model)是將文檔映射成向量的形式,(T1, T2, ..., Tn)表示文檔詞條,(W1, W2, ..., Wn)文檔詞條對應權重。建立文本特征主要用特征項或詞條來表示目標文本信息,構造評價函數來表示詞條權重,盡最大限度區別不同的文檔。
? ? ? ? (3) 文本信息特征縮減
? ? ? ? VSM文檔特征向量維數眾多。因此,在文本進行聚類之前,應用文本信息特征集進行縮減,針對每個特征詞的權重排序,選取最佳特征,包括TF-IDF。推薦向量稀疏表示方法,提升聚類的效果,其中(D1, D2, ..., Dn)表示權重不為0的特征詞條。
? ? ? ? (4) 文本聚類
? ? ? ? 文本內容表示成數學課分析形勢后,接下來就是在此數學基礎上進行文本聚類。包括基于概率方法和基于距離方法。其中基于概率是利用貝葉斯概率理論,概率分布方式;基于聚類是特征向量表示文檔(文檔看成一個點),通過計算點之間的距離,包括層次聚類法和平面劃分法。

? ? ? ?后面我可能也會寫具體的Python聚類算法,VSM計算相似度我前面已經講過。同時,他的實驗數據是搜狐中心的10個大類,包括汽車、財經、IT、體育等,而我的數據都是旅游,如何進一步聚類劃分,如山川、河流、博物館等等,這是另一個難點。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/41322.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/41322.shtml
英文地址,請注明出處:http://en.pswp.cn/news/41322.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

hive--給表名和字段加注釋

1.建表添加注釋 CREATE EXTERNAL TABLE test(loc_province string comment 省份,loc_city string comment 城市,loc_district string comment 區,loc_street string comment 街道,)COMMENT 每日數據處理后的表 PARTITIONED BY (par_dt string) ROW FORMAT SERDEorg.apache.had…

學習Vue:響應式原理與性能優化策略

性能優化是Vue.js應用開發中的一個關鍵方面&#xff0c;而深入了解響應式原理并采用有效的性能優化策略可以顯著提升應用的性能。本文將解釋響應式原理并介紹一些性能優化策略&#xff0c;旨在幫助您構建高性能的Vue.js應用。 響應式原理 Vue.js的響應式原理是通過利用Object.…

PHP在線客服系統推薦

在當今數字化時代&#xff0c;企業客戶服務的重要性不容忽視。為了提供卓越的客戶體驗&#xff0c;許多企業正在尋找PHP在線客服系統。這種系統不僅可以滿足客戶的需求&#xff0c;還能提升企業的形象。本文將深入探討PHP在線客服系統的一些有趣話題。 理解PHP在線客服系統 PHP…

71 # 協商緩存的配置:通過內容

對比&#xff08;協商&#xff09;緩存 比較一下再去決定是用緩存還是重新獲取數據&#xff0c;這樣會減少網絡請求&#xff0c;提高性能。 對比緩存的工作原理 客戶端第一次請求服務器的時候&#xff0c;服務器會把數據進行緩存&#xff0c;同時會生成一個緩存標識符&#…

Transformer是什么,Transformer應用

目錄 Transformer應用 Transformer是什么 Transformer應用:循環神經網絡 語言翻譯:注重語句前后順序 RNN看中單個特征; CNN:看中特征之間時序性 模型關注不同位置的能力 Transformer是什么 Transformer是一個利用注意力機制來提高模型訓練速度的模型。關于注意力機…

clickhouse-數據導入導出方案

一、簡介 clickhouse有多種數據的導入導出方式&#xff0c;可以靈活使用&#xff0c;下面對這些方式分別做些介紹&#xff0c;導入導出的寫法與格式和格式設置有關。 二、導入 1.從s3導入 詳情可查看官網&#xff0c;也可以在這里獲取數據集 -- 建庫建表 CREATE DATABASE …

whisper語音識別部署及WER評價

1.whisper部署 詳細過程可以參照&#xff1a;&#x1f3e0; 創建項目文件夾 mkdir whisper cd whisper conda創建虛擬環境 conda create -n py310 python3.10 -c conda-forge -y 安裝pytorch pip install --pre torch torchvision torchaudio --extra-index-url 下載whisper p…

智慧工地云平臺源碼——塔機監控系統

智慧工地概念 智慧工地是一種嶄新的工程全生命周期管理理念&#xff0c;是指運用信息化手段&#xff0c;通過對工程項目進行精確設計和施工模擬&#xff0c;圍繞施工過程管理&#xff0c;建立互聯協同、智能生產、科學管理的施工項目信息化生態圈&#xff0c;并將此數據在虛擬…

鴿王-稚暉君,“遠征”A1啟程

看到這篇文章的人&#xff0c;想必對野生鋼鐵俠-稚暉君&#xff0c;都有所了解。作為華為的天才少年&#xff0c;獲得了很多的榮譽&#xff0c;作為B站有名的鴿王&#xff0c;在沉浮一段時間后終于要帶著新的東西和大家見面了。動態-嗶哩嗶哩https://b23.tv/Jv7tIjg 眾所周知&a…

網絡通信原理TCP字段解析(第四十七課)

字段含義Source Port(源端口號)源端口,標識哪

vueuse常用方法

useDateFormat 時間格式化 <script setup lang"ts">import { useNow, useDateFormat } from vueuse/coreconst formatted useDateFormat(useNow(), YYYY-MM-DD HH:mm:ss)</script><template><div>{{ formatted }}</div> </templa…

el-input添加自定義指令只允許輸入中文/英文/數字,兼容輸入法事件

省流 script: directives: {regexp: {inserted: (el, binding, vnode) > {let composition falseconst formatValue function (e) {if (composition) return// vnode.componentInstance組件實例vnode.componentInstance.$emit(input, e.target.value.replace(/[^\u4e00-…

Python學習筆記_基礎篇(十二)_nmap使用及案例

nmap概念及功能 概念 NMap&#xff0c;也就是Network Mapper&#xff0c;最早是Linux下的網絡掃描和嗅探工具包。 nmap是一個網絡連接端掃描軟件&#xff0c;用來掃描網上電腦開放的網絡連接端。確定哪些服務運行在哪些連接端&#xff0c;并且推斷計算機運行哪個操作系統&am…

ChatGPT在智能音樂推薦和個性化播放列表中的應用如何?

智能音樂推薦和個性化播放列表是音樂流媒體領域中的重要應用&#xff0c;可以幫助用戶發現新音樂、定制自己的音樂體驗&#xff0c;并提升音樂平臺的用戶滿意度。ChatGPT作為一種先進的自然語言處理模型&#xff0c;可以在智能音樂推薦和個性化播放列表領域發揮重要作用。本文將…

神經網絡基礎-神經網絡補充概念-56-遷移學習

遷移學習&#xff08;Transfer Learning&#xff09;是一種機器學習技術&#xff0c;旨在將在一個任務上學到的知識或模型遷移到另一個相關任務上&#xff0c;以提高新任務的性能。遷移學習的核心思想是通過利用源領域&#xff08;source domain&#xff09;的知識來改善目標領…

微信小程序全局事件訂閱eventBus

微信小程序全局事件訂閱 在Vue開發中&#xff0c;我們可能用過eventBus來解決全局范圍內的事件訂閱及觸發邏輯&#xff0c;在微信小程序的開發中我們可能也也會遇到同樣的需求&#xff0c;那么我們嘗試下在小程序&#xff08;原生小程序開發&#xff09;中實現類似eventBus的事…

大模型技術實踐(一)|ChatGLM2-6B基于UCloud UK8S的創新應用

近半年來&#xff0c;通過對多款主流大語言模型進行了調研&#xff0c;我們針對其訓練方法和模型特點進行逐一分析&#xff0c;方便大家更加深入了解和使用大模型。本文將重點分享ChatGLM2-6B基于UCloud云平臺的UK8S實踐應用。 01各模型結構及特點 自從2017年6月谷歌推出Transf…

FlexTools plugin and 3dWindow plugin for SketchUp Crack

FlexTools v2.3.6 plugin for SketchUp 3dWindow v.4.5 plugin for SketchUp 建筑師和3D藝術家使用FlexTools創建SketchUp門、窗、樓梯和其他建筑元素&#xff0c;具有卓越的速度和控制水平。 SketchUp功能強大但易于使用的擴展。對于在施工圖或建筑圖中使用SketchUp的每個人…

數學建模:論文排版技巧及圖表公式規范制作

Excel 論文樣式提前設置利用題注和表注能夠自動排序mac m1 mathtype沒有永久版&#xff0c;淘寶價格比官網低 編輯公式注意事項&#xff1a; 1、公式居中&#xff0c;標號為英文狀態輸入并右對齊。 2、中英文狀態下&#xff0c;對應字母的狀態不同&#xff0c;請合理選擇。 3、…

034_小馳私房菜_[問題復盤] Qcom平臺,某些三方相機拍照旋轉90度

全網最具價值的Android Camera開發學習系列資料~ 作者:8年Android Camera開發,從Camera app一直做到Hal和驅動~ 歡迎訂閱,相信能擴展你的知識面,提升個人能力~ 【一、問題】 某些三方相機,預覽正常,拍照旋轉90度 【二、問題排查】 1 ) HAL這邊Jpeg編碼數據在哪個地方…