在以前使用過Cursor,但是后期由于試用資源很少,免費資源用完我就卸載掉啦,最近又需要開展相關工作,因此下載了最新版的Trae。Trae 2.0最近很火,我正好想要爬取某一個Gitbook 電子書,因此嘗試使用Trae和Python進行爬取,在嘗試完成后,大感AI代碼編輯器真好!!!盡管我沒啥爬蟲基礎,但是也完成了目標。
我使用Kimi-K2模型,第一次代碼基本是成功運行,但是存在幾個小的問題:重新爬取,總體上爬取成功,但是我有三個新的要求:(1)要把圖片也保存下來,目前圖片沒有成功保存,例如是這樣的內容:(assets/WebGIS.png) ;(2)每一個md文檔末尾都有# results matching “”# No results matching ""這樣的內容,請刪除;(3)將所有的文件合并成一個md文檔,并且按照情況調整大綱級別。
第二次也是運行成功,但是出現了新的小問題:(1)圖片保存在assets文件夾內,在md文檔中 圖片使用相對路徑 assets/xxx.png這樣的路徑;(2)很多圖片沒有下載成功,需要重新下載,打開后顯示圖片損壞;(3)刪除原文鏈接相關的內容。因此,第三次運行腳本。
此次修改后仍舊有問題,再次提示:我在先前已經執行過了3次命令,并且已經生成了第三版的代碼。我的目的是將目標網站的章節爬取下來,保存為md文檔。第三版已經基本成功,但是出現了兩個補充修改:(1)二級標題很多是重復出現了3次,并且部分標題的大綱級別不對,要按照科學的情況組織大綱級別;(2)把所有的代碼塊的代碼語言設置成JS。
這樣處理完后: