我才知道爬蟲還可以這樣—火車采集器的使用
說在前面
額。。。好吧,我這一個三毛錢的屌絲也開始步入實習階段了,在北京其實也挺好的,雖說壓力大,但是今后就業機會也相對而言大一些。好了,說回今天的主題,之前學習Python爬蟲的時候一直以為今后工作的話進行爬蟲需要自己寫源代碼然后再一直爬呀爬呀爬,但是不是這樣滴(應該不是吧),前天公司扔給我一個抓取網頁的工具,然后自己在一直琢磨琢磨,今天下午有了結果了,學習了簡單的抓取網頁數據。所以我在這里總結一下網站數據采集器—火車采集器的簡單使用。
正文
首先,下載火車采集器,這個網上的鏈接有很多。
這是安裝完成之后的火車采集器文件夾。
使用步驟
1.賬號登陸進入之后(好像這個賬號申請是需要花錢的),我們先新建分組,注意選擇所屬分組的時候選擇正確就OK。
2.對你需要在其組進行任務的組右鍵選擇新建任務
3.編輯此任務,以慧聰網IT業界動態為例。因為涉及到網頁的鏈接,所以我們需要選擇【批量/多頁】一欄,然后把URL里面變動的數字
換成(*),還可以根據自己的需要對其鏈接網址采取等差等比數列的抓取。然后點擊【添加】,點擊【完成】。
4.在多級網址獲取一欄里面進行設置。我選擇的是手動填寫鏈接地址規則,這就要求對網頁的源代碼進行分析和截取。注意在【從該選定區域中提取網址】的兩個空白框里填寫的是我們抓取的網站首頁源代碼里我們需要那些鏈接的那一部分代碼前后的title源碼,也就是說這兩個框里的源代碼把我們需要的那些鏈接的源代碼夾在了中間。最后點擊保存。
5.采集內容規則。我們的標簽名就是我們需要抓取網頁的信息,雙擊標簽名之后添加代碼,原理和第4步驟一樣的。在提取內容的時候,我們還可以對其進行數據處理,點擊添加進行選擇。
6.我們把抓取到的內容保存在本地計算機上,這個時候我們需要注意的是:火車采集器里有默認的模板,但是如果我們采集內容的標簽名和默認模板里的不一致,就需要對其修改,使其和我們的標簽名一致即可。點擊保存。
7.開始對網站數據進行抓取工作。首先勾選這三個選項。
然后右鍵,開始任務,等待數據的采集。
8.抓取完成,成功之后,打開本地的文件,卻沒有看到數據,而且標簽名也亂碼了。不知道怎么回事,是不是我的姿勢不對啊,又找了好幾個網站又試了幾次,認認真真看了源代碼好幾次,實在是找不出哪里錯了啊,各種捉急。后來才知道,媽的txt文件默認格式不是UTF-8的,需要我們改一下,所以另存為一下就OK了。然后再跑一次工具,查看文件,臥槽,果然有數據了,成功的抓取到網站數據了,而且把鏈接里的也抓取出來了。
總結
這只是一個簡單的開始,火車采集器還有很多操作需要我學習,比如把數據存入數據庫,抓取圖片啊什么的。
加油吧,繼續努力!!!