采集用python還是火車頭_我才知道爬蟲也可以醬紫--火車采集器

我才知道爬蟲還可以這樣—火車采集器的使用

說在前面

額。。。好吧,我這一個三毛錢的屌絲也開始步入實習階段了,在北京其實也挺好的,雖說壓力大,但是今后就業機會也相對而言大一些。好了,說回今天的主題,之前學習Python爬蟲的時候一直以為今后工作的話進行爬蟲需要自己寫源代碼然后再一直爬呀爬呀爬,但是不是這樣滴(應該不是吧),前天公司扔給我一個抓取網頁的工具,然后自己在一直琢磨琢磨,今天下午有了結果了,學習了簡單的抓取網頁數據。所以我在這里總結一下網站數據采集器—火車采集器的簡單使用。

正文

首先,下載火車采集器,這個網上的鏈接有很多。

這是安裝完成之后的火車采集器文件夾。

使用步驟

1.賬號登陸進入之后(好像這個賬號申請是需要花錢的),我們先新建分組,注意選擇所屬分組的時候選擇正確就OK。

2.對你需要在其組進行任務的組右鍵選擇新建任務

3.編輯此任務,以慧聰網IT業界動態為例。因為涉及到網頁的鏈接,所以我們需要選擇【批量/多頁】一欄,然后把URL里面變動的數字

換成(*),還可以根據自己的需要對其鏈接網址采取等差等比數列的抓取。然后點擊【添加】,點擊【完成】。

4.在多級網址獲取一欄里面進行設置。我選擇的是手動填寫鏈接地址規則,這就要求對網頁的源代碼進行分析和截取。注意在【從該選定區域中提取網址】的兩個空白框里填寫的是我們抓取的網站首頁源代碼里我們需要那些鏈接的那一部分代碼前后的title源碼,也就是說這兩個框里的源代碼把我們需要的那些鏈接的源代碼夾在了中間。最后點擊保存。

5.采集內容規則。我們的標簽名就是我們需要抓取網頁的信息,雙擊標簽名之后添加代碼,原理和第4步驟一樣的。在提取內容的時候,我們還可以對其進行數據處理,點擊添加進行選擇。

6.我們把抓取到的內容保存在本地計算機上,這個時候我們需要注意的是:火車采集器里有默認的模板,但是如果我們采集內容的標簽名和默認模板里的不一致,就需要對其修改,使其和我們的標簽名一致即可。點擊保存。

7.開始對網站數據進行抓取工作。首先勾選這三個選項。

然后右鍵,開始任務,等待數據的采集。

8.抓取完成,成功之后,打開本地的文件,卻沒有看到數據,而且標簽名也亂碼了。不知道怎么回事,是不是我的姿勢不對啊,又找了好幾個網站又試了幾次,認認真真看了源代碼好幾次,實在是找不出哪里錯了啊,各種捉急。后來才知道,媽的txt文件默認格式不是UTF-8的,需要我們改一下,所以另存為一下就OK了。然后再跑一次工具,查看文件,臥槽,果然有數據了,成功的抓取到網站數據了,而且把鏈接里的也抓取出來了。

總結

這只是一個簡單的開始,火車采集器還有很多操作需要我學習,比如把數據存入數據庫,抓取圖片啊什么的。

加油吧,繼續努力!!!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/537171.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/537171.shtml
英文地址,請注明出處:http://en.pswp.cn/news/537171.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

mvn 使用中的錯誤

出現這種錯誤的時候:mvn Error building POM may not be this projects POM,報的是那個jar 包,就刪除那個jar 包,重新mvn clean install .ok

Java并發編程之FutureTask源碼解析

上次總結一下AQS的一些相關知識,這次總結了一下FutureTask的東西,相對于AQS來說簡單好多呀 之前提到過一個LockSupport的工具類,也了解一下這個工具類的用法,這里也鞏固一下吧 /*** Makes available the permit for the given th…

java 刪除二維數組中的null_避免在Java中檢查Null語句

1.概述通常,在Java代碼中處理null變量、引用和集合很棘手。它們不僅難以識別,而且處理起來也很復雜。事實上,在編譯時無法識別處理null的任何錯誤,會導致運行時NullPointerException。在本教程中,我們將了解在Java中檢…

Java并發編程之并發容器ConcurrentHashMap(JDK1.7)解析

最近看了一下ConcurrentHashMap的相關代碼,感覺JDK1.7和JDK1.8差別挺大的,這次先看下JDK1.7是怎么實現的吧 哈希(hash) 先了解一下啥是哈希(網上有很多介紹),是一種散列函數,簡單來…

帶控制端的邏輯運算電路_分別完成正整數的平方、立方和階乘的運算verilog語言...

練習:設計一個帶控制端的邏輯運算電路,分別完成正整數的平方、立方和階乘的運算。 //--------------myfunction---------- modulemyfunction(clk,n,result,reset,sl); output[6:0]result; input[2:0] n; input reset,clk; input [1:0] sl; reg[6:0]resul…

Java并發編程之并發容器ConcurrentHashMap(JDK1.8)解析

這個版本ConcurrentHashMap難度提升了很多,就簡單的談一下常用的方法就好了,可能有些講的不太清楚,麻煩發現的大佬指正一下 主要數據結構 1.8將Segment取消了,保留了table數組的形式,但是不在以HashEntry純鏈表的形式…

simulink顯示多個數據_如何在 Simulink 中使用 PID Tuner 進行 PID 調參?

作者 | 安布奇責編 | 胡雪蕊出品 | CSDN(ID: CSDNnews)本文為一篇技術干貨,主要講述在Simulink如何使用PID Tuner進行PID調參。PID調參器( PIDTuner)概述1.1 簡介使用PID Tuner可以對Simulink模型中的PID控制器,離散PID控制器,兩自由度PID控制…

Java并發編程之堵塞隊列介紹以及SkipList(跳表)

堵塞隊列 先了解一下生產者消費者模式: 生產者就是生產數據的一方,消費者就是消費數據的另一方。在多線程開發中,如果生產者處理速度很快,而消費者處理速度很慢,那么生產者就必須等待消費者處理完,才能繼…

python生成list的時候 可以用lamda也可以不用_python 可迭代對象,迭代器和生成器,lambda表達式...

分頁查找#5.隨意寫一個20行以上的文件(divmod)# 運行程序,先將內容讀到內存中,用列表存儲。# l []# 提示:一共有多少頁# 接收用戶輸入頁碼,每頁5條,僅輸出當頁的內容def read_page(bk_list,n,endlineNone):startline …

數據挖掘技術簡介[轉]

關鍵詞: 關鍵詞:數據挖掘 數據集合 1. 引言  數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。隨…

樹莓派安裝smbus_樹莓派使用smbus不兼容問題(no module named 'smbus')

樹莓派使用smbus不兼容問題(no module named ‘smbus’)python3.5–3.6可以使用smbus2代替smbus1. 先參考以下方法:github討論樹莓派社區2.Pypi上可以下載smbus2smbus2PyPi介紹:當前支持的功能有:獲取i2c功能(I2C_FUNCS)read_bytewrite_byter…

Java并發編程之線程池ThreadPoolExecutor解析

線程池存在的意義 平常使用線程即new Thread()然后調用start()方法去啟動這個線程,但是在頻繁的業務情況下如果在生產環境大量的創建Thread對象是則會浪費資源,不僅增加GC回收壓力,并且還浪費了時間,創建線程是需要花時間的&…

面向過程的門面模式

{*******************************************************}{ }{ 業務邏輯一 }{ }{ 版權所有 (C) 2008 陳…

Java并發編程之線程定時器ScheduledThreadPoolExecutor解析

定時器 就是需要周期性的執行任務,也叫調度任務,在JDK中有個類Timer是支持周期性執行,但是這個類不建議使用了。 ScheduledThreadPoolExecutor 繼承自ThreadPoolExecutor線程池,在Executors默認創建了兩種: newSin…

python xml轉換鍵值對_Python 提取dict轉換為xml/json/table并輸出

#!/usr/bin/python#-*- coding:gbk -*-#設置源文件輸出格式import sysimport getoptimport jsonimport createDictimport myConToXMLimport myConToTabledef getRsDataToDict():#獲取控制臺中輸入的參數,并根據參數找到源文件獲取源數據csDict{}try:#通過getopt獲取…

應用開發框架之——根據數據表中的存儲的方法名稱來調用方法

功用一:在框架里面根據存儲在數據表中的方法名來動態調用執行方法。 unit Unit1; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms, Dialogs, StdCtrls; type TForm1 class(TForm) Button1: TButton; procedu…

Spring IOC容器組件注入的幾種方式

整理一下之前Spring的學習筆記,大致有一下幾種Spring注入到容器中的方法: 1)、配置在xml的方式。 2)、開啟包掃描ComponentScan使用Component,Service,Controller,Repository(其實后三個都繼承…

我們是如何拿下Google和Facebook Offer的?

http://posts.careerengine.us/p/57c3a1c1a09633ee7e57803c 大家好,我是小高,CMU CS Master,來Offer第一期學員,2014年初在孫老師的帶領下我在幾個月的時間內進入了Yahoo,并工作了近2年。2016年初,Yahoo工作…

Spring中BeanFactory和FactoryBean的區別

先介紹一下Spring的IOC容器到底是個什么東西&#xff0c;都說是一個控制反轉的容器&#xff0c;將對象的控制權交給IOC容器&#xff0c;其實在看了源代碼之后&#xff0c;就會發現IOC容器只是一個存儲單例的一個ConcurrentHashMap<String, BeanDefinition> BeanDefiniti…

python中數字和字符串可以直接相加_用c語言或者python將文件中特定字符串后面的數字相加...

匿名用戶1級2014-08-31 回答代碼應該不難吧。既然用爬蟲爬下來了&#xff0c;為什么爬取數據的時候沒做處理呢。之前用過Scrapy爬蟲框架&#xff0c;挺好用的&#xff0c;你可研究下。代碼&#xff1a;#!codingutf-8import osimport reimport random# 獲取當前目錄文件列表def …