十 web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

Scrapy框架安裝

1、首先,終端執行命令升級pip: python -m pip install --upgrade pip
2、安裝,wheel(建議網絡安裝) pip install wheel
3、安裝,lxml(建議下載安裝)
4、安裝,Twisted(建議下載安裝)
5、安裝,Scrapy(建議網絡安裝) pip install Scrapy

測試Scrapy是否安裝成功

?

Scrapy框架指令

scrapy -h ?查看幫助信息

Available commands:
  bench       Run quick benchmark test?(scrapy bench??硬件測試指令,可以測試當前服務器每分鐘最多能爬多少個頁面)
  fetch       ? Fetch a URL using the Scrapy downloader?(scrapy fetch http://www.iqiyi.com/??獲取一個網頁html源碼)
  genspider      ??Generate new spider using pre-defined templates ()
  runspider      Run a self-contained spider (without creating a project) ()
  settings      ??Get settings values ()
  shell         Interactive scraping console ()
  startproject     Create new project?(cd 進入要創建項目的目錄,scrapy startproject 項目名稱?,創建scrapy項目)?
  version       ? Print Scrapy version ()
  view        ? ?Open URL in browser, as seen by Scrapy ()

?

創建項目以及項目說明

scrapy startproject adc ?創建項目

項目說明

目錄結構如下:

├── firstCrawler

│?? ├── __init__.py

│?? ├── items.py

│?? ├── middlewares.py

│?? ├── pipelines.py

│?? ├── settings.py

│?? └── spiders

│?? ? ? └── __init__.py

└── scrapy.cfg

    • scrapy.cfg: 項目的配置文件
    • tems.py: 項目中的item文件,用來定義解析對象對應的屬性或字段。
    • pipelines.py:?負責處理被spider提取出來的item。典型的處理有清理、 驗證及持久化(例如存取到數據庫)
    • settings.py: 項目的設置文件.
    • spiders:實現自定義爬蟲的目錄
    • middlewares.py:Spider中間件是在引擎及Spider之間的特定鉤子(specific hook),處理spider的輸入(response)和輸出(items及requests)。 其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy功能。

?

?

項目指令

項目指令是需要cd進入項目目錄執行的指令

scrapy -h ?項目指令幫助

Available commands:
  bench      Run quick benchmark test
  check      Check spider contracts
  crawl    ?? Run a spider
  edit      ?? Edit spider
  fetch      ?Fetch a URL using the Scrapy downloader
  genspider  ? Generate new spider using pre-defined templates
  list       ?List available spiders
  parse      Parse URL (using its spider) and print the results
  runspider    Run a self-contained spider (without creating a project)
  settings   ? ?Get settings values
  shell      Interactive scraping console
  startproject  ?Create new project
  version  ? ? ?Print Scrapy version?(scrapy version??查看scrapy版本信息)
  view    ? Open URL in browser, as seen by Scrapy?(scrapy view http://www.zhimaruanjian.com/??下載一個網頁并打開)

?

創建爬蟲文件

創建爬蟲文件是根據scrapy的母版來創建爬蟲文件的

scrapy genspider -l??查看scrapy創建爬蟲文件可用的母版

Available templates:母版說明
  basic   ? ?  創建基礎爬蟲文件

  crawl     ? ?創建自動爬蟲文件
  csvfeed   ? ? ?創建爬取csv數據爬蟲文件

  xmlfeed    ?創建爬取xml數據爬蟲文件

創建一個基礎母版爬蟲,其他同理

scrapy genspider ?-t ?母版名稱 ?爬蟲文件名稱 ?要爬取的域名?創建一個基礎母版爬蟲,其他同理
如:scrapy genspider ?-t ?basic ?pach ?baidu.com

?

scrapy check 爬蟲文件名稱?測試一個爬蟲文件是否合規
如:scrapy check pach

?

?

scrapy crawl 爬蟲名稱??執行爬蟲文件,顯示日志 【重點】

scrapy crawl 爬蟲名稱 --nolog??執行爬蟲文件,不顯示日志【重點】

?

轉載于:https://www.cnblogs.com/meng-wei-zhi/p/8182599.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/390430.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/390430.shtml
英文地址,請注明出處:http://en.pswp.cn/news/390430.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

阿里與珠海橫琴新區達成戰略合作,阿里云助力打造橫琴智能島

5月17日,阿里巴巴集團、螞蟻金服集團與珠海橫琴新區管理委員會簽署戰略合作協議,三方將圍繞云計算、政務民生服務、城市治理、電子商務等領域展開深入合作,推動橫琴產業發展,共同建設新型智慧城市。 (阿里巴巴集團、螞…

chrome 開發工具_我最喜歡的Chrome開發工具提示和技巧

chrome 開發工具Chrome Developer Tools are a super powerful suite of tools for developing web applications. They can do so much, from very basic operations like traversing the DOM, to checking out network requests or even profiling your applications perform…

三十四 Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy信號詳解

信號一般使用信號分發器dispatcher.connect(),來設置信號,和信號觸發函數,當捕獲到信號時執行一個函數 dispatcher.connect()信號分發器,第一個參數信號觸發函數,第二個參數是觸發信號, 以下是各種信號 sig…

1713. 得到子序列的最少操作次數

給你一個數組 target ,包含若干 互不相同 的整數,以及另一個整數數組 arr ,arr 可能 包含重復元素。 每一次操作中,你可以在 arr 的任意位置插入任一整數。比方說,如果 arr [1,4,1,2] ,那么你可以在中間添…

CVE-2018-1000136:Electron nodeIntegration繞過漏洞

1周前,研究人員發現一個影響Electron所有版本的漏洞,利用該漏洞可以開啟nodeIntegration,這可能會造成遠程代碼執行。Electron是一個使用JavaScript,HTML和CSS等Web技術創建原生程序的框架,它負責比較難搞的部分,而用戶…

bash腳本 文件_如何使用Bash腳本來管理從AWS S3存儲桶下載和查看文件

bash腳本 文件As you can read in this article, I recently had some trouble with my email server and decided to outsource email administration to Amazons Simple Email Service (SES). 正如您在本文中所讀到的 ,最近我的電子郵件服務器遇到了一些麻煩&…

rsync(六)命令中文手冊

rsync(1) rsync(1)名稱rsync - 一個快速、多功能的遠程(和本地)文件拷貝工具摘要Local: rsync [OPTION...] SRC... [DEST]Access via remote shell:Pull: rsync [OPTION...] [USE…

NFS共享存儲服務部署

服務端部署 1、檢查服務器上是否已安裝nfs及rpc,沒有則需要安裝檢查rpm -qa rpcbind nfs-utils安裝(已安裝略過)yum install -y rpcbind nfs-utils################################################################2、編寫nfs的配置文件cat…

區塊鏈運作機制_什么是區塊鏈及其運作方式?

區塊鏈運作機制If youre interested in technology, theres a good chance you’ve probably heard the terms Bitcoin, Crypto, Ethereum, or even "distributed, decentralized ledgers."如果您對技術感興趣,那么您很有可能已經聽說過比特幣&#xff0c…

敏捷管理之績效考核方案

前段時間,公司簽了年終獎確認。覺得公司發放年終獎完全是憑主觀發放,沒有事實依據,由此產生了對如何發放年終獎的一些想法。 獎金發放作為激勵員工最直接的手段,往往也是讓管理人員最難抉擇的,而且很多公司&#xff0c…

序言

為什么要寫這篇文章? 說起架構,剛入行的新人覺得是高大上的技術,有工作經驗的一些人又覺得是虛無縹緲的東西,不能落實。具體有用沒用,我不給答案,想通過寫這么一個例子來還原場景,讓讀者自己判斷…

kotlin編程語言_Kotlin初學者編程基礎

kotlin編程語言什么是Kotlin? (What is Kotlin?) Kotlin is a programming language developed by Jetbrains, the company behind some of the world’s most popular IDEs like IntelliJ and Pycharm.Kotlin是Jetbrains開發的一種編程語言,該公司是In…

記一個蒟蒻的絕望

感覺現在…… 怎么講,心挺冷的。 今天一月五號了。距離省選,時間好短啊。 我還有那么多東西不懂。甚至聽都沒聽說過。 等到真正去省選的時候,我可能跟現在一樣,什么都不會。 我的名字能不能被看到都不知道。哈,還進隊呢…

671. 二叉樹中第二小的節點

給定一個非空特殊的二叉樹,每個節點都是正數,并且每個節點的子節點數量只能為 2 或 0。如果一個節點有兩個子節點的話,那么該節點的值等于兩個子節點中較小的一個。 更正式地說,root.val min(root.left.val, root.right.val) 總…

CentOS查詢端口占用和清除端口占用的程序

1、查詢端口號占用,根據端口查看進程信息 [rootserver2 ~]# lsof -i:80COMMAND PID USER FD TYPE DEVICE SIZE NODE NAMEhttpd 5014 root 3u IPv4 14346 TCP server2:http (LISTEN)2、根據進程號查看進程對應的可執行程序 ps -f -p 進程號# p…

Android基礎夯實--你了解Handler有多少?

概述 對于剛入門的同學來說,往往都會對Handler比較迷茫,到底Handler是個什么樣的東西。當然,可能對于一些有工作經驗的工程師來說,他們也不一定能很準確地描述,我們來看下API的介紹。 Handler是用來結合線程的消息隊列…

spring與springBoot不同之處

( 1)遵循“習慣優于配置”的原則,使用Spring Boot只需要很少的配置,大部分的時候我們直接使用默認的配置即可; (2)項目快速搭建,可以無需配置的自動整合第三方的框架; (3…

sketch-a-net_Adobe XD,Sketch,Figma,InVision-如何在2020年選擇最佳設計軟件

sketch-a-netComparing Adobe XD vs Sketch vs Figma vs InVision studio is a very common topic among designers who are looking for the best design software. 在尋求最佳設計軟件的設計師中,比較Adobe XD,Sketch,Figma和InVision Stud…

merge intervals(合并間隔)

Given a collection of intervals, merge all overlapping intervals. For example,Given [1,3],[2,6],[8,10],[15,18],return [1,6],[8,10],[15,18]. 題目沒有說所有間隔的start是依次增加的。所以,為了方便討論,我們要將所有間隔按照start升序排列。因…

劍指 Offer 49. 丑數

我們把只包含質因子 2、3 和 5 的數稱作丑數(Ugly Number)。求按從小到大的順序的第 n 個丑數。 示例: 輸入: n 10 輸出: 12 解釋: 1, 2, 3, 4, 5, 6, 8, 9, 10, 12 是前 10 個丑數。 說明: 1 是丑數。n 不超過1690。 解題思路 使用小根堆&#xf…