尚硅谷爬蟲note15

一、當當網

1. 保存數據

??????? 數據交給pipelines保存

items中的類名:??DemoNddwItem

class DemoNddwItem(scrapy.Item):

????????變量名 = 類名()

            book =  DemoNddwItem(src = src, name = name, price = price)

導入:

??????? from 項目名.items import 類名

from demo_nddw.items import NddwSpider

2. yield

??????? return一個返回值

yield book:

??????? 獲取一個book,就將book交給pipelines

3. pipelines(管道):

????????想使用管道,必須在settings中開啟管道:
如何開啟——》解除管道的注釋即可開啟管道

?管道可以有很多個

管道是有優先級的:

??????? 優先級范圍:1~1000

??????? 值越小,優先級越高

?pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface
from itemadapter import ItemAdapterclass DemoNddwPipeline:
#爬蟲文件開始前執行的方法def open_spider(self, spider)self.fp('book.json', 'w', encoding='utf-8')# items:yield后面的book對象def process_item(self, item, spider):
# #以下模式不推薦:因為每傳進一個對象,就打開一次文件,對文件的操作過于頻繁
# #2個方法
# #1)爬蟲文件開始前執行的方法
# def open_spider(self,spider)
#     self.fp('book.json','w',encoding = 'utf-8')
# #2)爬蟲文件執行完成后執行的方法
# def close_spider(self,spider)
#     self.fp.close()
# # 中間
#     self.fp.write(str(item))#將數據保存到文件中# (1)write方法必須是一個字符串強制轉換:fp.write(item)——》fp.write(str(item))# (2)w模式會每一個對象都打開一次文件,后面打開的會覆蓋前面打開的,然后關閉:將w模式改為a(追加)模式:解決:‘w’——》‘a’#不推薦的模式# with open('book.json','a',encoding='utf-8') as fp:#     fp.write(str(item))
#中間self.fp.write(str(item))return item
#爬蟲文件執行完成后執行的方法
def close_spider(self,spider)self.fp.close()

?不推薦的模式:

# #以下模式不推薦:因為每傳進一個對象,就打開一次文件,對文件的操作過于頻繁#將數據保存到文件中# (1)write方法必須是一個字符串強制轉換:fp.write(item)——》fp.write(str(item))# (2)w模式會每一個對象都打開一次文件,后面打開的會覆蓋前面打開的,然后關閉:將w模式改為a(追加)模式:解決:‘w’——》‘a’#不推薦的模式# with open('book.json','a',encoding='utf-8') as fp:#     fp.write(str(item))


2個方法:

# #2個方法
# #1)爬蟲文件開始前執行的方法
# def open_spider(self,spider)
#     self.fp('book.json','w',encoding = 'utf-8')
# #2)爬蟲文件執行完成后執行的方法
# def close_spider(self,spider)
#     self.fp.close()
# # 中間
#     self.fp.write(str(item))

????? 復制items中的類名:DemoNddwItem

導入ddw中,

from demo_nddw.items import DemoNddwItem

并在ddw中使用

book = DemoNddwItem(src = src, name = name, price = price)

ddw.py

import scrapy
from demo_nddw.items import DemoNddwItemclass NddwSpider(scrapy.Spider):name = "nddw"allowed_domains = ["category.dangdang.com"]start_urls = ["https://category.dangdang.com/cp01.07.30.00.00.00.html"]def parse(self, response):# pass# src、name、price都有共同的li標簽# 所有的selector對象,都可以再次調用xpath方法li_list = response.xpath('//ul[@id = "component_59"]/li')for li in li_list:# .extract()提取數據# 有data-original,src用data-original替代src = li.xpath('.//img/@data-original').extract_first()# 第一張圖片和其他圖片標簽不一樣,第一張圖片的src是可以使用的   其他圖片的地址是data-originalif src:src = srcelse:# 用srcsrc = li.xpath('.//img/@src').extract_first()alt = li.xpath('.//img/@alt').extract_first()price = li.xpath('.//p[@class = "price"]/span[1]/text()').extract_first()print(src, name, price)book = DemoNddwItem(src = src, name = name, price = price)# yield:return一個返回值#獲取一個book,就將book交給pipelinesyield book# pipelines(管道):想使用管道,必須在settings中開啟管道:如何開啟——》解除管道的注釋即可開啟
# ITEM_PIPELINES = {
#    "demo_nddw.pipelines.DemoNddwPipeline": 300,
# }

items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass DemoNddwItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# pass# 圖片# src = // ul[ @ id = "component_59"] / li // img / @ srcsrc = scrapy.Field()# 名字# alt = // ul[ @ id = "component_59"] / li // img / @ altname = scrapy.Field()# 價格# price = //ul[@id = "component_59"]/li//p[@class = "price"]/span[1]/text()price = scrapy.Field()

4. scrapy使用步驟

1)在終端中創建項目

????????scrapy startproject 項目名

2)切換到項目下的spiders目錄

??????? cd 項目名\項目名\spider

3)在spiders中創建文件

??????? scrapy genspider 文件名? 要爬取的網頁

4)運行

??????? scrapy crawl 文件名

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/71588.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/71588.shtml
英文地址,請注明出處:http://en.pswp.cn/web/71588.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LVGL直接解碼png圖片的方法

通過把png文件解碼為.C文件,再放到工程中的供使用,這種方式隨時速度快(應為已經解碼,代碼中只要直接加載圖片數據顯示出來即可),但是不夠靈活,適用于哪些簡單又不經常需要更換UI的場景下使用。如…

【計算機網絡】Socket

Socket 是網絡通信的核心技術之一,充當應用程序與網絡協議棧之間的接口。 1. Socket 定義 Socket(套接字)是操作系統提供的 網絡通信抽象層,允許應用程序通過標準接口(如 TCP/IP 或 UDP)進行數據傳輸。它…

Apache XTable:在數據湖倉一體中推進數據互作性

Apache XTable 通過以多種開放表格式提供對數據的訪問,在增強互作性方面邁出了一大步。移動數據很困難,在過去,這意味著在為數據湖倉一體選擇開放表格式時,您被鎖定在該選擇中。一個令人興奮的項目當在數據堆棧的這一層引入互作性…

anolis8.9-k8s1.32-node-二進制部署

一、系統 # cat /etc/anolis-release Anolis OS release 8.9 # uname -r 5.10.134-18.an8.x86_64 二、從master上拷貝dockers及cri-docker相關文件 # groupadd docker # mkdir /etc/docker# scp -P 4033 root192.168.7.201:/etc/systemd/system/containerd.service /etc/s…

《AJAX:前端異步交互的魔法指南》

什么是AJAX AJAX(Asynchronous JavaScript and XML,異步 JavaScript 和 XML) 是一種用于創建異步網頁應用的技術,允許網頁在不重新加載整個頁面的情況下,與服務器交換數據并局部更新頁面內容。盡管名稱中包含 XML&…

Python 性能優化:從入門到精通的實用指南

Langchain系列文章目錄 01-玩轉LangChain:從模型調用到Prompt模板與輸出解析的完整指南 02-玩轉 LangChain Memory 模塊:四種記憶類型詳解及應用場景全覆蓋 03-全面掌握 LangChain:從核心鏈條構建到動態任務分配的實戰指南 04-玩轉 LangChai…

利用 requestrepo 工具驗證 XML外部實體注入漏洞

1. 前言 在數字化浪潮席卷的當下,網絡安全的重要性愈發凸顯。應用程序在便捷生活與工作的同時,也可能暗藏安全風險。XXE(XML外部實體)漏洞作為其中的典型代表,攻擊者一旦利用它,便能竊取敏感信息、掌控服務…

FreeRTOS第17篇:FreeRTOS鏈表實現細節05_MiniListItem_t:FreeRTOS內存優化

文/指尖動聽知識庫-星愿 文章為付費內容,商業行為,禁止私自轉載及抄襲,違者必究!!! 文章專欄:深入FreeRTOS內核:從原理到實戰的嵌入式開發指南 1 為什么需要迷你列表項? 在嵌入式系統中,內存資源極其寶貴。FreeRTOS為滿足不同場景需求,設計了標準列表項(ListItem_…

Spring 無法解決循環依賴的 5 種場景

一、構造器注入引發的循環依賴 1. 問題復現 Component public class ServiceA {private final ServiceB serviceB;Autowiredpublic ServiceA(ServiceB serviceB) { // 構造器注入this.serviceB serviceB;} }Component public class ServiceB {private final ServiceA servic…

Core Vision Kit(基礎視覺服務)

文章目錄 一、Core Vision Kit簡介場景介紹約束與限制二、通用文字識別三、人臉檢測一、Core Vision Kit簡介 Core Vision Kit(基礎視覺服務)是機器視覺相關的基礎能力,例如通用文字識別(即OCR,Optical Character Recognition,也稱為光學字符識別)、人臉檢測、人臉比對…

第TR3周:Pytorch復現Transformer

🍨 本文為🔗365天深度學習訓練營中的學習記錄博客 🍖 原作者:K同學啊 Transformer通過自注意力機制,改變了序列建模的方式,成為AI領域的基礎架構 編碼器:理解輸入,提取上下文特征…

FreeRTOS 任務間通信機制:隊列、信號量、事件標志組詳解與實驗

1. FreeRTOS 消息隊列 1.1 簡介 ? 隊列是 任務間通信的主要形式,可用于在任務之間以及中斷與任務之間傳遞消息。隊列在 FreeRTOS 中具有以下關鍵特點: 隊列默認采用 先進先出 FIFO 方式,也可以使用 xQueueSendToFront()實現 LIFO。FreeRT…

【虛擬化】Docker Desktop 架構簡介

在閱讀前您需要了解 docker 架構:Docker architecture WSL 技術:什么是 WSL 2 1.Hyper-V backend 我們知道,Docker Desktop 最開始的架構的后端是采用的 Hyper-V。 Docker daemon (dockerd) 運行在一個 Linux distro (LinuxKit build) 中&…

Unity光照之Halo組件

簡介 Halo 組件 是一種用于在游戲中創建光暈效果的工具,主要用于模擬光源周圍的發光區域(如太陽、燈泡等)或物體表面的光線反射擴散效果。 核心功能 1.光暈生成 Halo 組件會在光源或物體的周圍生成一個圓形光暈,模擬光線在空氣…

Flink深入淺出之01:應用場景、基本架構、部署模式

Flink 1?? 一 、知識要點 📖 1. Flink簡介 Apache Flink — Stateful Computations over Data StreamsApache Flink 是一個分布式大數據處理引擎,可對有界數據流和無界數據流進行有狀態的計算。Flink 能在所有常見集群環境中運行,并能以…

2025年【高壓電工】報名考試及高壓電工考試總結

隨著電力行業的快速發展,高壓電工成為確保電力系統安全穩定運行的重要一環。為了提高高壓電工的專業技能和安全意識,“安全生產模擬考試一點通”平臺特別整理了2025年高壓電工報名考試的相關信息及考試總結,并提供了一套完整的題庫&#xff0…

網絡HTTP

HTTP Network Request Library A Retrofit-based HTTP network request encapsulation library that provides simple and easy-to-use API interfaces with complete network request functionality. 基于Retrofit的HTTP網絡請求封裝庫,提供簡單易用的API接口和完…

os-copilot安裝和使用體驗測評

簡介: OS Copilot是阿里云基于大模型構建的Linux系統智能助手,支持自然語言問答、命令執行和系統運維調優。本文介紹其產品優勢、功能及使用方法,并分享個人開發者在云服務器資源管理中的實際應用體驗。通過-t/-f/管道功能,OS Cop…

Python Flask框架學習匯編

1、入門級: 《Python Flask Web 框架入門》 這篇博文條理清晰,由簡入繁,案例豐富,分十五節詳細講解了Flask框架,強烈推薦! 《python的簡單web框架flask【附例子】》 講解的特別清楚,每一步都…

【HarmonyOS Next之旅】DevEco Studio使用指南(一)

目錄 1 -> 工具簡介 1.1 -> 概述 1.2 -> HarmonyOS應用/服務開發流程 1.2.1 -> 開發準備 1.2.2 -> 開發應用/服務 1.2.3 -> 運行、調試和測試應用/服務 1.2.4 -> 發布應用/服務 2 -> 工程介紹 2.1 -> APP包結構 2.2 -> 切換工程視圖 …