python中scrapy可以爬取多少數據_python中scrapy框架爬取攜程景點數據

———————————————————————————————

[版權申明:本文系作者原創,轉載請注明出處]

文章出處:https://blog.csdn.net/sdksdk0/article/details/82381198

作者:朱培 ?????ID:sdksdk0

——————————————————————————————–

本文使用scrapy框架,python3.6進行爬取,主要獲取的是攜程上河南省的景點名稱,地址,省市縣,描述,圖片地址信息等。首先通過搜索可以得到河南的網頁地址為:http://piao.ctrip.com/dest/u-_ba_d3_c4_cf/s-tickets/P1/,然后以這個頁面為起始位置開始爬取。將爬取的數據保存到mysql數據庫中。

1、創建scrapy項目

scrapy startproject ctrip

2、創建 spider,首先進入ctrip文件夾

scrapy genspider scenic “ctrip.com”

3、settings.py文件中:

BOT_NAME = 'ctrip'

SPIDER_MODULES = ['ctrip.spiders']

NEWSPIDER_MODULE = 'ctrip.spiders'

ROBOTSTXT_OBEY = False

DEFAULT_REQUEST_HEADERS = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

}

DOWNLOADER_MIDDLEWARES = {

'ctrip.middlewares.UserAgentDownloadMiddleware': 543,

}

ITEM_PIPELINES = {

'ctrip.pipelines.DBPipeline': 300,

}

4、middlewares.py中

import random

class UserAgentDownloadMiddleware (object):

USER_AGENTS = [

"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",

"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",

"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",

"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",

"Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"

]

def process_request(self,request,spider):

user_agent = random.choice(self.USER_AGENTS)

request.headers['User-Agent'] = user_agent

5、items.py

import scrapy

class ScenicItem(scrapy.Item):

province = scrapy.Field()

city = scrapy.Field()

county = scrapy.Field()

name = scrapy.Field()

scenic_url = scrapy.Field()

image_url = scrapy.Field()

address = scrapy.Field()

descript = scrapy.Field()

code = scrapy.Field()

6、scenic.py

# -*- coding: utf-8 -*-

import scrapy

import re

from ctrip.items import ScenicItem

class ScenicSpider(scrapy.Spider):

name = 'scenic'

allowed_domains = ['ctrip.com']

start_urls = ['http://piao.ctrip.com/dest/u-_ba_d3_c4_cf/s-tickets/P1/']

count = 0

def parse(self, response):

trs = response.xpath("//div[@id='searchResultContainer']//div[@class='searchresult_product04']")

for tr in trs:

ctrip_url = tr.xpath(".//div[1]/a/@href").get()

c1_url = ctrip_url.split("t/t")

scemic_num = c1_url[1].split(".")

scemic_num = scemic_num[0]

scenic_url = ""

image_url = tr.xpath(".//div[1]/a/img/@src").get()

address = tr.xpath(".//div[1]/div[@class='adress']//text()").get().strip()

address = re.sub(r"地址:", "", address)

descript = tr.xpath(".//div[1]/div[@class='exercise']//text()").get().strip()

descript = re.sub(r"特色:", "", descript)

name = tr.xpath(".//div[1]//h2/a/text()").get().strip()

cityinfo=address

province = "河南省"

city = ""

county = ""

if "省" in cityinfo:

matchObj = re.match(r'(.*)[?省](.+?)市(.+?)([縣]|[區])', cityinfo, re.M | re.I)

if matchObj:

province = matchObj.group(1) + "省"

city = matchObj.group(2) + "市"

if "縣" in cityinfo:

county = matchObj.group(3) + "縣"

else:

county = matchObj.group(3) + "區"

else:

matchObj2 = re.match(r'(.*)[?省](.+?)市(.+?)市', cityinfo, re.M | re.I)

matchObj1 = re.match(r'(.*)[?省](.+?)市', cityinfo, re.M | re.I)

if matchObj2:

city = matchObj2.group(2) + "市"

county = matchObj2.group(3) + "市"

elif matchObj1:

city = matchObj1.group(2) + "市"

else:

matchObj1 = re.match(r'(.*)[?省](.+?)([縣]|[區])', cityinfo, re.M | re.I)

if matchObj1:

if "縣" in cityinfo:

county = matchObj1.group(2) + "縣"

else:

county = matchObj1.group(2) + "區"

else:

matchObj = re.match(r'(.+?)市(.+?)([縣]|[區])', cityinfo, re.M | re.I)

if matchObj:

city = matchObj.group(1) + "市"

if "縣" in cityinfo:

county = matchObj.group(2) + "縣"

else:

county = matchObj.group(2) + "區"

else:

matchObj = re.match(r'(.+?)市', cityinfo, re.M | re.I)

if matchObj:

city = matchObj.group(1) + "市"

else:

matchObj = re.match(r'(.+?)縣', cityinfo, re.M | re.I)

if matchObj:

county = matchObj.group(1) + "縣"

self.count += 1

code = "A" + str(self.count)

item = ScenicItem(name=name,province=province,city=city,county=county,address=address,descript=descript,

scenic_url=scenic_url,image_url=image_url,code=code)

yield item

next_url = response.xpath('//*[@id="searchResultContainer"]/div[11]/a[11]/@href').get()

if next_url:

yield scrapy.Request(url=response.urljoin(next_url), callback=self.parse,meta={})

7、pipelines.py,將數據保存到mysql數據庫中

import pymysql

# 用于數據庫存儲

class DBPipeline(object):

def __init__(self):

# 連接數據庫

self.connect = pymysql.connect(

host='localhost',

port=3306,

db='edu_demo',

user='root',

passwd='123456',

charset='utf8',

use_unicode=True)

# 通過cursor執行增刪查改

self.cursor = self.connect.cursor();

def process_item(self, item, spider):

try:

# 查重處理

self.cursor.execute(

"""select * from a_scenic where ctrip_url = %s""",

item['scenic_url'])

# 是否有重復數據

repetition = self.cursor.fetchone()

# 重復

if repetition:

pass

else:

# 插入數據

self.cursor.execute(

"""insert into a_scenic(code,province, city, county, name ,description, ctrip_url,image_url,address,type)

value (%s,%s, %s, %s, %s, %s, %s, %s, %s, %s)""",

(item['code'],

item['province'],

item['city'],

item['county'],

item['name'],

item['descript'],

item['scenic_url'],

item['image_url'],

item['address'], '1'))

# 提交sql語句

self.connect.commit()

except Exception as error:

# 出現錯誤時打印錯誤日志

print(error)

return item

8、start.py

from scrapy import cmdline

cmdline.execute("scrapy crawl scenic".split())

9、運行start.py即可

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/533052.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/533052.shtml
英文地址,請注明出處:http://en.pswp.cn/news/533052.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python灰色關聯度分析代碼_灰色關聯分析法步驟 - osc_uwnmtz9n的個人空間 - OSCHINA - 中文開源技術交流社區...

https://wenku.baidu.com/view/dc356290af1ffc4fff47ac0d.html?rec_flagdefault&sxts1538121950212利用灰色關聯分析的步驟是:1.根據分析目的確定分析指標體系,收集分析數據。設n個數據序列形成如下矩陣:其中m為指標的個數&a…

aio 系統原理 Java_Java新一代網絡編程模型AIO原理及Linux系統AIO介紹

從JDK 7版本開始,Java新加入的文件和網絡io特性稱為nio2(new io 2, 因為jdk1.4中已經有過一個nio了),包含了眾多性能和功能上的改進,其中最重要的部分,就是對異步io的支持,稱為Java AIO(asynchronous IO)。因為AIO的實…

centos mysql 5.5 art_Linux?CentOS6.5下編譯安裝MySQL?5.5.51''''

一、編譯安裝MySQL前的準備工作安裝編譯源碼所需的工具和庫yum install gcc gcc-c ncurses-devel perl安裝cmake,從http://www.cmake.org下載源碼并編譯安裝wget http://www.cmake.org/files/v2.8/cmake-2.8.10.2.tar.gztar -xzvf cmake-2.8.10.2.tar.gzcd cmake-2.…

java修改默認字符編碼_設置默認的Java字符編碼?

如何以編程方式正確設置JVM(1.5.x)使用??的默認字符編碼?我已經讀過-Dfile.encoding 以前是以往的方式去為舊的JVM …我沒有那么奢侈的原因,我不會進入。我努力了:System.setProperty("file.encoding", "UTF-8");并且屬…

java api 第一個類是_JAVA常用API:String 類的常用方法

字符串是一個對象,有很多方法可以使用1. length();返回字符串的長度String str "abcd";int len str.length();2. isEmpty(); 僅當當length()為0時返回true,否則返回falseboolean b str.isEmpty();3. getBytes();返回字符串中每個字符的ASCII碼(使用平臺…

關于java內容_關于java一些概念性的內容

PO:persistant object持久對象最形象的理解就是一個PO就是數據庫中的一條記錄。好處是可以把一條記錄作為一個對象處理,可以方便的轉為其它對象。--------------------------------------------------------------------------------BO:busin…

java訂單類_基于Java創建一個訂單類代碼實例

這篇文章主要介紹了基于Java創建一個訂單類代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下需求描述定義一個類,描述訂單信息訂單id訂單所屬用戶(用戶對象)訂單所包含的商品(不定數量個商品對…

java請假審批怎么實現_java實現請假時間判斷

筆記:需求分析:每周上班6天夏季早上8:30-12:00下午14:00-17:30冬季早上8:30-12:00下午14:30-18:00請假最低為半天按照上午8:00-12:00,下午14:00-18:00計算,包括了夏季和冬季時間,規律分布如下public String getDouble(HttpServletRequest request) throws ParseException {//參…

mariadb mysql 5.6_MySQL / MariaDB 5.5 升級到 MySQL 5.6

RHEL 及 CentOS 7 默認的資庫系統是 MariaDB 5.5 (等同 MySQL 5.5), 雖然現時 MySQL 最新版是 5.7, 但一般上升級都建議一級一級上, 而 MySQL 5.6 比 5.5 也提高了效能及提供更多功能, 以下是在 RHEL 及 CentOS 從原來的 MySQL 5.5 或 MariaDB 5.5, 升級到 MySQL 5.6 的步驟。1…

iText報表Java_(例)Java生成PDF報表 iText

// 導入IO庫類import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.util.ArrayList;// 導入 PO&#x…

mysql update修改數據_MySQL UPDATE:修改數據(更新數據)

在 MySQL 中,可以使用 UPDATE 語句來修改、更新一個或多個表的數據。UPDATE 語句的基本語法使用 UPDATE 語句修改單個表,語法格式為:UPDATE SET 字段 1值 1 [,字段 2值 2… ] [WHERE 子句 ][ORDER BY 子句] [LIMIT 子句]語法說明如下&#xf…

java堆內存 數據結構_JAVA內存區域

首先解釋下內存溢出和內存泄露之間的區別,為后面的學習做些鋪墊:1、內存溢出和內存泄露的區別和聯系內存溢出 out of memory:是指程序申請內存時,沒有足夠的內存供申請者使用,或者說,給了你一塊存儲int類型…

java jsp的指令_[javaEE] jsp的指令

jsp的指令:jsp的指令(directive)是為jsp引擎而設計的,他們并不直接產生任何可見輸出,而是告訴引擎如何處理jsp頁面中的其他部分頁面頭部的page指令pageEncoding"utf-8"%>配置錯誤頁面:web.xml500/500.jsp404/404.jsp…

JAVA不能滿屏_java – 全屏幕視頻,不拉伸視頻

像這樣,你可以自己設置視頻的屬性。使用SurfaceView(給你更多的視圖控制),將其設置為fill_parent以匹配整個屏幕android:orientation"vertical"android:layout_width"match_parent"android:layout_height"fill_parent">…

java異常標記_java.lang.RuntimeException:錯誤:0D0680A8:asn1編碼例程:ASN1_CHECK_TLEN:錯誤的標記...

我收到此錯誤(在標題中).我不確定為什么,請幫忙.代碼如下:public static String decryptRSA(Context mContext, byte[] message) throws Exception {InputStream in mContext.getResources().openRawResource(R.raw.publicrsakey);X509EncodedKeySpec x509EncodedK…

正版我的世界怎么下載java_mcjava正版下載-mc我的世界java安卓正式版極速下載v1.0.1 - 趣趣手游網...

mc我的世界java安卓正式版帶你體驗最為精彩的多人聯機對戰玩法,游戲專為java系列打造,在游戲的部分特性上有著各種的提升,以及各種專屬的表達,比基巖版能多一些不同的玩法,在這里有著各種不同的玩法以及模式等待你的加…

java原子整數_多線程(四、原子類-AtomicInteger)

案例10個線程并發累加一個整數,每個線程累加1000,保證線程安全Unsafe類,來源于sun.misc包。該類封裝了許多類似指針操作,可以直接進行內存管理、操縱對象、阻塞/喚醒線程等操作。package com.jane;import java.util.ArrayList;imp…

java 新建菜單選項_請完成下列Java程序:創建一個下拉式菜單,菜單項包括3個CheckboxM..._考試資料網...

請完成下列Java程序:創建一個下拉式菜單,菜單項包括3個CheckboxMenultem(復選框),一條分割線和一個Exit項。要求打開或關閉復選框時,確定是哪個被切換,是開還是關,并輸出它的狀態;選擇Exit項能夠…

adurnio 單片機_單片機20~200A大電流檢測電路設計 用AD實現 帶原理圖,源代碼,proteus仿真文件...

//------------------------------51單片機頭文件#include//各數字的數碼管段碼(共陰)unsigned char code DSY_CODE[]{0x3f,0x06,0x5b,0x4f,0x66,0x6d,0x7d,0x07,0x7f,0x6f}; //數碼管顯示數組{0,1,2,3,4,5,6,7,8,9}sbit CLKP3^3; //時鐘信號sbit STP3^6; //啟動信號,由…

java 極客_Java極客思維

?開篇介紹大家好,公眾號【Java極客思維】近期會整理一些Java高頻面試題分享給小伙伴,也希望看到的小伙伴在找工作過程中能夠用得到!本章節主要針對Java一些消息中間件高頻面試題進行分享。通知:公眾號【Java極客思維】正在送書福…