【Python爬蟲】Python爬取喜馬拉雅,爬蟲教程!

一、思路設計

  (1)分析網頁

    

    在喜馬拉雅主頁找到自己想要的音頻,得到目標URL:https://www.ximalaya.com/qinggan/321787/

    

  通過分析頁面的網絡抓包,最終的到一個比較有用的json數據包

  通過分析,得到了發送json數據包的一個有用的API接口:https://www.ximalaya.com/revision/play/album?albumId=321787&pageNum=2

  其中album為主播的ID在頁面url中有顯示,pageNum為json數據包的“頁數”。每個json數據包有30個json數據

  (2)設計代碼

    向服務器發送請求 ---->? 得到json數據包 ----> 分析json數據包 ----> 提取json數據包中的有用數據 ----> 存儲到本地MongoDB數據庫

二、代碼實例

   代碼共分為兩部分,執行腳本(ximalaya.py)和配置文件(config_ximalaya.py)

    ximalaya.py

 1 # -*- coding:utf-8; -*-2 # Author : Bingnan Huo3 # Create : 2018-12-064 import os5 import time6 import json7 import requests8 9 from threading import Thread
10 from datetime import datetime
11 from pymongo import MongoClient
12 from config_xiamalaya import *
13 
14 def getWorkTimeNow(): 
15     '''Acquire work time '''
16     t = datetime.now()
17     year = t.year
18     month = t.month
19     day = t.day
20     hour = t.hour
21     minute = t.minute
22     time_str = "[%s-%s-%s-%s:%s]"%(str(year),
23                        str(month),
24                        str(day),
25                        str(hour),
26                        str(minute)
27                        )
28     return time_str
29 
30 def getJsonData(userID,page):
31     '''Get target server json data'''
32     count = 0
33     pa = {"albumId":userID,"pageNum":page}
34     while(ERROR):
35         if count > 10:
36             return False
37         try:
38             ret = requests.get(url=INDEXURL,params=pa,headers=HEADERS,timeout=30,verify=True,proxies=None)
39             ret.raise_for_status()
40         except Exception as e:
41             count += 1
42             print(getWorkTimeNow(),end='')
43             print(" [INFO] Retry...")
44             continue
45         else:
46             ret.encoding = ret.apparent_encoding
47             return ret.text
48 
49 def analyseJsonData(jsonData):
50     '''Analyse json data and save into MongoDB'''
51     if jsonData:
52         client = MongoClient()
53         print(getWorkTimeNow() + " [INFO] Connected to MongoDB!")
54         db = client.ximalaya# Create DataBase
55         print(getWorkTimeNow() + " [INFO] Create new database!")
56         table = getattr(db,TABLENAME)# Create Table
57         print(getWorkTimeNow() + " [INFO] Create new table --> %s" %(TABLENAME))
58         dict_obj = json.loads(jsonData)
59         data = dict_obj["data"]# Json attr data
60         content = data["tracksAudioPlay"]# json content
61         for i in content:
62             tmp_dict = {'序號':None,'名稱':None,'Url':None,'源':None,'狀態':False,'時長':None,}
63             tmp_dict['序號'] = i['index']
64             tmp_dict['名稱'] = i['trackName']
65             tmp_dict['Url'] = "https://www.ximalaya.com" + i['trackUrl']
66             tmp_dict['源'] = i['src']
67             if i['isPaid']:
68                 tmp_dict['狀態'] = True
69             tmp_dict['時長'] = i['duration']
70             table.insert_one(tmp_dict)
71             print(getWorkTimeNow() + " [INFO] Insert one data!")
72         
73 
74 def DBStart(dbpath):
75     '''start MongoDB client'''
76     status = os.system("start mongod --dbpath " + dbpath)
77     if not status:
78         print(getWorkTimeNow() + " [INFO] DataBase start!")
79         return True
80     else:
81         print(getWorkTimeNow() + " [INFO] DataBase Failed...")
82         return False
83 def execute(user_id,page):
84     json_data = getJsonData(user_id, page)
85     analyseJsonData(json_data) 
86 
87 def main():
88     DBStart(DBPATH)
89     for page in PAGECONTIANER:
90         execute(USERID, str(page))
91         
92   
93     
94 
95 if __name__ == "__main__":
96     main()

    config_ximalaya.py

 1 # -*- coding:utf-8 -*-2 # ximalaya.py -- config3 import time4 5 def getUnixTime():6     t = time.time()7     return str(int(t))8 9 
10 
11 INDEXURL = " https://www.ximalaya.com/revision/play/album"
12 
13 ERROR = True
14 
15 HEADERS = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0",
16           
17            
18           }
19 """
20 Cookie:x_xmly_traffic=utm_source%253A%2526utm_medium%253A%2526utm_campaign%253A%2526utm_content%253A%2526utm_term%253A%2526utm_from%253A; 
21 device_id=xm_1544076474056_jpc79kg8f1h3u6; 
22 Hm_lvt_4a7d8ec50cfd6af753c4f8aee3425070=1544076479; 
23 Hm_lpvt_4a7d8ec50cfd6af753c4f8aee3425070=1544076479
24 API : https://www.ximalaya.com/revision/play/album?albumId=321787&pageNum=1
25 
26 """
27 COOKIE = {"x_xmly_traffic":"utm_source%253A%2526utm_medium%253A%2526utm_campaign%253A%2526utm_content%253A%2526utm_term%253A%2526utm_from%253A",
28           "device_id":"xm_1544076474056_jpc79kg8f1h3u6",
29           "Hm_lvt_4a7d8ec50cfd6af753c4f8aee3425070":getUnixTime(),
30           "Hm_lpvt_4a7d8ec50cfd6af753c4f8aee3425070":getUnixTime()
31           }
32 
33 DBPATH = "D:\\MongoDB\\data\\db"
34 
35 TABLENAME = "Test_321787_02"
36 
37 PAGECONTIANER = [i for i in range(1,10)]
38 
39 USERID = "321787"

三、執行結果

  最終的數據插入到了本地的MongoDB數據庫

  

  由于MongoDB為NoSQL型數據庫,該數據庫采用BOSN數據類型(json加強版)進行存儲

  在RoboMongo中也可以用MySQL數據庫的表形式進行顯示

  

最后:如果你對Python感興趣,想要學習Python,希望可以幫到你,一起加油!以上是給大家分享的Python全套學習資料,都是我自己學習時整理的:

一、Python所有方向的學習路線

Python所有方向路線就是把Python常用的技術點做整理,形成各個領域的知識點匯總,它的用處就在于,你可以按照上面的知識點去找對應的學習資源,保證自己學得較為全面。

圖片

圖片

二、學習軟件

工欲善其事必先利其器。學習Python常用的開發軟件都在這里了,還有環境配置的教程,給大家節省了很多時間。

圖片

三、全套PDF電子書

書籍的好處就在于權威和體系健全,剛開始學習的時候你可以只看視頻或者聽某個人講課,但等你學完之后,你覺得你掌握了,這時候建議還是得去看一下書籍,看權威技術書籍也是每個程序員必經之路。

圖片

四、入門學習視頻全套

我們在看視頻學習的時候,不能光動眼動腦不動手,比較科學的學習方法是在理解之后運用它們,這時候練手項目就很適合了。

圖片

圖片

五、實戰案例

光學理論是沒用的,要學會跟著一起敲,要動手實操,才能將自己的所學運用到實際當中去,這時候可以搞點實戰案例來學習。

圖片

圖片

?**學習資源已打包,需要的小伙伴可以戳這里:【學習資料】

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/38005.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/38005.shtml
英文地址,請注明出處:http://en.pswp.cn/web/38005.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

docker部署前端,配置域名和ssl

之前使用80端口部署前端項目后,可以使用IP端口號在公網訪問到部署的項目。 進行ICP域名備案后,可以通過域名解析將IP套殼,訪問域名直接訪問到部署的項目~ 如果使用http協議可以很容易實現這個需求,對nginx.conf文件進行修改&#…

Spring Boot集成DeepLearning4j實現圖片數字識別

1.什么是DeepLearning4j? DeepLearning4J(DL4J)是一套基于Java語言的神經網絡工具包,可以構建、定型和部署神經網絡。DL4J與Hadoop和Spark集成,支持分布式CPU和GPU,為商業環境(而非研究工具目的…

《昇思25天學習打卡營第28天 | 昇思MindSporeVision Transformer圖像分類》

第28天 本節學習了Vision Transformer圖像分類 ViT則是自然語言處理和計算機視覺兩個領域的融合結晶。在不依賴卷積操作的情況下,依然可以在圖像分類任務上達到很好的效果。ViT模型的主體結構是基于Transformer模型的Encoder部分(部分結構順序有調整&a…

Mojo: AI開發的革命性編程語言

------------->更多內容&#xff0c;請移步“魯班秘笈”&#xff01;&#xff01;<------------- 剛剛Mojo和HuggingFace一樣發布新版本&#xff0c;此版本編號為24.4&#xff0c;包括幾個核心語言和標準庫增強功能。此版本最大的亮點之一是收到了來自18個社區貢獻者的21…

redis布隆過濾器原理及應用場景

目錄 原理 應用場景 優點 缺點 布隆過濾器&#xff08;Bloom Filter&#xff09;是一種空間效率很高的隨機數據結構&#xff0c;它利用位數組和哈希函數來判斷一個元素是否存在于集合中。 原理 數據結構&#xff1a; 位數組&#xff1a;一個由0和1組成的數組&#xff0c;初始…

【AI應用探討】—膠囊神經網絡(GNN)應用場景

目錄 一、圖像識別與分類 二、目標檢測與跟蹤 三、自然語言處理 四、其他應用場景 一、圖像識別與分類 多層次特征捕捉 膠囊網絡通過其獨特的膠囊結構和動態路由算法&#xff0c;能夠捕捉圖像中的多層次特征。每個膠囊不僅輸出激活強度&#xff0c;還輸出一個多維向量&…

Docker Desktop安裝mysql

安裝 Docker Desktop 1、訪問 Docker Desktop 官方下載地址&#xff1a;https://www.docker.com/products/docker-desktop/ &#xff0c; 選擇對應平臺的 Docker Desktop 安裝包點擊下載&#xff1a; 2、下載成功后&#xff0c;雙擊開始安裝&#xff1a; 3、安裝之前的相關配…

產品經理-對產品經理的認識(1)

今天跟大家聊一下產品經理這個崗位的,產品經理是互聯網崗位當中比較火的一個崗位,也是最接近CEO的崗位 產品經理崗位&#xff0c;技術門檻低&#xff0c;薪水和前景都很不錯&#xff0c;又處于團隊的核心位置 產品經理崗位沒有完全相關的專業設置和清晰的學習路徑&#xff0c;絕…

Spring Boot中實現多數據源配置

Spring Boot中實現多數據源配置 大家好&#xff0c;我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編&#xff0c;也是冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01;今天我們將探討如何在Spring Boot應用中實現多數據源配置&#xff0c;以應對復雜…

java框架的落地實踐案例:大數據平臺設計與實現

使用 java 框架設計和實現大數據平臺可為企業提供數據處理和分析解決方案&#xff0c;使之能夠做出數據驅動的決策。系統采用微服務架構&#xff0c;分解數據處理任務為松散耦合組件&#xff0c;構建于 spring boot 等 java 框架之上。數據采集通過kafka 進行&#xff0c;數據清…

Rust借助dotenv庫讀取環境變量

這里寫自定義目錄標題 歡迎使用Markdown編輯器新的改變功能快捷鍵合理的創建標題&#xff0c;有助于目錄的生成如何改變文本的樣式插入鏈接與圖片如何插入一段漂亮的代碼片生成一個適合你的列表創建一個表格設定內容居中、居左、居右SmartyPants 創建一個自定義列表如何創建一個…

(親測有效)2024代替電視家的app,電視家停了還有什么軟件可以看電視?

嘿&#xff0c;大家好&#xff0c;我是阿星&#xff0c;今天又來跟大家聊聊那些讓人眼前一亮的電視直播軟件。咱們這回不聊那些老掉牙的&#xff0c;來點新鮮的&#xff0c;讓咱們的電視屏幕也能跟上潮流&#xff0c;享受一下科技帶來的便利和樂趣。 首先&#xff0c;得提一提…

如何評價CSS框架TailwindCSS?

端午三天&#xff0c;你們在放假&#xff0c;而我&#xff0c;一個人躲在家里&#xff0c;苦練 tailwindcss。 我在準備這樣一個學習項目&#xff0c;它與傳統的文章/視頻類學習不同&#xff0c;我會在教程中內置大量的可交互案例&#xff0c;提供沉浸式的學習體驗&#xff0c…

SpringMVC中執行流程

文章目錄 14、SpringMVC執行流程14.1、SpringMVC常用組件14.2、DispatcherServlet初始化過程①初始化WebApplicationContext②創建WebApplicationContext③DispatcherServlet初始化策略 14.3、DispatcherServlet調用組件處理請求①processRequest()②doService()③doDispatch()…

Zynq7000系列FPGA中DMA引擎編程指南

DMA引擎的編程指南通常涉及一系列步驟和API調用&#xff0c;以確保數據在內存之間的高效傳輸&#xff0c;而無需CPU的直接干預。 DMA引擎的編程指南包括以下部分&#xff1a; 一、編寫微代碼為AXI事務編寫CCRx程序 通道微碼用于設置dmac.CCRx寄存器以定義AXI事務的屬性。這是…

TikTok直播限流與網絡的關系及解決方法

TikTok作為一款熱門的社交平臺&#xff0c;其直播功能吸引了大量用戶。然而&#xff0c;一些用戶可能會遇到TikTok直播限流的問題&#xff0c;例如直播過程中出現播放量低、直播畫面質量差等情況。那么&#xff0c;TikTok直播限流與所使用的網絡線路是否有關系&#xff1f;是否…

學習springIOC

第二章 Spring IOC 章節內容 Spring IOC技術實現Spring IOC設值注入Spring IOC構造注入 章節目標 掌握Spring IOC技術實現掌握Spring IOC設置注入掌握Spring IOC構造注入 第一節 Spring簡介 1. Spring 簡介 Spring 是目前主流的 Java 開發框架&#xff0c;是 Java 世界最…

Android實現手寫輸入

android應用開發中有時會有手寫輸入需求&#xff0c;非通過系統鍵盤手寫功能&#xff0c;比如自定義鍵盤&#xff0c;這時就需要自己來實現&#xff0c;一般有兩種場景&#xff1a;一種是類似手寫簽名保存&#xff1b;另一種是真正的手寫輸入&#xff0c;需要將筆跡識別成正確的…

JTracker IDEA 中最好的 MyBatis 日志格式化插件

前言 如果你使用 MyBatis ORM 框架&#xff0c;那么你應該用過 MyBatis Log 格式化插件&#xff0c;它可以讓我們的程序輸出的日志更人性化。 但是有一個問題&#xff0c;通常我們只能看到格式化后的效果&#xff0c;沒辦法知道這個 SQL 是誰執行的以及調用的鏈路。 如下圖所…

文章解讀與仿真程序復現思路——電網技術EI\CSCD\北大核心《考慮復合指標優化模態分解和 Stacking 集成的綜合能源系統多元負荷預測》

本專欄欄目提供文章與程序復現思路&#xff0c;具體已有的論文與論文源程序可翻閱本博主免費的專欄欄目《論文與完整程序》 論文與完整源程序_電網論文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 電網論文源程序-CSDN博客電網論文源…