【python爬蟲】酷狗音樂爬取練習

注意:本次爬取的音樂僅有1分鐘試聽,僅作學習爬蟲的原理,完整音樂需要自行下載客戶端。

一、 初步分析

登陸酷狗音樂后隨機選取一首歌,在請求里發現一段mp3文件,復制網址,確實是我們需要的url。

復制音頻的名字,搜索找到發起請求的網址,發現是在songinfo里

查看參數和請求頭,刷新一次,查看是否有哪些參數是變化的。可以發現圖中兩次請求的這些參數都不同,接下來就尋找這些參數的生成方式,參數clienttime為時間戳,那么就只需要找到signature的生成方式就可以了:

二、分析參數signature

1. 分析過程

搜索參數signature,并在可能生成的位置打上斷點,然后刷新網頁

網頁斷在了此處,可以看見參數signature跟函數d與數組s有關。

補充:如果s的長度不為13,需要放行一下,點擊這個按鈕

查看函數d的定義

發現函數內部沒有wordsToBytes函數和函數i的相關定義,那么打下斷點,查看具體函數的位置

獲得wordsToBytes函數的具體定義

獲得i函數的具體定義

i函數里沒有r.stringToBytes(t)的相關定義,繼續打下斷點

找到r.stringToBytes(t)的相關定義

接著查看s的內容:在console里查看s的內容,發現s的值跟之前請求的參數類似。而且下標為0和下標為12的值跟u的值相同

往上查找u的定義,發現u的值是固定的

2. 代碼實現

那么就開始實現生成signature的代碼(以下為JavaScript代碼

function bytesToWords(t) {for (var n = [], r = 0, e = 0; r < t.length; r++,e += 8)n[e >>> 5] |= t[r] << 24 - e % 32;return n
}function rotl(t, n) {return t << n | t >>> 32 - n
}function endian(t) {if (t.constructor == Number)return 16711935 & rotl(t, 8) | 4278255360 & rotl(t, 24);for (var n = 0; n < t.length; n++)t[n] = endian(t[n]);return t
}function i(t, c) {var l = {utf8: {stringToBytes: function (t) {return l.bin.stringToBytes(unescape(encodeURIComponent(t)))},bytesToString: function (t) {return decodeURIComponent(escape(l.bin.bytesToString(t)))}},bin: {stringToBytes: function (t) {for (var n = [], r = 0; r < t.length; r++)n.push(255 & t.charCodeAt(r));return n},bytesToString: function (t) {for (var n = [], r = 0; r < t.length; r++)n.push(String.fromCharCode(t[r]));return n.join("")}}};i._ff = function (t, n, r, e, o, i, c) {var s = t + (n & r | ~n & e) + (o >>> 0) + c;return (s << i | s >>> 32 - i) + n},i._gg = function (t, n, r, e, o, i, c) {var s = t + (n & e | r & ~e) + (o >>> 0) + c;return (s << i | s >>> 32 - i) + n},i._hh = function (t, n, r, e, o, i, c) {var s = t + (n ^ r ^ e) + (o >>> 0) + c;return (s << i | s >>> 32 - i) + n},i._ii = function (t, n, r, e, o, i, c) {var s = t + (r ^ (n | ~e)) + (o >>> 0) + c;return (s << i | s >>> 32 - i) + n};t.constructor == String ? t = c && "binary" === c.encoding ? o.stringToBytes(t) : l.utf8.stringToBytes(t) : e(t) ? t = Array.prototype.slice.call(t, 0) : Array.isArray(t) || (t = t.toString());for (var s = bytesToWords(t), a = 8 * t.length, l = 1732584193, u = -271733879, f = -1732584194, d = 271733878, g = 0; g < s.length; g++)s[g] = 16711935 & (s[g] << 8 | s[g] >>> 24) | 4278255360 & (s[g] << 24 | s[g] >>> 8);s[a >>> 5] |= 128 << a % 32,s[14 + (a + 64 >>> 9 << 4)] = a;for (var b = i._ff, p = i._gg, h = i._hh, m = i._ii, g = 0; g < s.length; g += 16) {var y = l, j = u, S = f, v = d;u = m(u = m(u = m(u = m(u = h(u = h(u = h(u = h(u = p(u = p(u = p(u = p(u = b(u = b(u = b(u = b(u, f = b(f, d = b(d, l = b(l, u, f, d, s[g + 0], 7, -680876936), u, f, s[g + 1], 12, -389564586), l, u, s[g + 2], 17, 606105819), d, l, s[g + 3], 22, -1044525330), f = b(f, d = b(d, l = b(l, u, f, d, s[g + 4], 7, -176418897), u, f, s[g + 5], 12, 1200080426), l, u, s[g + 6], 17, -1473231341), d, l, s[g + 7], 22, -45705983), f = b(f, d = b(d, l = b(l, u, f, d, s[g + 8], 7, 1770035416), u, f, s[g + 9], 12, -1958414417), l, u, s[g + 10], 17, -42063), d, l, s[g + 11], 22, -1990404162), f = b(f, d = b(d, l = b(l, u, f, d, s[g + 12], 7, 1804603682), u, f, s[g + 13], 12, -40341101), l, u, s[g + 14], 17, -1502002290), d, l, s[g + 15], 22, 1236535329), f = p(f, d = p(d, l = p(l, u, f, d, s[g + 1], 5, -165796510), u, f, s[g + 6], 9, -1069501632), l, u, s[g + 11], 14, 643717713), d, l, s[g + 0], 20, -373897302), f = p(f, d = p(d, l = p(l, u, f, d, s[g + 5], 5, -701558691), u, f, s[g + 10], 9, 38016083), l, u, s[g + 15], 14, -660478335), d, l, s[g + 4], 20, -405537848), f = p(f, d = p(d, l = p(l, u, f, d, s[g + 9], 5, 568446438), u, f, s[g + 14], 9, -1019803690), l, u, s[g + 3], 14, -187363961), d, l, s[g + 8], 20, 1163531501), f = p(f, d = p(d, l = p(l, u, f, d, s[g + 13], 5, -1444681467), u, f, s[g + 2], 9, -51403784), l, u, s[g + 7], 14, 1735328473), d, l, s[g + 12], 20, -1926607734), f = h(f, d = h(d, l = h(l, u, f, d, s[g + 5], 4, -378558), u, f, s[g + 8], 11, -2022574463), l, u, s[g + 11], 16, 1839030562), d, l, s[g + 14], 23, -35309556), f = h(f, d = h(d, l = h(l, u, f, d, s[g + 1], 4, -1530992060), u, f, s[g + 4], 11, 1272893353), l, u, s[g + 7], 16, -155497632), d, l, s[g + 10], 23, -1094730640), f = h(f, d = h(d, l = h(l, u, f, d, s[g + 13], 4, 681279174), u, f, s[g + 0], 11, -358537222), l, u, s[g + 3], 16, -722521979), d, l, s[g + 6], 23, 76029189), f = h(f, d = h(d, l = h(l, u, f, d, s[g + 9], 4, -640364487), u, f, s[g + 12], 11, -421815835), l, u, s[g + 15], 16, 530742520), d, l, s[g + 2], 23, -995338651), f = m(f, d = m(d, l = m(l, u, f, d, s[g + 0], 6, -198630844), u, f, s[g + 7], 10, 1126891415), l, u, s[g + 14], 15, -1416354905), d, l, s[g + 5], 21, -57434055), f = m(f, d = m(d, l = m(l, u, f, d, s[g + 12], 6, 1700485571), u, f, s[g + 3], 10, -1894986606), l, u, s[g + 10], 15, -1051523), d, l, s[g + 1], 21, -2054922799), f = m(f, d = m(d, l = m(l, u, f, d, s[g + 8], 6, 1873313359), u, f, s[g + 15], 10, -30611744), l, u, s[g + 6], 15, -1560198380), d, l, s[g + 13], 21, 1309151649), f = m(f, d = m(d, l = m(l, u, f, d, s[g + 4], 6, -145523070), u, f, s[g + 11], 10, -1120210379), l, u, s[g + 2], 15, 718787259), d, l, s[g + 9], 21, -343485551),l = l + y >>> 0,u = u + j >>> 0,f = f + S >>> 0,d = d + v >>> 0}return endian([l, u, f, d])
}function wordsToBytes(t) {for (var n = [], r = 0; r < 32 * t.length; r += 8)n.push(t[r >>> 5] >>> 24 - r % 32 & 255);return n
}function bytesToHex(t) {for (var n = [], r = 0; r < t.length; r++)n.push((t[r] >>> 4).toString(16)),n.push((15 & t[r]).toString(16));return n.join("")
}function d(t, r) {if (void 0 === t || null === t)throw new Error("Illegal argument " + t);var e = wordsToBytes(i(t, r));return r && r.asBytes ? e : r && r.asString ? o.bytesToString(e) : bytesToHex(e)
}function getsianature() {var s = ["NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt","appid=1014","clienttime=1741411989613","clientver=20000","dfid=3Mm61k0WDxvm033Epz2worRG","encode_album_audio_id=j410q60","mid=70789bebe63fb74c52e4a911853f5450","platid=4","srcappid=2919","token=cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c","userid=2307902397","uuid=70789bebe63fb74c52e4a911853f5450","NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt"];return d(s.join(""))
}console.log(getsianature());

經過一系列調試,可以發現生成的結果與瀏覽器生成的值一樣,那么生成signature的代碼就沒問題了。

將一些會變的值改為變量,可以看到參數s的值里只有clienttime的值是會變的,因此修改上述代碼中getsianature函數,將參數s的值放在python代碼中,getsianature函數改完如下圖所示:

function getsianature(s) {return d(s.join(""))
}

三、獲取多首歌

1. 分析過程

點擊不同的歌,可以發現每首歌的參數encode_album_audio_id都不同,因此需要獲取encode_album_audio_id

搜索歌名,找到歌曲的id

接著查看請求參數,同樣有一個signature參數,刷新多次網頁發現signature參數會變化,那么重復之前分析signature的步驟

打下斷點,查看中斷的位置,參數s有所變化

打印s,查看s的內容,除此之外沒有變化,那么就沿用先前的代碼

2. 代碼實現

完整代碼如下,注意這里調用了JavaScript代碼,需要安裝PyExecJS模塊:pip install PyExecJS -i https://pypi.tuna.tsinghua.edu.cn/simple。

本代碼中JavaScript文件名為kugou.js,JavaScript代碼在參數signature的分析中有寫到,以下為python代碼:

import json
import re
import time
import requests
import execjsclass kugou_music:def __init__(self):self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36','Referer': 'https://www.kugou.com/',}def get_signature(self, s):with open("kugou.js", "r", encoding="utf-8") as f:js = f.read()ctx = execjs.compile(js)signature = ctx.call("getsianature", s)return signaturedef get_one_song_url(self, audio_id):timestamp = str(int(time.time() * 1000))s = ["NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt","appid=1014",f"clienttime={timestamp}","clientver=20000","dfid=3Mm61k0WDxvm033Epz2worRG",f"encode_album_audio_id={audio_id}","mid=70789bebe63fb74c52e4a911853f5450","platid=4","srcappid=2919","token=cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c","userid=2307902397","uuid=70789bebe63fb74c52e4a911853f5450","NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt"]signature = self.get_signature(s)params = {'srcappid': '2919','clientver': '20000','clienttime': timestamp,'mid': '70789bebe63fb74c52e4a911853f5450','uuid': '70789bebe63fb74c52e4a911853f5450','dfid': '3Mm61k0WDxvm033Epz2worRG','appid': '1014','platid': '4','encode_album_audio_id': audio_id,'token': 'cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c','userid': '2307902397','signature': signature}one_song_url = 'https://wwwapi.kugou.com/play/songinfo'response = requests.get(one_song_url, headers=self.headers, params=params)song_url = response.json()['data']['play_url']return song_urldef get_signal_music(self, audio_id, audio_name):song_url = self.get_one_song_url(audio_id)response = requests.get(song_url, headers=self.headers)with open(f'{audio_name}.mp3', 'wb') as f:f.write(response.content)print(f'{audio_name}.mp3下載完成')def get_song_id(self,keyword):timestamp = str(int(time.time() * 1000))s = ["NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt","appid=1014","bitrate=0","callback=callback123",f"clienttime={timestamp}","clientver=1000","dfid=3Mm61k0WDxvm033Epz2worRG","filter=10","inputtype=0","iscorrection=1","isfuzzy=0",f"keyword={keyword}","mid=70789bebe63fb74c52e4a911853f5450","page=1","pagesize=30","platform=WebFilter","privilege_filter=0","srcappid=2919","token=cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c","userid=2307902397","uuid=70789bebe63fb74c52e4a911853f5450","NVPh5oo715z5DIWAeQlhMDsWXXQV4hwt"]signature = self.get_signature(s)params = {'callback': 'callback123','srcappid': '2919','clientver': '1000','clienttime': timestamp,'mid': '70789bebe63fb74c52e4a911853f5450','uuid': '70789bebe63fb74c52e4a911853f5450','dfid': '3Mm61k0WDxvm033Epz2worRG','keyword': keyword,'page': '1','pagesize': '30','bitrate': '0','isfuzzy': '0','inputtype': '0','platform': 'WebFilter','userid': '2307902397','iscorrection': '1','privilege_filter': '0','filter': '10','token': 'cbfe2e174e4b97fd6aca35682cdba3d2b431c4ed95e2dbd1779e37a7975b672c','appid': '1014','signature': signature}song_id_url = 'https://complexsearchretry.kugou.com/v2/search/song'response = requests.get(song_id_url, headers=self.headers, params=params, verify=False)temp = re.findall(r'callback123(.*)', response.text)[0][1:-1]temp = json.loads(temp)song = temp['data']['lists']return songdef get_all_song(self,keyword):song = self.get_song_id(keyword)for i in song:song_id = i.get('EMixSongID')song_name = i.get('FileName')# print(song_name, song_id)try:self.get_signal_music(song_id, song_name)except Exception as e:print(f'{song_name}下載失敗:', e)if __name__ == '__main__':kugou = kugou_music()# kugou.get_signal_music('j410q60')keyword='周杰倫'kugou.get_all_song(keyword)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/71946.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/71946.shtml
英文地址,請注明出處:http://en.pswp.cn/web/71946.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux開發工具----vim

目錄 Linux編輯器-vim使用 1. vim的基本概念 正常/普通/命令模式(Normal mode) 插入模式(Insert mode) 底行模式(last line mode) 2. vim的基本操作 3. vim正常模式命令集 4. vim底行模式命令集 5. vim操作總結 (本篇文章相當于vim常用命令字典) Linux編輯器-vim使用 我們先來看…

基于云函數的自習室預約微信小程序+LW示例參考

全階段全種類學習資源&#xff0c;內涵少兒、小學、初中、高中、大學、專升本、考研、四六級、建造師、法考、網賺技巧、畢業設計等&#xff0c;持續更新~ 文章目錄 [TOC](文章目錄) 1.項目介紹2.項目部署3.項目部分截圖4.獲取方式 1.項目介紹 技術棧工具&#xff1a;云數據庫…

卷積神經網絡與計算機視覺:從數學基礎到實戰應用

卷積神經網絡與計算機視覺&#xff1a;從數學基礎到實戰應用 摘要 本文深入解析卷積神經網絡&#xff08;CNN&#xff09;的核心原理及其在計算機視覺中的應用。首先介紹卷積與互相關的數學定義及在神經網絡中的實際應用差異&#xff0c;接著從系統設計視角分析卷積的線性代數…

從Manus到OpenManus:多智能體協作框架如何重構AI生產力?

文章目錄 Manus&#xff1a;封閉生態下的通用AI智能體OpenManus&#xff1a;開源社區的閃速復刻挑戰與未來&#xff1a;框架落地的現實邊界當前局限性未來演進方向 OpenManus使用指南1. 環境配置2. 參數配置3. 替換搜索引擎4. 運行效果 協作框架開啟AI生產力革命 Manus&#xf…

js 使用 Web Workers 來實現一個精確的倒計時,即使ios手機鎖屏或頁面進入后臺,倒計時也不會暫停。

## 效果如上 <!-- 將 main.js 和 worker.js 放在同一個目錄下&#xff0c;然后在 HTML 文件中引入 main.js --><!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content&q…

深入理解 Linux 中的 -h 選項:讓命令輸出更“人性化”

在 Linux 系統中&#xff0c;命令行工具是系統管理員和普通用戶最常用的交互方式之一。然而&#xff0c;命令行輸出往往充滿了技術性術語和數字&#xff0c;對于初學者或非技術用戶來說可能顯得晦澀難懂。幸運的是&#xff0c;許多 Linux 命令都提供了一個非常實用的選項&#…

Docker Compose國內鏡像一鍵部署dify

克隆代碼 git clone https://github.com/langgenius/dify.git進入docker目錄 cd docker修改.env部分 # 將環境模版文件變量重命名 cp .env.example .env # 修改 .env,修改nginx的host和端口,避免端口沖突 NGINX_SERVER_NAME192.168.1.223 NGINX_PORT1880 NGINX_SSL_PORT1443…

紅隊OPSEC(安全運營)個人總結

OPSEC又稱&#xff1a;運營安全&#xff0c;是指在紅隊的視角下&#xff0c;藍隊對我方的威脅。 OPSEC漏洞的五個流程&#xff1a; 關鍵信息識別&#xff1a;指紅隊的關鍵信息不泄露&#xff0c;包括但不限于紅隊的攻擊意圖&#xff0c;能力&#xff0c;人員&#xff0c;活動及…

NO.29十六屆藍橋杯備戰|string九道練習|reverse|翻轉|回文(C++)

P5015 [NOIP 2018 普及組] 標題統計 - 洛谷 #include <bits/stdc.h> using namespace std;int main() {ios::sync_with_stdio(false);cin.tie(nullptr);string s;getline(cin, s);int sz s.size();int cnt 0;for (int i 0; i < sz; i){if (isspace(s[i]))continue…

MongoDB 觸發器實現教程

在傳統的關系型數據庫&#xff08;如 MySQL&#xff09;中&#xff0c;觸發器是一種強大的工具&#xff0c;它可以在特定的數據庫操作&#xff08;如插入、更新或刪除&#xff09;發生時自動執行一段代碼。然而&#xff0c;MongoDB 并沒有原生內置的觸發器概念。不過&#xff0…

C#控制臺應用程序學習——3.11

一、整型數字計算 如果我們想執行以下程序&#xff1a;程序提示用戶輸入一個數字并輸出 num 20 的結果&#xff0c;我們的思維應該是這樣的&#xff1a; using System;public class Class1 {public static void Main(string[] args){Console.WriteLine("Enter the first…

【C語言】指針篇

目錄 C 語言指針概述指針的聲明和初始化聲明指針初始化指針 指針的操作解引用操作指針算術運算 指針的用途動態內存分配作為函數參數 指針與數組數組名作為指針通過指針訪問數組元素指針算術和數組數組作為函數參數指針數組和數組指針指針數組數組指針 函數指針函數指針的定義和…

嵌入式音視頻通話SDK組件EasyRTC:全平臺設備兼容,智能硬件里的WebRTC調用實踐

在萬物互聯時代&#xff0c;智能硬件設備對實時音視頻通信的需求呈現爆發式增長。傳統基于PC或移動端的WebRTC方案難以滿足嵌入式設備在資源占用、低延遲傳輸和硬件適配等方面的特殊需求。本文將深入探討如何通過EasyRTC嵌入式音視頻通信SDK在嵌入式設備中實現高效的WebRTC視頻…

Aim Robotics電動膠槍:機器人涂膠點膠的高效解決方案

在自動化和智能制造領域&#xff0c;機器人技術的應用越來越廣泛&#xff0c;而涂膠和點膠作為生產過程中的重要環節&#xff0c;也逐漸實現了自動化和智能化。Aim Robotics作為一家專注于機器人技術的公司&#xff0c;其推出的電動膠槍為這一領域帶來了高效、靈活且易于操作的…

c語言筆記 數組進階題目的理解

題目&#xff1a;聲明一個二維 int 型數組 a&#xff0c;再聲明另一個一維數組指針數組 b&#xff0c;使該數組 b 的每一個指針分別指向二維數組 a 中的每一個元素(即每一個一維數組)&#xff0c;然后利用數組 b 計算數組 a 的和。 圖解&#xff1a;畫圖幫助理解 我們要清楚什…

Photo Works在線圖片編輯器:一鍵修復老照片,輕松煥新記憶

★【概況介紹】 今天突然收到我的朋友電腦出故障了,截圖給我,我一看就知道這個是缺少必要的組件引起的故障。結合這個問題,我來談談自己的解決思路和方法,希望能夠幫助到大家。幫助大家是我最開心的事情。以前只是幫朋友解決問題,沒有記錄下來,剛剛接觸到這個平臺,剛好可…

FANformer:融合傅里葉分析網絡的大語言模型基礎架構

近期大語言模型(LLM)的基準測試結果引發了對現有架構擴展性的思考。盡管OpenAI推出的GPT-4.5被定位為其最強大的聊天模型&#xff0c;但在多項關鍵基準測試上的表現卻不及某些規模較小的模型。DeepSeek-V3在AIME 2024評測中達到了39.2%的Pass1準確率&#xff0c;在SWE-bench Ve…

【 IEEE出版 | 快速穩定EI檢索 | 往屆已EI檢索】2025年儲能及能源轉換國際學術會議(ESEC 2025)

重要信息 主會官網&#xff1a;www.net-lc.net 【論文【】投稿】 會議時間&#xff1a;2025年5月9-11日 會議地點&#xff1a;中國-杭州 截稿時間&#xff1a;見官網 提交檢索&#xff1a;IEEE Xplore, EI Compendex, Scopus 主會NET-LC 2025已進入IEEE 會議官方列表!&am…

藍橋杯練題順序

有重復,適當選擇題目~共229道題&#xff01; 后續會發題解~ STL&#xff1a;9 3100 反轉字符串 [string簡單]---3100 -CSDN博客 2470 單調棧 [stack簡單]---2470 單調棧 [stack簡單]-CSDN博客 2254 括號匹配&#xff01; [stack簡單]---2254: 括號匹配&#xff01;-CSDN博客 …

react基礎語法視圖層類組件

react基礎語法視圖層&類組件 MVVM *區別mvc&mvvm 兩者的區別&#xff1a; 數據模型去渲染視圖。數據層改了&#xff0c;vue自己會監聽到幫我們拿最新的數據去渲染視圖&#xff1b;構建數據構建視圖&#xff0c;數據驅動的思想。這一套是非常相似的。 視圖中的內容改變&…