C# 學習之路--百度網盤爬蟲設計與實現(一)

百度網盤爬蟲

現在市面上出現了很多網盤搜索引擎,寫這系列博文及爬蟲程序的初衷:

  • 更方面的查找資源
  • 學習C#
  • 學習爬蟲的設計與實現
  • 記錄學習歷程
  • 自我監督

    能力有限,如有不妥之處,還請各位看官點評。同在學習的網友~與君共勉。

工具/庫選擇
  • mysql5.6 (習慣使然,sqlserver比較龐大,個人使用起來不是很習慣,后期可能改為sqlserver)
  • HttpWebRequestHttpWebResponseJSON.NET
  • vs2015, .NET4.5

    PS:介紹以上是權當做個備忘錄/提示。

百度網盤搜索流程
此爬蟲原理是通過爬取用戶的分享/專輯保存鏈接來達到資源搜索的目的,而用戶與用戶之間通過訂閱/關注來聯系,慢慢形成一個龐大的爬蟲網絡。
  1. 首先設定爬取用戶(初始化爬蟲隊列)。
  2. 遍歷用戶分享/專輯,更改隊列狀態。
  3. 將用戶訂閱/關注用戶加入隊列。
  4. 重復以上步驟。

    PS:看似簡單的流程,想要精工還需細磨。

獲取百度網盤推薦用戶
當沒有訂閱任何用戶時,網盤的分享動態界面會出現一些用戶噢。這是系統推薦的用戶,雖然改動不一定會很大,但是可以作為爬蟲的初始用戶來處理(這種推薦用戶聽說關注的人都不少噢)

接口返回信息:

errorno: 狀態碼
request_id:請求ID
hotuser_list:用戶列表

用戶列表結構:

type:類型(通常返回-1,不明用途)
hot_uname:用戶昵稱
avatar_url:頭像縮略圖地址
intro:描述
follow_count:訂閱人數
fans_count:粉絲人數
user_type:用戶類型?(不明意義)
is_vip:是否為VIP
pubshare_count:分享數
hot_uk:不知道啥玩意
album_count:分享專輯數
END
暫時就寫到這兒了,要去寫代碼了~ 寫完再會

轉載于:https://www.cnblogs.com/By-ruoyu/p/6993424.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/392491.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/392491.shtml
英文地址,請注明出處:http://en.pswp.cn/news/392491.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

實習生對企業的認識_如何成為您認識的超級明星實習生

實習生對企業的認識by Maple Ong由Maple Ong 如何成為您認識的超級明星實習生 (How to be The Superstar Intern You Know You Are) 遏制冒名頂替綜合癥,為即將到來的軟件工程實習做準備 (Curb the Impostor Syndrome and get prepared for your upcoming Software…

7時過2小時是幾時_2017最北師大版二年級下冊數學第七單元《時、分、秒》過關檢測卷...

二年級數學下冊時分秒測試卷一、填一填。(每空1分,共36分)1.鐘面上有()大格,()個小格,時針走1個大格是()時,分針走一個大格是()分。2.1分()秒()分1時1分15秒()秒3.1小時20分()分90分()小時()分 70秒()分()秒4.用時、分、秒填空a)我…

在沒人相信的時候,你的堅持才真正可貴

2018 世界 VR 產業大會在南昌開幕,阿里巴巴創始人馬云在演講中說: “在人人都相信一個產業的時候,其實你已經沒有機會了。在沒有人相信的時候,你的堅持才是真正的珍貴。很多人是因為看見而相信,只有很少數的人是因為相…

leetcode 49. 字母異位詞分組(排序+hash)

給定一個字符串數組,將字母異位詞組合在一起。字母異位詞指字母相同,但排列不同的字符串。 示例: 輸入: [“eat”, “tea”, “tan”, “ate”, “nat”, “bat”] 輸出: [ [“ate”,“eat”,“tea”], [“nat”,“tan”], [“bat”] ] 代碼 class S…

數據庫備份策略 分布式_管理優秀的分布式數據團隊的4種基本策略

數據庫備份策略 分布式COVID-19 has forced nearly every organization to adapt to a new workforce reality: distributed teams. We share four key tactics for turning your remote data team into a force multiplier for your entire company.COVID-19迫使幾乎每個組織都…

如何使用阿里云云解析API實現動態域名解析,搭建私有服務器

原文地址:http://www.yxxrui.cn/article/116.shtml 未經許可請勿轉載,如有疑問,請聯系作者:yxxrui163.com 公司的網絡沒有固定的公網IP地址,但是能夠保證的是,每次動態分配的IP地址均為獨立的公網IP&#x…

新手指南:dvwa_如何構建基本的Slackbot:新手指南

新手指南:dvwaBy Vishwa ShahVishwa Shah著 Update: code and tutorial updated on June 28 to reflect Slack API changes.更新:代碼和教程已于6月28日更新,以反映Slack API的更改 。 Slackbots:為什么要使用它們? (Slackbots:…

java 加載class文件路徑_動手實現MVC: 1. Java 掃描并加載包路徑下class文件

背景用過spring框架之后,有個指定掃描包路徑,然后自動實例化一些bean,這個過程還是比較有意思的,抽象一下,即下面三個點如何掃描包路徑下所有的class文件如何掃描jar包中對應包路徑下所有的class文件如何加載class文件…

leetcode 738. 單調遞增的數字(貪心算法)

給定一個非負整數 N&#xff0c;找出小于或等于 N 的最大的整數&#xff0c;同時這個整數需要滿足其各個位數上的數字是單調遞增。 &#xff08;當且僅當每個相鄰位數上的數字 x 和 y 滿足 x < y 時&#xff0c;我們稱這個整數是單調遞增的。&#xff09; 示例 1: 輸入: …

python+[:]+切片_我從C ++到Python的方式:概念上的改變

python[:]切片by asya f由asya f 我從C 到Python的方式&#xff1a;概念上的改變 (How I went from C to Python: a conceptual change) 介紹 (Introduction) People say that coding in Python is so easy that even a 6 year old can do it. This was the thought that I ha…

深度學習 免費課程_2020年排名前三的免費深度學習課程

深度學習 免費課程&#xff03;1 Fastai面向程序員的實用深度學習2020 (#1 Fastai Practical Deep Learning for Coders 2020) On 21 of August 2020, fastai released the new version of the fastai library and of their Deep Learning course!2020年8月21日&#xff0c;fas…

mysql復制主從集群搭建

近期搭了個主從復制。中間出了點小問題&#xff0c;排查搞定&#xff0c;記錄下來1環境&#xff1a;虛擬機&#xff1a;OS:centos6.5Linux host2 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 x86_64 x86_64 GNU/LinuxserverIP192.168.18.66192.168.18.6…

java jolt tuxedo_java通過jolt調用tuxedo服務.xls

java通過jolt調用tuxedo服務.xls還剩20頁未讀&#xff0c;繼續閱讀下載文檔到電腦&#xff0c;馬上遠離加班熬夜&#xff01;親&#xff0c;喜歡就下載吧&#xff0c;價低環保&#xff01;內容要點&#xff1a;?private bea.jolt.pool.servlet.ServletSessionPoolManager bool…

你的周末時光是什么樣的?

周末是一個特殊的假日&#xff0c;隔三差五就會有&#xff0c;來的容易去得也容易&#xff0c;即便如此&#xff0c;我們還是應該好好珍惜&#xff0c;周末可以做的事太多了&#xff0c;既可以用來減壓&#xff0c;也可以為下一周的學習和工作充電&#xff0c;不管做什么&#…

leetcode 290. 單詞規律(hash)

給定一種規律 pattern 和一個字符串 str &#xff0c;判斷 str 是否遵循相同的規律。 這里的 遵循 指完全匹配&#xff0c;例如&#xff0c; pattern 里的每個字母和字符串 str 中的每個非空單詞之間存在著雙向連接的對應規律。 示例1: 輸入: pattern “abba”, str “dog…

2019年微博用戶畫像_2019年您需要了解的有關用戶的信息

2019年微博用戶畫像by Yisroel Yakovson通過伊斯洛爾雅科夫森 2019年您需要了解的有關用戶的信息 (What You Need to Know About Your Users in 2019) Users have changed a lot in the last few years. We programmers may have a culture gap to overcome in this area. If …

使用lt;jsp:includegt;,不想寫死URL,動態生成URL的解決的方法

JSP中文件包括有2種方式&#xff0c;靜態包括和動態包括。靜態包括使用<% include file"" %>。動態包括使用<jsp:include page"" />。本文不打算介紹這2種方式的差別和使用場景&#xff0c;主要關注page和file屬性的路徑問題。 假設事先知道被…

java udp ip端口 設置_UDP端口掃描Java只找到1個開放的UDP端口

我對端口掃描有一個分歧.我在Java中掃描一些IP地址的UDP端口.在我的程序中(假設一切正常)我只能找到一個開放的UDP端口.在另一方面端口掃描“nmap”我得到4個開放的UDP端口.有人可以告訴我為什么我不能通過Java代碼找到多個端口&#xff1f;順便說一句,我可以在我的代碼中找到真…

pandas之Seris和DataFrame

pandas是一個強大的python工具包&#xff0c;提供了大量處理數據的函數和方法&#xff0c;用于處理數據和分析數據。 使用pandas之前需要先安裝pandas包&#xff0c;并通過import pandas as pd導入。 一、系列Series Seris為帶標簽的一維數組&#xff0c;標簽即為索引。 1.Seri…

機器學習:分類_機器學習基礎:K最近鄰居分類

機器學習:分類In the previous stories, I had given an explanation of the program for implementation of various Regression models. Also, I had described the implementation of the Logistic Regression model. In this article, we shall see the algorithm of the K…