關于c# .net爬蟲

剛開始聽到爬蟲這兩個字眼的時候感覺挺稀奇的,之前并沒有接觸過爬蟲,正好這會手上沒事,于是便百度了一下。

1.網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

當然了,這個解釋很清晰,也很高尚,說到底,爬蟲就是用來獲取網頁信息的!

2.有點門路了,于是我就自己寫了一段代碼


創建http請求 獲取http參數
HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);
請求方式
req.Method = "GET";
接收的內容 這里接收網頁的信息
req.Accept = "text/html";
//用戶代理
req.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)";

?

string html = null;
接收請求結果流
HttpWebResponse res = (HttpWebResponse)req.GetResponse();
using (StreamReader reader = new StreamReader(res.GetResponseStream()))
{
讀完
html = reader.ReadToEnd();

}

?

3.沒錯就是http請求,獲取到頁面的html所有代碼信息,有了這些信息,我就可以進行下一步操作了,(我想爬一下網頁上的圖片,于是看了一下網頁代碼)

?

?4.大家發現什么了嗎,現在開始下一步操作,解析。。。。

private static string[] GetLinks(string html)
{
const string pattern = @"https*://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
Regex r = new Regex(pattern, RegexOptions.IgnoreCase);
MatchCollection m = r.Matches(html);
string[] links = new string[m.Count];

for (int i = 0; i < m.Count; i++)
{
links[i] = m[i].ToString();
}
return links;
}


5.恩,正則匹配我可以那到所有此站點的相關鏈接

6.當然了,鏈接僅僅是圖片的,css js 網頁什么的都是有的,好的 再過濾一下。


if((url.Contains(".jpg") || url.Contains(".gif")
|| url.Contains(".png")))
{

HttpWebRequest httpHelper = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse httpResponse = (HttpWebResponse)httpHelper.GetResponse();
try
{
this.Invoke((MethodInvoker)(() =>
{
using (Stream sr = httpResponse.GetResponseStream())
{
imageBox.Image = Image.FromStream(sr);
}
}));
}
catch (Exception)
{
}
Thread.Sleep(500);
return false;
}

?7.這里我把圖片的過濾了出來同時給解析了出來,到這里 你看懂了么。

?

我們會把當前頁面的所有相關圖片都給掃出來,這次我們就淺談到這里.....有興趣的可以加我的qq:759697338 ? 大家一起成長,一起學習

轉載于:https://www.cnblogs.com/dxqNet/p/6003008.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/285739.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/285739.shtml
英文地址,請注明出處:http://en.pswp.cn/news/285739.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Google 的 Java 編碼規范,參考學習!

目錄 01 術語說明和指南說明 02 源文件基礎 2.1 文件名 2.2 文件編碼&#xff1a;UTF-8 2.3 特殊字符 03 源文件結構 3.1 許可證或版權信息 3.2 package語句 3.3 import語句 3.4 類聲明 04 格式 4.1 大括號 4.3 一行一個語句 4.4 列限制&#xff1a;80 或 100 4…

MySQL Schema與數據類型的優化

選擇優化的數據類型&#xff1a; 1、 更小的通常更好&#xff1a; 一般情況下&#xff0c;應該盡量使用可以正確存儲數據的最小數據類型。更小的數據類型通常更快&#xff0c;因為他們占用更少的磁盤&#xff0c;內存和cpu緩存&#xff0c;并且處理時需要的cpu周期也更少。 2、…

【Pix4d精品教程】Pix4d中央子午線細化設置(測區跨兩個分帶)

《無人機航空攝影測量精品教程》合集目錄(Pix4d、CC、EPS、PhotoScan、Inpho) 航測內業中,在自由空三結束之后,需要導入像控點,進而去刺像控點。但是當測區跨兩個分帶的時候(如測區正好處在3度帶105和108中間),像控點可能距離靶標點很遠,給刺點帶來了很大難度。怎樣解…

Failed:(13: Permission denied)導致訪問瀏覽器出現Nginx 500 Internal Server Error

1 、問題 我在部署nginx反向代理服務器的時候&#xff0c;nginx.conf文件都配置好了&#xff0c;但是我在瀏覽器里面輸入域名的時候&#xff0c;提示Nginx 500 Internal Server Error 2、分析 我們需要找到nginx輸出錯誤日志的文件&#xff0c;在nginx.conf里面我們可以看到錯…

MAUI與Blazor共享一套UI,媲美Flutter,實現Windows、macOS、Android、iOS、Web通用UI

1. 前言距離上次發《MAUI初體驗&#xff1a;爽》一文已經過去2個月了&#xff0c;本計劃是下半年或者明年再研究MAUI的&#xff0c;現在計劃提前啦&#xff0c;因為我覺得MAUI Blazor挺有意思的&#xff1a;在Android、iOS、macOS、Windows之間共享UI&#xff0c;一處UI增加或者…

dns 報文格式

最近學習了下DNS的格式&#xff0c;發現很多內容都是轉載自同一個而且說的不是很清楚&#xff0c;特再整理下具體可以查看RFC1035 http://www.ietf.org/rfc/rfc1035.txt有詳細的解釋對于英語理解不是很好和懶得看這么長的可以看下本文首先是DNS數據幀的格式-------------------…

input file實現批量上傳

1、需求實現word批量上傳。 2、使用插件jquery-form.js 3、html代碼 注意 multiple"multiple" 1 <form id"frm_upload" method"post" enctype"multipart/form-data"> 2   <input type"file" id"filepath&qu…

【Pix4d精品教程】Pix4d修編正射影像DOM的兩種方法案例詳解

《無人機航空攝影測量精品教程》合集目錄(Pix4d、CC、EPS、PhotoScan、Inpho) DOM修編前: DOM修編后: 文章摘要: Pix4d內業數據處理通常會生成點云、DSM和DOM等產品,DSM經過精編可以生成精準的DEM,而DOM一般情況下,存在比如房屋邊緣被拉花,或者存在噪點的情況

刪除Linux下/tmp目錄引起的不正常登錄系統

現象&#xff1a;/tmp占用400M的空間(里面全部是亂七八糟的東西) 動作&#xff1a;刪除/tmp目錄 后果&#xff1a;造成只能啟動到控制臺模式 應急&#xff1a; 1 創建目錄&#xff1a;#mkdir /tmp 結果系統在控制臺模式登錄和X windows模式登錄狀態間反復切換&#xff0c;不能進…

C語言試題八十五之狼追兔子問題

??個人主頁:個人主頁 ??系列專欄:C語言試題200例目錄 ??推薦一款刷算法、筆試、面經、拿大公司offer神器 ?? 點擊跳轉進入網站 ?作者簡介:大家好,我是碼莎拉蒂,CSDN博客專家(全站排名Top 50),阿里云博客專家、51CTO博客專家、華為云享專家 1、題目 一只兔子躲…

[轉]快速使用FileProvider解決Android7.0文件權限問題

升級到Android7.0之后&#xff0c;啟動系統相機或者截圖&#xff0c;傳入URI的時候可能會導致程序閃退崩潰。這是因為7.0的新的文件權限導致的。下面是解決這個問題的快速解決方案。 問題代碼 在7.0可能會出問題的代碼&#xff1a; final String CACHE_IMG Environment.getExt…

終于找到了,開源的Vue3+.NET6通用管理后臺!

據說80%的.NET項目都是管理后臺&#xff0c;然而能用上Vue3.NET6的管理后臺并不多見。這里分享一套Vue3 Axios TS Vite ElementUI Plus .NET 6 WebAPI JWT SqlSugar的前后端分離架構的通用管理后臺源碼數據庫腳本&#xff0c;還有與之配套錄制的一組視頻教程&#xff0c;全部打…

【Pix4d精品教程】Pix4d模型成果導出OSGB并加載OSGB到EPS進行三維測圖完美案例教程

《無人機航空攝影測量精品教程》合集目錄(Pix4d、CC、EPS、PhotoScan、Inpho) 在垂直攝影中,Pix4d也可以生成漂亮的三維模型,并導出為OSGB,加載到EPS進行三維測圖。首先來看生成的三維格網紋理和EPS三維模型加載效果。 Pix4d生成的三維格網紋理: EPS加載OSGB模型效果: 文…

Vim 批量替換

假設在非Win系統下。 想批量替換文本不再是Ctrl&#xff0b;F那么簡單了&#xff0c; 一般用Vim來做批量替換&#xff0c; 略微復雜點&#xff1a; 比如將192.168.0.1替換為192.168.0.2 :%s/192.168.0.1/192.168.0.2/g

Android實現ListView(1)

昨天有個朋友問我Android ListView列表視圖&#xff0c;遇到了點錯誤&#xff0c;今天我給大家演示&#xff0c;具體實現見圖&#xff1a; 1&#xff1a;創建一個item布局layout/item.xml 2&#xff1a;創建一個ListViewActivity類&#xff0c;但是必須繼承ListActivity&#x…

WolframAlpha 的使用

WolframAlpha 1. 求解復雜方程組 ab?4abc2ac1直接點開網站&#xff0c;在輸入框中輸入&#xff0c;ab-4;abc2;ac1;&#xff08;逗號分割開來&#xff09;&#xff0c; 轉載于:https://www.cnblogs.com/mtcnn/p/9423087.html

C語言試題八十六之兔子生兔子問題

??個人主頁:個人主頁 ??系列專欄:C語言試題200例目錄 ??推薦一款刷算法、筆試、面經、拿大公司offer神器 ?? 點擊跳轉進入網站 ?作者簡介:大家好,我是碼莎拉蒂,CSDN博客專家(全站排名Top 50),阿里云博客專家、51CTO博客專家、華為云享專家 1、題目 假設一對兔…

聊聊 C# 中的 Composite 模式

?寫在前面 Composite組合模式屬于設計模式中比較熱門的一個&#xff0c;相信大家對它一定不像對訪問者模式那么陌生&#xff0c;畢竟誰又沒有遇到過樹形結構呢。不過所謂溫故而知新&#xff0c;我們還是從一個例子出發&#xff0c;起底一下這個模式吧。一個簡單例子 設想我們…

140種Python標準庫、第三方庫和外部工具都有了

導讀&#xff1a;Python數據工具箱涵蓋從數據源到數據可視化的完整流程中涉及到的常用庫、函數和外部工具。其中既有Python內置函數和標準庫&#xff0c;又有第三方庫和工具。 這些庫可用于文件讀寫、網絡抓取和解析、數據連接、數清洗轉換、數據計算和統計分析、圖像和視頻處理…

【CC精品教程】任務一:CC新建工程、添加照片、相機參數設置、選擇坐標系統

《無人機航空攝影測量精品教程》合集目錄(Pix4d、CC、EPS、PhotoScan、Inpho) 同Pix4d一樣,CC(Context Capture),也稱Smart 3D,也是無人機航測中人手必備的一款軟件,在空三運算,三維模型構建等傾斜攝影測量方面有很大的優勢,精度也相當高。本CC系列精品教程從項目的角…