網絡爬蟲--1.通用爬蟲和聚焦爬蟲

news/2025/8/22 12:33:13/文章來源:https://blog.csdn.net/fanxindong0620/article/details/105748775

文章目錄

一.前言
二.通用爬蟲
- 1.工作原理
- 2.通用爬蟲的局限性
三.聚焦爬蟲

一.前言

根據使用場景，網絡爬蟲可分為 通用爬蟲 和 聚焦爬蟲 兩種。

其中通用網絡爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目的是將互聯網上的網頁下載到本地，形成一個互聯網內容的鏡像備份。

二.通用爬蟲

1.工作原理

通用網絡爬蟲從互聯網中搜集網頁，采集信息，這些網頁信息用于為搜索引擎建立索引從而提供支持，它決定著整個引擎系統的內容是否豐富，信息是否即時，因此其性能的優劣直接影響著搜索引擎的效果。

（1）抓取網頁：通過搜索引擎將待爬取的url加入到通用爬蟲的url隊列中，進行網頁內容的爬取
在這里插入圖片描述

（2）數據存儲：將爬取下來的網頁保存到本地，這個過程會有一定的去重操作，如果某個網頁的內容大部分內容都會重復，搜索引擎可能不會保存。

（3）預處理：提取文字，中文分詞，消除噪音（比如版權聲明文字，導航條，廣告等）。

除了HTML文件外，搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型，如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我們在搜索結果中也經常會看到這些文件類型。

但搜索引擎還不能處理圖片、視頻、Flash 這類非文字內容，也不能執行腳本和程序。
（4）設置網站排名，為用戶提供服務。

同時會根據頁面的PageRank值（鏈接的訪問量排名）來進行網站排名，這樣Rank值高的網站在搜索結果中會排名較前，當然也可以直接使用 Money 購買搜索引擎網站排名，簡單粗暴。
在這里插入圖片描述

2.通用爬蟲的局限性

但是，這些通用性搜索引擎也存在著一定的局限性：

通用搜索引擎所返回的結果都是網頁，而大多情況下，網頁里90%的內容對用戶來說都是無用的。
不同領域、不同背景的用戶往往具有不同的檢索目的和需求，搜索引擎無法提供針對某個用戶的搜索結果。
萬維網數據形式的豐富和網絡技術的不斷發展，圖片、數據庫、音頻、視頻多媒體等不同數據大量出現，通用搜索引擎對這些文件無能為力，不能很好地發現和獲取。
通用搜索引擎大多提供基于關鍵字的檢索，難以支持根據語義信息提出的查詢，無法準確理解用戶的具體需求。

三.聚焦爬蟲

針對這些情況，聚焦爬蟲技術得以廣泛使用。

聚焦爬蟲，是"面向特定主題需求"的一種網絡爬蟲程序，它與通用搜索引擎爬蟲的區別在于：聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選，盡量保證只抓取與需求相關的網頁信息。

而我們今后要學習的網絡爬蟲，就是聚焦爬蟲。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/452098.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/452098.shtml
英文地址，請注明出處：http://en.pswp.cn/news/452098.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

敏捷教練的工具箱

敏捷教練的工具箱

學習并不是簡簡單單的閱讀和瀏覽，而是一個積累的過程，一個通過持續的學習，對自己的知識體系不斷豐富、索引的過程。接下來我會從四個方面入手分享我的經驗。高質量的信息源和高效的學習 Google是一個很好的工具，通過它&#x…

閱讀更多...

log4j教程

log4j教程

詳細的Log4j使用教程轉載 2016年08月19日 14:44:49 5072 日志是應用軟件中不可缺少的部分，Apache的開源項目log4j是一個功能強大的日志組件,提供方便的日志記錄。在apache網站：jakarta.apache.org/log4j 可以免費下載到Log4j最新版本的軟件包。…

閱讀更多...

BC范式介紹

BC范式介紹

設關系模式R<U，F>∈1NF，如果對于R的每個函數依賴X→Y，若Y不屬于X，則X必含有候選碼，那么R∈BCNF。即為：對于關系模式R，若 R為第一范式，且每個屬性都不部分依賴于候選鍵也不傳遞…

閱讀更多...

com.jhlabs:imaging:jar:01012005 所在倉庫+captcha驗證碼maven依賴

com.jhlabs:imaging:jar:01012005 所在倉庫+captcha驗證碼maven依賴

前些天發現了一個巨牛的人工智能學習網站，通俗易懂，風趣幽默，忍不住分享一下給大家。點擊跳轉到教程。 <repositories> <repository> <id>atlassian</id> <name>atlassian</name&g…

閱讀更多...

python 發送郵件的兩種方式【終極篇】

python 發送郵件的兩種方式【終極篇】

python 發送郵件的兩種方式【終極篇】一，利用python自帶的庫 smtplib簡單高效 from email.mime.multipart import MIMEMultipart from email.mime.text import MIMEText from email.header import Header import smtplib from django.conf import settingsmail_hos…

閱讀更多...

網絡爬蟲--2.HTTP和HTTPS

網絡爬蟲--2.HTTP和HTTPS

文章目錄一.簡介二.HTTP的請求與響應三.客戶端HTTP請求1.格式2.請求方法四.常用的請求報頭1.Host (主機和端口號)2.Connection (鏈接類型)3.Upgrade-Insecure-Requests (升級為HTTPS請求)4. User-Agent (瀏覽器名稱)5. Accept (傳輸文件類型)6.Referer (頁面跳轉處)7.Accept-En…

閱讀更多...

解決win7的outlook打不開的問題

解決win7的outlook打不開的問題

outlook打不開，一直顯示正在處理解決方法： 1. 按住Ctrl,雙擊打開組件，會提示是否進入安全模式， 進入安全模式 2. 單擊Outlook中的文件-選項-加載項- 左下角的“COM加載項“ 旁邊的“轉到”，將所有加載項前面的勾都去掉…

閱讀更多...

IBM王陽：軟件是凝聚創新力的最佳平臺

IBM王陽：軟件是凝聚創新力的最佳平臺

導讀：在IBM全球副總裁兼IBM中國開發中心總經理王陽博士看來，IBM百年不衰的根本原因在于將創新力凝結成軟件然后進行合適的傳播，其間最重要的是成功打造出了一個吸引人才、培養研發人才并激發出人才創新力的環境和氛圍。而保持創新領導力的關鍵…

閱讀更多...

數據庫的規范化

數據庫的規范化

在關系數據庫中，對關系模式的基本要求是滿足第一范式。規范化程度過低的關系不一定能夠很好地描述現實世界可能存在插入異常、刪除異常、修改復雜、數據冗余等問題解決方法就是對其進行規范化，轉換成高級范式一個低一級范式的關系模式，通…

閱讀更多...

Jquery 多行拖拽圖片排序 jq優化

Jquery 多行拖拽圖片排序 jq優化

<!DOCTYPE html> <html> <head> <meta charset"UTF-8"> <title>jQuery圖片拖動排序代碼</title><style type"text/css">.item_container{position:relative;height:auto;overflow:hidden;} .item_content ul{li…

閱讀更多...

應該把script標簽放在哪里

應該把script標簽放在哪里

前些天發現了一個巨牛的人工智能學習網站，通俗易懂，風趣幽默，忍不住分享一下給大家。點擊跳轉到教程。概述： 如果在頁面中寫JS的話，那必然會用到script標簽，理論上script標簽放在哪里都是可以的&#xff…

閱讀更多...

網絡爬蟲--3.str和bytes的區別

網絡爬蟲--3.str和bytes的區別

文章目錄一.bytes二.str和bytes相互轉換三.bytearray一.bytes bytes對象只負責以二進制字節序列的形式記錄所需記錄的對象，至于該對象到底表示什么（比如到底是什么字符）則由相應的編碼格式解碼所決定。 bytes是Python 3中特有的&#xff0c…

閱讀更多...

git使用問題

git使用問題

1、錯誤：The following untracked working tree files would be overwritten by checkout 。后面跟了幾個文件場景：需要從一個分支切換到另一個分支時報錯方法：git clean -d -fx "" 原因：之前修改了.gitignore文件&am…

閱讀更多...

jdbc寫入和讀取過程

jdbc寫入和讀取過程

[jdbc寫操作] Class.forName("com.mysql.jdbc.Driver"); Connection conn DriverManager.getConnection("jdbc:mysql://localhost:3306/big","root","root"); ppst conn.preparedStatement("insert into test(id,name,age) val…

閱讀更多...

分享11款主流的開源編程工具

分享11款主流的開源編程工具

導讀：有了開源編程工具，在基于開源許可證的情況下您可以輕松學習、修改、提高代碼的質量，本文收集了11款最主流的且有價值的開源編程工具。或許會給您帶來一絲驚喜。一起來看下吧。 NO.1 Rhomobile Rhodes Ruby或許是Github上第二大流行語言…

閱讀更多...

數據庫觸發器

數據庫觸發器

觸發器是一種特殊類型的存儲過程，它在指定的表中的數據發生變化時自動生效。喚醒調用觸發器以響應 INSERT、UPDATE 或 DELETE 語句。觸發器可以查詢其它表，并可以包含復雜的Transact-SQL語句。將觸發器和觸發它的語句作為可在觸發器內回滾的單個事務對待…

閱讀更多...

jQuery中ready與load事件的區別

jQuery中ready與load事件的區別

前些天發現了一個巨牛的人工智能學習網站，通俗易懂，風趣幽默，忍不住分享一下給大家。點擊跳轉到教程。 jQuery中ready與load事件的區別概述： 大家在工作中用jQuery的時候一定會在使用之前這樣：12345678//document rea…

閱讀更多...

網絡爬蟲--4.requests的簡單實用

網絡爬蟲--4.requests的簡單實用

文章目錄一.簡介二.基本GET請求1.最基本的GET請求--直接用get方法2.添加 headers 和查詢參數parmas3.通過requests獲取網絡上圖片的大小三.基本POST請求1.傳入data數據四.代理（proxies參數）五.私密代理六.web客戶端驗證七.Cookies 和 Sission1.Cookies2.…

閱讀更多...

編程各類資源大放送

編程各類資源大放送

小編的公眾號[編程軟文]一直在運營著，但是我的公眾號只是發一些技術類文章，沒有特地為自己的公眾號如何添粉去操作，目前公眾號關注度比較低。看著其他人的公眾號粉絲越來越多，小編也需要為自己做些事。為了提高自己公眾號的關注度…

閱讀更多...

使用Spring框架能帶來那些好處？

使用Spring框架能帶來那些好處？

1、Dependency Injection(DI)方法使得構造器和JavaBean properties文件中的依賴關系一目了然。2、與EJB容器相比較，Ioc容器更加趨向于輕量級。這樣一來Ioc容器在郵箱的內存和CPU資源的情況下進行應用程序的開發和發布就變得十分有利。3、Spring并沒有閉門造車&#…

閱讀更多...

最新文章