程序員搞副業一些會用到的工具

微信號采集(爬蟲)技術的選型 那么,我們應該使用什么技術來從龐大的網頁內容中自動篩選和提取微信號呢?答案就是:數據采集技術,也就是爬蟲技術。

然而,數據采集技術種類繁多,我們具體應該采用哪一個呢? 針對我們的需求,我對常見的爬蟲技術進行了調研、實踐和對比,匯總如下:

從新人上手、采集范圍、靈活應變程度、免費程度、采集速度這五個方面劃分,重要系數是越重要的我會給分給的高一點。

我們需求是從網頁中采集微信號,站在需求角度,老板思維,對技術的選擇考慮是我們要選擇簡單的技術,能快速的完成我們需求,這是我們重中之重,所以新手上手的重要系數權重我給的權重很高。

我們需求也沒有特別高的采集要求(只是把微信號從正文內容和評價內容中過濾出來)

免費程度要求也不高,如果付費能直接解決我需求,那更加省時省心。

采集速度要求也不高,不管多慢,在技術層面,都比人工效率最起碼高個幾十倍,足以滿足需求。

當代技術思維,對技術的選擇標準是(迷思) 一定要選擇最流行的技術,只有最流行的技術才能顯出自己的前瞻性! 處理能力當然越強越好! 操作當然是越簡便越好!

付費是不可能的,我寧愿通宵達旦地尋找免費資源,也不愿意為高級功能支付一分錢! 執行效率,單一進程已經滿足不了我追求效率的心愿,多任務處理才是我的選擇! 所以一開始我就把Java和Oracle數據庫排除了,Java學習曲線太陡峭,門檻太高,對新手友好度幾乎為零。

雖然相對于Java而言,Oracle數據庫用戶友好得多,但比起MySQL、PostgreSQL這些更現代的數據庫來說,Oracle數據庫的操作復雜多了。

仿寫的內容不符合指令,需要重新仿寫。 而Web Scraper對于我們這些懂技術的人來說,配置和使用還算得上簡單,但對于技術小白來說,學習起來還是有一定難度的,因此并不是特別推薦。

火車頭對于老一輩的站長來說,幾乎是人盡皆知,幾乎每個資深站長都曾用火車頭來采集數據,更新自己的網站內容。

從火車頭軟件那復古的配置界面風格就能看出,這款產品已經有一定的歷史了。尤其是官網的視頻教程,竟然還是2018年的版本,真不知道這款產品多久沒更新了。

而相較于火車頭,八爪魚的軟件界面配置顯得更為簡潔。

八爪魚的智能采集功能使得數據采集變得異常簡單,只需點擊鼠標即可自動完成爬蟲配置。 其內置的眾多模板也許正好滿足你的需求,直接套用即可解決問題,甚至無需智能識別。

因此,八爪魚毫無疑問成為了技術選擇的首選!你會發現,最合適的技術往往也是最簡單的技術! 另外,雖然RPA也能進行爬蟲數據采集,在采集范圍、靈活應變、免費程度和采集速度方面表現不俗,但RPA的學習門檻相對較高。

RPA能夠模擬人工自動化處理更多場景的任務,因此如果僅用于數據采集,似乎有點大材小用。 此外,提到八爪魚,許多人也聽說過另一款數據采集產品:后裔采集器。

我專門測試調研過后裔采集器,個人認為其智能模式比八爪魚更加簡單易用(盡管它沒有模板庫,這是一個不小的缺點)。

然而,這款產品內置的IE瀏覽器在采集知識星球時會出現報錯(知識星球不支持低版本的IE瀏覽器,而八爪魚內置的是Chrome瀏覽器,完全沒有這個問題)。其他平臺沒有測試,暫時沒有其他問題。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/24214.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/24214.shtml
英文地址,請注明出處:http://en.pswp.cn/web/24214.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Linux】—— 線程控制的基本介紹

目錄 (一)POSIX線程庫 (二)創建線程 2.1 線程ID及進程地址空間布局 (三)線程終止 (四)分離線程 (一)POSIX線程庫 POSIX線程庫(POSIX Thread…

Node.js后端構建指南:MongoDB與Express的集成

安裝express 安裝 Express 并將其保存到依賴列表中: $ cnpm install express --save 以上命令會將 Express 框架安裝在當前目錄的 node_modules 目錄中, node_modules 目錄下會自動創建 express 目錄。以下幾個重要的模塊是需要與 express 框架一起安…

nss刷題(4)

1、[SWPUCTF 2021 新生賽]easyrce <?php error_reporting(0); highlight_file(__FILE__); if(isset($_GET[url])) { eval($_GET[url]); } ?> if(isset($_GET[url])) isset函數用來檢測url變量是否存在&#xff1b;$_GET函數獲取變量數據 eval($_GET[url]); eval函數用…

【GIS矢量切片】tippecanoe在Windows和CentOS中的安裝

組件安裝記錄 背景介紹Windows下安裝1、下載工具2、存放安裝包3、進入DOS終端4、在終端執行命令5、下載程序6、放置源碼7、修改配置信息8、編譯9、測試10、參數說明瓦片輸出瓦片描述和權屬信息輸入文件和圖層名輸入文件的并行處理輸入文件的投影縮放級別瓦片分辨率CentOS 7安裝…

嘗試用 GPT-4o 寫 2024高考語文作文

文章目錄 新課標I卷科技進步與問題的演變 新課標II卷抵達未知之境&#xff1a;探索與成長的旅程 全國甲卷坦誠交流&#xff1a;構建真正相遇的橋梁 北京卷歷久彌新 天津卷定義與自定義&#xff1a;在世界的繽紛中前行 上海卷認可度的思考與反思 新課標I卷 閱讀下面的材料&#…

Mongodb---java篇

一、導入依賴 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-mongodb</artifactId></dependency> 二、編寫配置文件連接Mongodb 我的認證數據庫是admin&#xff0c;你們可能不一樣 sp…

第三篇——大數據思維的科學基礎

目錄 一、背景介紹二、思路&方案三、過程1.思維導圖2.文章中經典的句子理解3.學習之后對于投資市場的理解4.通過這篇文章結合我知道的東西我能想到什么&#xff1f; 四、總結五、升華 一、背景介紹 大數據時代&#xff0c;大數據思維的重要性不言而喻&#xff1b;而信息在…

Elasticsearch搜索優化-自定義路由規劃(routing)

在es的實踐學習中&#xff0c;我覺得它的文檔是最好的老師&#xff0c;所以先把這部分鏈接貼出來&#xff0c;本文只是引導&#xff0c;文檔全是細節&#xff0c;還是推薦大家事后認真看看文檔 Metadata fields-routing 在es搜索中&#xff0c;請求是先分發到所有分片&#x…

6月26~28日,2024北京國際消防展即將開幕!

隨著社會的快速發展&#xff0c;消防安全日益受到廣大民眾的高度關注。為了進一步推動消防科技的創新與發展&#xff0c;提升全民消防安全意識&#xff0c;2024年北京消防展將于6月26日在北京國家會議中心盛大開展。目前:觀眾預登記已全面啟動&#xff0c;廣大市民和業界人士可…

馬爾科夫性質-舉例簡單說明,馬爾科夫模型和隱馬爾科夫模型在自然語言處理方面應用是什么

目錄 馬爾科夫模型應用 馬爾科夫性質,舉例簡單說明 馬爾科夫模型 馬爾科夫鏈 馬爾科夫決策過程(Markov Decision Process, MDP) 例子 隱馬爾科夫模型(Hidden Markov Model, HMM) 馬爾科夫模型和隱馬爾科夫模型在自然語言處理方面應用是什么 馬爾科夫模型在自然語言…

SQLite3(1):介紹安裝與測試

目錄 1、SQLite3介紹 2、SQLite3的優勢和特性 3、SQLite3安裝與測試 3.1 SQLite3安裝 3.2 SQLite3測試 4、SQLite3簡單使用 4.1 連接數據庫文件 4.2 創建信息表 4.3 插入三個學生信息 4.4 確認信息 5、總結 1、SQLite3介紹 SQLite3是一種輕量級的關系型數據庫管理系…

論文閱讀 A Distributional Framework for Data Valuation

本論文解決的問題 量化數據價值&#xff08;機器學習模型訓練中各個數據點的貢獻&#xff09; 避免數據價值受到其所處數據集的影響&#xff0c;使數據點的估值更加穩定、一致 變量假設 假設 D 表示一個在全集 Z 上的數據分布。對于監督學習問題&#xff0c;我們通常認為 Z…

jvm學習筆記(一) ----- JAVA 內存

JAVA 內存 一、程序計數器二、虛擬機棧三、本地方法棧四、堆五、非JAVA內存(堆外內存)1.元空間(Metaspace)2.直接內存 鏈接: jvm學習筆記(二) ----- 垃圾回收 鏈接: jvm學習筆記(三) ----- 垃圾回收器 一、程序計數器 虛擬機需要通過『程序計數器』記錄指令執行到哪了。線程要…

代碼隨想錄算法訓練營day43

題目&#xff1a;1049. 最后一塊石頭的重量 II 、494. 目標和、474.一和零 參考鏈接&#xff1a;代碼隨想錄 1049. 最后一塊石頭的重量 II 思路&#xff1a;本題石頭是相互粉碎&#xff0c;粉碎后剩下的重量就是兩塊石頭之差&#xff0c;我們可以想到&#xff0c;把石頭分成…

使用智譜 GLM-4-9B 和 SiliconCloud 云服務快速構建一個編碼類智能體應用

本篇文章我將介紹使用智譜 AI 最新開源的 GLM-4-9B 模型和 GenAI 云服務 SiliconCloud 快速構建一個 RAG 應用&#xff0c;首先我會詳細介紹下 GLM-4-9B 模型的能力情況和開源限制&#xff0c;以及 SiliconCloud 的使用介紹&#xff0c;最后構建一個編碼類智能體應用作為測試。…

數據結構和算法之數組和鏈表

一、數組 數組是一種線性數據結構&#xff0c;它是由一組連續的內存單元組成的&#xff0c;用于存儲相同類型的數據。在JavaScript中&#xff0c;數組可以包含任意類型的數據&#xff0c;不只限于基本數據類型。 1.存儲方式 在內存中&#xff0c;數組的元素是連續存儲的&…

【Vue】組件的存放目錄問題

注意&#xff1a; .vue文件 本質無區別 組件分類 .vue文件分為2類&#xff0c;都是 .vue文件&#xff08;本質無區別&#xff09; 頁面組件 &#xff08;配置路由規則時使用的組件&#xff09;復用組件&#xff08;多個組件中都使用到的組件&#xff09; 存放目錄 分類開來的…

Llama模型家族之拒絕抽樣(Rejection Sampling)(二)均勻分布簡介

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;一&#xff09; 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;二&#xff09; 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;三&#xff09; 基于 LlaMA…

ssti模板注入

一、Flask應用 1、介紹 定義 Flask&#xff1a;是一個使用Python編寫的輕量級web應用框架。Flask基于Werkzeug WSGI工具包和Jinja2模板引擎。 特點 良好的文檔、豐富的插件、包含開發服務器和調試器、集成支持單元測試、RESTful請求調度、支持安全cookies、基于Unicode。 …

手機短信刪除怎么恢復?快速找回的3個秘密武器

手機&#xff0c;這個我們每天離不開的小玩意兒&#xff0c;有時候也會讓我們頭疼不已。比如&#xff0c;你一不小心&#xff0c;或者為了清理點空間&#xff0c;就把那些重要的短信給刪了。這些短信可能是你和好友的深夜聊天&#xff0c;或者是重要的工作信息。一旦刪除&#…