數據挖掘 | 零代碼采集房源數據,支持自動翻頁、數據排重等

1 前言

城市規劃、商業選址等應用場景中經常會對地區房價、地域價值進行數據分析,其中地區樓盤房價是分析數據中重要的信息參考點,一些互聯網網站上匯聚了大量房源信息,通過收集此類數據,能夠對地區房價的分析提供參考依據。

如何收集此類數據呢,互聯網上提供了眾多工具或代碼,然后對于普通用戶均有較高的使用門檻,并且需要調試用戶體驗不太理想,工作量也較大。

下面以目標網址為例:

上海樓盤網,上海新房一手房,上海房產網信息網,新開樓盤在售上海樓盤信息 - 安居客

為解決此類用戶需求痛點,本著“所見所得”的設計理念,小O歷時半年時間,重新對小O網兜軟件進行重構,擯棄原有的使用思路,提升軟件功能的同時,更加提升軟件應用的靈活性,力求為用戶提供更加實用的網頁信息收集軟件,這個過程中,反復測試,適配多種類型網頁,面對及其復雜的網頁內容結構,反復修改功能,再多次自我使用、測試、顛覆的狀態中,終于發布新版本 0231,功能上超越之前版本,更加靈活可配置。

復雜功能和易用性有時難兩全,軟件在使用操作方面仍然有一定的門檻,好在軟件也提供了數據模板功能,通過下載配置好的模板,用戶可以跳過配置直接啟動采集(不斷擴充模板...),希望新版能夠滿足您數據采集上的需求,助力提升工作效率。

下文將以采集二手房源信息為例,帶領大家感受軟件功能。

本文操作流程概覽

2 操作步驟

下載軟件

登錄官網 www.gis9.com ,首頁往下滾動,下載【小O網兜】。

軟件無需安裝,下載后直接運行,可能會被防火墻或者軟件管家之類的軟件攔截,請將軟件添加到信任列表里。

軟件啟動后進入主界面如圖,請注冊登錄后使用軟件。

新建任務

點擊軟件左上方網格球圖標,打開任務向導窗口,可以新建和打開xop擴展名的任務文件。

當然,也可以直接從模板庫中下載模板。

注意:任務文件保存著采集目標網頁、采集的數據等信息,請妥善保存好。

本例子選擇新建采集任務,設置任務文件保存目錄,軟件打開空的任務界面。如下圖

打開目標網址,并新建采集規則,自動創建一組采集動作。

配置任務

依次配置每個動作的參數

【打開頁面】

-- 該動作是讓瀏覽器打開目標網址。

切換至動作參數,將當前網址復制到網址集合參數項里。如下圖,點擊批量生成后,會在列表頁中新增網址記錄。

【掃描頁面】

-- 自動掃描頁面所有元素,此動作無需配置。

如果目標頁面帶有向下滾動加載數據,可將超時參數設置大些,以便讓程序自動將頁面向下滾動,加載更多數據。

  • 滾動幅度:控制頁面向下滾動的速度,值越大則越快。
  • 運行超時:控制頁面滾動時長,可適當調大。

【讀取數據】

-- 該動作從頁面讀取數據并保存至表格中。

  • (一) 點擊【數據表】,彈出界面配置,新建存儲表,默認會有一個表存儲數據。如有需求,可以新建新表存儲數據。

  • (二) 在讀取數據Tab頁中,點擊數據塊 / 新建菜單,新建讀取數據塊,如下圖依次選擇保存字段。對照頁面設置需要采集的字段。

  • (三) 配置字段采集的數據,如下圖,依次點擊,使用[選擇元素],在頁面上右鍵選中目標元素,定位到[網頁樹]節點,在節點右鍵菜單,選[設置字段目標元素],設置目標元素至選中的字段。

  • (四) 選中[讀數據塊1],上圖中 1 位置,需設置讀取數據塊和數據行。

  • (五) 點擊字段,在頁面下方有取值預覽,調整參數獲得想要的數據結果。
  • -- 設置參數[目標元素],在網頁樹選中節點,右鍵菜單,設置目標元素。
  • -- 設置取值參數,對值進行處理,預覽值顯示在下方。

  • (六) 點擊表格,在頁面下方能預覽所有表格數據,頁面中數據正確預覽在表格中。

【翻頁動作】

-- 設置翻頁動作,執行后頁面會自動翻頁,提供多種方式翻頁

查找和設置目標元素設置同上

設置翻頁頁碼

  1. 點下一頁按鈕:設置下一頁翻頁,設置下一頁目標元素,每次模擬翻頁,可設置翻頁執行次數。
  2. 逐個頁碼:設置頁碼翻頁,設置翻頁元素和頁碼,在頁碼中找到元素后執行翻頁。

設置完成后, 可點擊動作鼠標右鍵,單步執行該動作,驗證頁碼是否翻頁。

至此所有動作均配置完成。

執行任務

可挨個動作點擊右鍵,執行單步,逐一執行動作。

也可以點擊執行(循環),循環執行多有動作。下圖,程序會進行運行直到結束。

異常情況,運行期間可能會出現異常情況,

1、 網頁反扒,需要人工點擊,此時可能會導致動作執行失效,人工點擊驗證后,再從任務點擊右鍵繼續循環執行。

2、 目標元素為找到,導致無法翻頁。

導出數據

執行完畢后,打開【數據表】窗口,對采集數據進行處理后,導出CSV文件,可應用再其他軟件中。

導出前,可對數據進行簡單處理

--- 刪除重復記錄:選擇 頁碼URL和標題作為唯一值進行排重

--- 導出數據:將表格數據導出CSV文件,可在EXCEL軟件中打開表格。

到此就是小O網兜復制網頁信息的全過程,感興趣的朋友可登陸官網下載軟件。

3 小結

小O網兜除了提供模板任務供用戶直接下載并采集數據,也提供自定義配置功能,由用戶自助式實現采集流程。本文以房源數據為例,介紹采集房源數據的操作流程,通過本文用戶能夠掌握房源數據采集任務的配置過程,滿足中介、科研機構、高校研究等用戶自定義采集需求。小O網兜提供開放式、可視化、配置化的采集功能,能夠采集絕大多數網頁的列表數據和自動翻頁操作,實現無人留守自動采集。

后續作者還將繼續對標其他優秀同類軟件,新增更多操作簡便、實用、易用的軟件功能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/42875.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/42875.shtml
英文地址,請注明出處:http://en.pswp.cn/news/42875.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

216、仿真-基于51單片機溫度煙霧人體感應布防報警Proteus仿真設計(程序+Proteus仿真+原理圖+配套資料等)

畢設幫助、開題指導、技術解答(有償)見文未 目錄 一、硬件設計 二、設計功能 三、Proteus仿真圖 四、原理圖 五、程序源碼 資料包括: 需要完整的資料可以點擊下面的名片加下我,找我要資源壓縮包的百度網盤下載地址及提取碼。 方案選擇 單片機的選…

SpringBoot 讀取配置文件

Spring Boot 中讀取配置文件有以下 5 種方法: 使用 Value 讀取配置文件。使用 ConfigurationProperties 讀取配置文件。使用 Environment 讀取配置文件。 Autowired private Environment environment; 實現EnvironmentAware接口 使用 PropertySource 讀取配置文件…

Python學習筆記_進階篇(一)_淺析tornado web框架

tornado簡介 1、tornado概述 Tornado就是我們在 FriendFeed 的 Web 服務器及其常用工具的開源版本。Tornado 和現在的主流 Web 服務器框架(包括大多數 Python 的框架)有著明顯的區別:它是非阻塞式服務器,而且速度相當快。得利于…

2023國賽數學建模思路 - 復盤:人力資源安排的最優化模型

文章目錄 0 賽題思路1 描述2 問題概括3 建模過程3.1 邊界說明3.2 符號約定3.3 分析3.4 模型建立3.5 模型求解 4 模型評價與推廣5 實現代碼 建模資料 0 賽題思路 (賽題出來以后第一時間在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 描述 …

衣服材質等整理(時常更新)

參考文章&圖片來源 https://zhuanlan.zhihu.com/p/390341736 00. 天然纖維 01. 化學纖維 02. 聚酯纖維(即,滌綸) 一種由有機二元酸和二元醇通過化學縮聚制成的合成纖維。具有出色的抗皺性和保形性,所制衣物在穿著過程中不容…

Lua + mysql 實戰代碼

--[[luarocks lua語言的包管理器luasql https://luarocks.org/brew install luarocksluarocks install luasql-mysql 注意此處,如果你是 mariadb,然后要求指定 MYSQL_DIR 參數的時候,千萬不要指到 mariadb 的安裝目錄,而是要指…

linux通過NC工具啟動臨時端口監聽

1.安裝nc工具 yum install nc -y2. 啟動監聽指定端口 #例如監聽8080端口 nc -lk 8080#后臺監聽 nc -lk 8080 &3. 驗證 #通過另外一臺網絡能通的機器,telnet 該機器ip 監聽端口能通,并且能接手數據 telnet 192.xxx.xxx.xx 8080

單機編排docker compose

Docker之旅(8)-單機編排docker compose 當在宿主機啟動較多的容器時候,如果都是手動操作會覺得比較麻煩而且容易出錯, 并且每個容器之間也會有先后啟動的順序依賴等。這個時候推薦使用 docker 單機 編排工具 docker-compose,docker-compose …

爬蟲逆向實戰(十四)--某培訓平臺登錄

一、數據接口分析 主頁地址:某培訓平臺 1、抓包 通過抓包可以發現登錄是表單提交到j_spring_security_check 2、判斷是否有加密參數 請求參數是否加密? 通過查看“載荷”模塊可以發現有一個j_password加密參數 請求頭是否加密? 無響應是…

2024浙大MBA/MEM/MPA四個月沖刺備考策略

近期收到很多考生的咨詢:距離聯考就僅剩四個多月的時間,這個管理類聯考的難度如何?主要考些什么內容?現在才開始備考還有希望上岸浙大嗎?是不是要等到明年在開始備考比較合適?那么今天在這里小立老師就跟大…

Docker Dockerfile 使用方法

目錄 Dockerfile 介紹 創建Dockerfile文件 構建 Docker 鏡像 查看已下載的鏡像 運行 mysql 命令 Dockerfile 介紹 當使用Docker構建容器化應用程序時,Dockerfile是一個用于定義容器鏡像的文本文件。它包含了一系列指令,告訴Docker如何從基礎鏡像&a…

? 將本地已有的項目上傳到 git 倉庫

目錄 ? 將本地已有的項目上傳到 git 倉庫🏭 一、克隆 拷貝🎨 二、強行合并兩個倉庫 ? 將本地已有的項目上傳到 git 倉庫 有兩種方法: ? 一、克隆 拷貝 ? 二、強行合并兩個倉庫 🏭 一、克隆 拷貝 ? 直接用把遠程倉庫拉到本…

CentOS系統環境搭建(十二)——CentOS7安裝Elasticsearch

centos系統環境搭建專欄🔗點擊跳轉 CentOS 7.9安裝Elasticsearch 7.17.6 文章目錄 CentOS 7.9安裝Elasticsearch 7.17.61.下載2.上傳3.解壓4.調整es占用內存5.修改es默認Java為本地Java6.修改elasticsearch配置文件7.創建用戶8.Elasticsearch 后臺啟動與關閉9.es管…

查看 Linux 內核版本的幾種方法

uname -a uname -srm uname -r 分拆:Linux 5.13.0-19-generic x86 64 5-內核版本 13-主修訂版本 0-19 -次要修訂版本 過查看 /proc/version 文件確認 /proc 目錄包含虛擬文件,其中包含有關系統內存,CPU內核,已安裝文件系統等的信…

020-從零搭建微服務-認證中心(九)

寫在最前 如果這個項目讓你有所收獲,記得 Star 關注哦,這對我是非常不錯的鼓勵與支持。 源碼地址(后端):https://gitee.com/csps/mingyue 源碼地址(前端):https://gitee.com/csps…

【C#】條碼管理操作手冊

前言:本文檔為條碼管理系統操作指南,介紹功能使用、參數配置、資源鏈接,以及異常的解決等。思維導圖如下: 一、思維導圖 二、功能操作–條碼打印(客戶端) 2.1 參數設置 功能介紹:二維碼圖片樣…

Windows定時任務計劃無法顯示任務程序界面的問題解決

筆者這兩天寫了一個python腳本程序,用來自動從公司的主數據系統獲取數據,并按格式編制成excel。腳本程序編寫一切順利,運行結果很是完美,筆者很是舒心。但在最后一步,用上班的電腦每天早上定時運行它時,出了…

JAVA設計模式總結之23種設計模式

一、什么是設計模式 設計模式(Design pattern)是一套被反復使用、多數人知曉的、經過分類編目的、代碼設計…

【Git】Git中的鉤子

Git Book——Git的自定義鉤子 Git中的鉤子分為兩大類: 1、客戶端鉤子:由諸如提交和合并這樣的操作所調用 2、服務端鉤子:由諸如接收被推送的提交這樣的聯網操作 客戶端鉤子: 提交工作流鉤子 pre-commit:在提交信息前…

ahooks.js:一款強大的React Hooks庫及其API使用教程(三)

一、ahooks.js簡介二、ahooks.js安裝三、繼續ahooks.js API的介紹與使用教程41. useAsyncEffect42. useDebounceEffect43. useDebounceFn44. useThrottleFn45. useThrottleEffect46. useDeepCompareEffect47. usePrevious48. useRafState49. useSafeState50. useGetState 一、a…