1 前言
城市規劃、商業選址等應用場景中經常會對地區房價、地域價值進行數據分析,其中地區樓盤房價是分析數據中重要的信息參考點,一些互聯網網站上匯聚了大量房源信息,通過收集此類數據,能夠對地區房價的分析提供參考依據。
如何收集此類數據呢,互聯網上提供了眾多工具或代碼,然后對于普通用戶均有較高的使用門檻,并且需要調試用戶體驗不太理想,工作量也較大。
下面以目標網址為例:
上海樓盤網,上海新房一手房,上海房產網信息網,新開樓盤在售上海樓盤信息 - 安居客
為解決此類用戶需求痛點,本著“所見所得”的設計理念,小O歷時半年時間,重新對小O網兜軟件進行重構,擯棄原有的使用思路,提升軟件功能的同時,更加提升軟件應用的靈活性,力求為用戶提供更加實用的網頁信息收集軟件,這個過程中,反復測試,適配多種類型網頁,面對及其復雜的網頁內容結構,反復修改功能,再多次自我使用、測試、顛覆的狀態中,終于發布新版本 0231,功能上超越之前版本,更加靈活可配置。
復雜功能和易用性有時難兩全,軟件在使用操作方面仍然有一定的門檻,好在軟件也提供了數據模板功能,通過下載配置好的模板,用戶可以跳過配置直接啟動采集(不斷擴充模板...),希望新版能夠滿足您數據采集上的需求,助力提升工作效率。
下文將以采集二手房源信息為例,帶領大家感受軟件功能。
本文操作流程概覽
2 操作步驟
下載軟件
登錄官網 www.gis9.com ,首頁往下滾動,下載【小O網兜】。
軟件無需安裝,下載后直接運行,可能會被防火墻或者軟件管家之類的軟件攔截,請將軟件添加到信任列表里。
軟件啟動后進入主界面如圖,請注冊登錄后使用軟件。
新建任務
點擊軟件左上方網格球圖標,打開任務向導窗口,可以新建和打開xop擴展名的任務文件。
當然,也可以直接從模板庫中下載模板。
注意:任務文件保存著采集目標網頁、采集的數據等信息,請妥善保存好。
本例子選擇新建采集任務,設置任務文件保存目錄,軟件打開空的任務界面。如下圖
打開目標網址,并新建采集規則,自動創建一組采集動作。
配置任務
依次配置每個動作的參數
【打開頁面】
-- 該動作是讓瀏覽器打開目標網址。
切換至動作參數,將當前網址復制到網址集合參數項里。如下圖,點擊批量生成后,會在列表頁中新增網址記錄。
【掃描頁面】
-- 自動掃描頁面所有元素,此動作無需配置。
如果目標頁面帶有向下滾動加載數據,可將超時參數設置大些,以便讓程序自動將頁面向下滾動,加載更多數據。
- 滾動幅度:控制頁面向下滾動的速度,值越大則越快。
- 運行超時:控制頁面滾動時長,可適當調大。
【讀取數據】
-- 該動作從頁面讀取數據并保存至表格中。
- (一) 點擊【數據表】,彈出界面配置,新建存儲表,默認會有一個表存儲數據。如有需求,可以新建新表存儲數據。
- (二) 在讀取數據Tab頁中,點擊數據塊 / 新建菜單,新建讀取數據塊,如下圖依次選擇保存字段。對照頁面設置需要采集的字段。
- (三) 配置字段采集的數據,如下圖,依次點擊,使用[選擇元素],在頁面上右鍵選中目標元素,定位到[網頁樹]節點,在節點右鍵菜單,選[設置字段目標元素],設置目標元素至選中的字段。
- (四) 選中[讀數據塊1],上圖中 1 位置,需設置讀取數據塊和數據行。
- (五) 點擊字段,在頁面下方有取值預覽,調整參數獲得想要的數據結果。
- -- 設置參數[目標元素],在網頁樹選中節點,右鍵菜單,設置目標元素。
- -- 設置取值參數,對值進行處理,預覽值顯示在下方。
- (六) 點擊表格,在頁面下方能預覽所有表格數據,頁面中數據正確預覽在表格中。
【翻頁動作】
-- 設置翻頁動作,執行后頁面會自動翻頁,提供多種方式翻頁
查找和設置目標元素設置同上
設置翻頁頁碼
- 點下一頁按鈕:設置下一頁翻頁,設置下一頁目標元素,每次模擬翻頁,可設置翻頁執行次數。
- 逐個頁碼:設置頁碼翻頁,設置翻頁元素和頁碼,在頁碼中找到元素后執行翻頁。
設置完成后, 可點擊動作鼠標右鍵,單步執行該動作,驗證頁碼是否翻頁。
至此所有動作均配置完成。
執行任務
可挨個動作點擊右鍵,執行單步,逐一執行動作。
也可以點擊執行(循環),循環執行多有動作。下圖,程序會進行運行直到結束。
異常情況,運行期間可能會出現異常情況,
1、 網頁反扒,需要人工點擊,此時可能會導致動作執行失效,人工點擊驗證后,再從任務點擊右鍵繼續循環執行。
2、 目標元素為找到,導致無法翻頁。
導出數據
執行完畢后,打開【數據表】窗口,對采集數據進行處理后,導出CSV文件,可應用再其他軟件中。
導出前,可對數據進行簡單處理
--- 刪除重復記錄:選擇 頁碼URL和標題作為唯一值進行排重
--- 導出數據:將表格數據導出CSV文件,可在EXCEL軟件中打開表格。
到此就是小O網兜復制網頁信息的全過程,感興趣的朋友可登陸官網下載軟件。
3 小結
小O網兜除了提供模板任務供用戶直接下載并采集數據,也提供自定義配置功能,由用戶自助式實現采集流程。本文以房源數據為例,介紹采集房源數據的操作流程,通過本文用戶能夠掌握房源數據采集任務的配置過程,滿足中介、科研機構、高校研究等用戶自定義采集需求。小O網兜提供開放式、可視化、配置化的采集功能,能夠采集絕大多數網頁的列表數據和自動翻頁操作,實現無人留守自動采集。
后續作者還將繼續對標其他優秀同類軟件,新增更多操作簡便、實用、易用的軟件功能。