2019獨角獸企業重金招聘Python工程師標準>>>
java開源論壇系統http://javabbs.javaz.cn
項目地址:http://www.freeteam.cn/
Web頁面信息采集
? ?從FreeCMS 2.1開始支持
通過簡單配置即可抓取目標網頁信息,支持增量式采集、關鍵字替換、定時采集,同一采集規則可采集多個頁面(靜態和動態),可采集多種信息屬性,可自動審核且靜態化信息頁面。
采集規則管理
從左側管理菜單點擊采集規則進入。
添加采集規則
在采集規則列表下方點擊"添加"按鈕。
填寫相關屬性后點擊"保存"按鈕即可。
采集規則屬性說明
采集規則屬性分為基本、設置、采集地址,采集屬性,關鍵詞替換。
一般情況下只要在基本選項卡填寫相關屬性即可完成。如果需要更多高級設置可以使用后面幾個選項卡。
下面針對主要屬性進行解釋說明。
名稱:采集規則的名稱。
采集到欄目:采集的信息要添加到那個欄目。
頁面編碼:目標網頁的頁面編碼,默認為UTF-8。
采集地址:目標網頁的地址。在基本選項卡中只能設置一個,想要設置多個可以在采集地址選項卡中設置。
采集調度:設置定時執行采集操作,這個設置非常重要,只有設置了采集調度系統才執行采集操作。
內容列表開始結束html:因為系統是通過對目標網頁內容進行關鍵詞截取來提取信息屬性的,所以設置目標屬性的開始結束html就很重要,一定要設置為相對比較唯一的開始結束html,這樣系統才能正確的截取到目標屬性。此屬性主要為了截取目標頁面信息列表的html.
內容地址開始結束html:根據上面的屬性獲取內容列表html后,使用此屬性截取各個內容地址。
內容標題開始結束html:根據上面的屬性獲取內容地址后,系統會抓取此內容地址的網頁內容,然后根據此屬性截取內容標題。內容相關屬性的設置跟此屬性類似,下面不再贅述。
狀態:啟用狀態下的采集規則,系統才會執行。
采集圖片:將信息內容中的圖片下載到本地。
自動審核通過:將采集的信息直接設置為已審核狀態。
使用采集信息點擊量:默認采集到的信息的點擊量為0,設置此屬性和內容點擊量開始結束html后系統會截取目標信息的點擊量,設置為采集后信息的點擊量。
最多采集內容數:默認不限制,如果設置了此屬性,系統會從采集記錄中統計此采集規則已采集了多少條信息,如果超過最多采集內容數,系統將不再采集。
將首幅圖片設為標題圖片:如果信息內容中有圖片,則提取第一張做為標題圖片,并設置信息為圖片信息。
清除內容中的html標簽:將信息內容中的html標簽清除,保留純文本。
當內容為空時是否采集:可設置在內容為空時不采集此信息。
使用采集信息的添加時間:默認采集到的信息的添加時間為當前時間,設置此屬性和內容添加時間開始結束html后系統會截取目標信息的添加時間,設置為采集后信息的添加時間。
采集信息添加時間格式:默認格式為yyyy-MM-dd,如果目標頁面的添加時間格式不同,需要在這里設置為正確的日期格式。
采集開始時間:默認為當前時間,如果不到采集開始時間,系統是不會采集的。
采集結束時間:默認為永不結束,如果超過采集結束時間,系統是不會采集的。
內容地址補全url:因為有些網頁使用的是相對路徑或絕對路徑,可以設置內容地址的前綴。
圖片地址補全url:因為有些網頁使用的是相對路徑或絕對路徑,可以設置圖片鏈接地址的前綴。
內容中A標簽鏈接地址補全url:因為有些網頁使用的是相對路徑或絕對路徑,可以設置內容中A標簽鏈接地址的前綴。
采集地址分為靜態和動態地址,靜態地址為固定的地址,動態地址一般指可以分頁的地址,通過{page}來代表分頁變量,可以設置從那一頁采集到那一頁,如http://www.freetam.cn/list_{page}.html,設置開始頁數為1,結束頁數為10,系統會自動提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有頁面的數據。
一般情況下我們只采集信息的標題和內容就可以了,系統還提供采集內容描述、點擊量、作者、來源、添加時間屬性的功能。
通過關鍵詞替換功能,您可以將采集到的信息里面的關鍵詞替換為自己想要的關鍵詞。
?
編輯采集規則
選擇需要編輯的采集規則,然后點擊"編輯"按鈕。
注意:同時只能編輯一個采集規則。
填寫相關屬性后點擊"保存"按鈕即可。
采集
選擇需要采集的采集規則,然后點擊"采集"按鈕。
注意:同時只能對一個采集規則進行采集操作。
刪除采集規則
選擇需要刪除的采集規則,然后點擊"刪除"按鈕。
提示:同時可以刪除多個采集規則。
為了防止誤操作,系統會提示用戶是否刪除,點擊"確定"完成刪除操作。
查看采集記錄
從左側管理菜單點擊采集記錄進入。
在這里可以查看到所有web頁面采集記錄,您可以刪除指定的采集記錄,但并不會刪除已采集的信息數據,選擇需要刪除的采集記錄,然后點擊"刪除"按鈕。
? ?提示:同時可以刪除多個采集記錄。
?
為了防止誤操作,系統會提示用戶是否刪除,點擊"確定"完成刪除操作。