今天,小編為大家帶來的教程是:如何在前嗅ForeSpider中,進行數據建表操作及各注意事項。主要內容包括:快速建表,自由建表,字段參數,數據表的創建,關聯與刪除,以及表單變更后的配置修改。
一,如何快速建表
若在數據抽取鏈接下,沒有相應表單可供選擇,可點擊“創建表單”按鈕,快速創建表單。可添加表單名稱、字段名稱,選擇字段類型、表單模板。
1.字段類型
①主鍵字段
②名稱
③標題
④數字(-20億~20億)
⑤長整型數字
⑥時間值
⑦地址
⑧小文本(小于64k)
⑨大型文本
(>>字段參數)
2.表單模板
在表單模板中選擇已經建好的表單,可以在表單中添加、刪除、修改字段。
快速創建表單:
二,如何自由建表
1.概念解釋
表單:規定了數據表都有哪些“列”,也就是都有哪些字段。數據存儲結構類似的采集任務,可以共用同一個表單。一個表單可以創建多個數據表。
字段:在數據庫中,表單的“列”稱為“字段”,每個字段存儲某一項的信息。
2.創建表單和字段
在表單列表點擊“添加”按鈕,創建一個新的表單。點擊表單配置右側的“添加”按鈕,即彈出添加字段的窗口。
添加字段:
字段具體參數的設置方法,詳見下節(>>字段參數)
3.字段修改
在數據建表的表單配置右側,可以對表單進行一系列操作。
添加字段:
修改字段
字段排名上移
字段排名下移
刪除字段
保存數據表
三,字段參數
1.字段名稱
字段名稱由英文字符、數字、下劃線、$構成,且不能以數字開頭。
①不支持中文。
②區分大小寫。
③不能是SQL語句關鍵字:如select、time等。
2.字段屬性
大部分情況無需選擇字段屬性。
一般數據表都需要一個主鍵字段,作為唯一ID記錄。主鍵字段需要勾選“主鍵字段”,勾選后自動會選上“索引字段”和“鍵值唯一”。
3.采集內容
指該字段需要從網頁上獲取的數據內容。
當字段需要存儲頁面的url地址、采集時間、網頁title等內容時,通過選擇對應的采集,就可以自動為該字段賦值。(>>自動取值字段)
當某字段存儲的是網頁上的內容數據時,比如文章的標題、聯系人名稱、電話號碼等,通過選擇“選區內全部文本”,再在內置瀏覽器上定位,就可以自動獲取網頁的數據。
示例:
(1)選區內全部文本:
<ul><li>百度</li></ul>,采集全部標簽下的內容。
(2)選區最外層節點文本:
<ul><li>百度</li></ul>,只選取<ul>節點,不采集<li>和內容。
(3)選區最外兩層節點文本:
<ul><li>百度</li></ul>,只采集<ul><li>的內容,不采集的內容。
(4)網頁內文字文本:采集整個頁面中所有可見的文字文本。
4.數據類型
數據類型如下表所示:
5.字符串長度
只有變量類型是字符串時需要填寫長度。字符串長度有兩種情況:
(1)短文本
文本長度不大時,可以填寫字符串長度,字符串可填寫的最大長度為255。字段長度盡量不要設置的偏小,防止有超出長度的數據無法存入數據庫。
(2)大文本
文本較大時,無需填寫字符串長度。
①長文本:適用于新聞、正文等小于64K的文本。
設置長文本
也可以通過選擇變長字段的方式,在數據庫中兩種方式效果相同。
設置變長字段
②超長文本:適用于論文等長文。
設置超長文本
6.字段描述
在“字段描述”文本框里,用戶可以為字段填寫描述性的注釋內容。
四,數據表的創建、關聯與刪除
表單只是定義了都有哪些字段,想要實現數據的存儲,需要對表單創建對應的數據表。(軟件默認連接了ForeLib數據庫,可更改。)
關聯數據表
- 創建數據表
選擇表單,在表單的左下方點擊“創建”,輸入數據表名稱(僅限英文),完成數據表的創建。
- 關聯數據表
勾選前面的多選框,即已關聯數據表。取消勾選,解除關聯。
采集數據時,數據存入勾選的數據表。
- 刪除數據表
可以刪除已創建的數據表。
- 反建表單
反建表單會根據數據庫中,已存在的數據表創建爬蟲表單。
五,表單變更后的配置修改
表單建好后,如果已經配置了模板中的字段,甚至已經建立了數據表,則修改表單,需要進行下列操作。
1.影響字段節點取值的情況
如果字段名稱、字段數量和采集內容更改,需要到對應任務的字段節點,修改字段和采集內容。修改方式有兩種:
(1)重置表單
重新選擇表單名稱后,這里的表單將被重置,所有的字段取值配置(包括字段處理腳本)也被清空,需要逐一重新配置字段取值。
(2)添加刪除字段
當表單做了修改字段名稱、添加刪除字段的操作后,可以不必重置表單,在模板列表對應的數據抽取節點,通過右鍵添加刪除字段,將兩邊的字段名稱和數量保持一致即可。
這里的添加刪除操作只針對該數據抽取,不會改動表單。
添加數據字段
①添加字段
在模板列表對應的數據抽取節點,點擊右鍵,選擇“添加數據字段”,可以新建字段。
②刪除字段
在某字段上點擊右鍵,可以刪除該字段。
③修改采集內容
通過字段節點向導中的下拉菜單,修改采集內容與表單中的一致即可。
2.已創建數據表
當數據表已經建好后,修改表單會影響采集,原數據表不能適應新的表單結構。在上述修改字段的基礎上,還需要刪除原數據表,再重新創建一個新的數據表。