前嗅ForeSpider教程:數據建表

今天,小編為大家帶來的教程是:如何在前嗅ForeSpider中,進行數據建表操作及各注意事項。主要內容包括:快速建表,自由建表,字段參數,數據表的創建,關聯與刪除,以及表單變更后的配置修改。

一,如何快速建表
若在數據抽取鏈接下,沒有相應表單可供選擇,可點擊“創建表單”按鈕,快速創建表單。可添加表單名稱、字段名稱,選擇字段類型、表單模板。

1.字段類型
①主鍵字段
②名稱
③標題
④數字(-20億~20億)
⑤長整型數字
⑥時間值
⑦地址
⑧小文本(小于64k)
⑨大型文本
(>>字段參數)

2.表單模板
在表單模板中選擇已經建好的表單,可以在表單中添加、刪除、修改字段。

快速創建表單:

clipboard.png

二,如何自由建表

1.概念解釋
表單:規定了數據表都有哪些“列”,也就是都有哪些字段。數據存儲結構類似的采集任務,可以共用同一個表單。一個表單可以創建多個數據表。
字段:在數據庫中,表單的“列”稱為“字段”,每個字段存儲某一項的信息。

2.創建表單和字段
在表單列表點擊“添加”按鈕,創建一個新的表單。點擊表單配置右側的“添加”按鈕,即彈出添加字段的窗口。

添加字段:

clipboard.png

字段具體參數的設置方法,詳見下節(>>字段參數)

3.字段修改
在數據建表的表單配置右側,可以對表單進行一系列操作。

添加字段:

clipboard.png

修改字段

clipboard.png

字段排名上移

clipboard.png

字段排名下移

clipboard.png

刪除字段

clipboard.png

保存數據表

clipboard.png

三,字段參數

1.字段名稱
字段名稱由英文字符、數字、下劃線、$構成,且不能以數字開頭。
①不支持中文。
②區分大小寫。
③不能是SQL語句關鍵字:如select、time等。

2.字段屬性
大部分情況無需選擇字段屬性。
一般數據表都需要一個主鍵字段,作為唯一ID記錄。主鍵字段需要勾選“主鍵字段”,勾選后自動會選上“索引字段”和“鍵值唯一”。

clipboard.png

3.采集內容
指該字段需要從網頁上獲取的數據內容。
當字段需要存儲頁面的url地址、采集時間、網頁title等內容時,通過選擇對應的采集,就可以自動為該字段賦值。(>>自動取值字段)
當某字段存儲的是網頁上的內容數據時,比如文章的標題、聯系人名稱、電話號碼等,通過選擇“選區內全部文本”,再在內置瀏覽器上定位,就可以自動獲取網頁的數據。

clipboard.png

示例:
(1)選區內全部文本:
<ul><li>百度</li></ul>,采集全部標簽下的內容。
(2)選區最外層節點文本:
<ul><li>百度</li></ul>,只選取<ul>節點,不采集<li>和內容。
(3)選區最外兩層節點文本:
<ul><li>百度</li></ul>,只采集<ul><li>的內容,不采集的內容。
(4)網頁內文字文本:采集整個頁面中所有可見的文字文本。

4.數據類型
數據類型如下表所示:

clipboard.png

5.字符串長度
只有變量類型是字符串時需要填寫長度。字符串長度有兩種情況:
(1)短文本
文本長度不大時,可以填寫字符串長度,字符串可填寫的最大長度為255。字段長度盡量不要設置的偏小,防止有超出長度的數據無法存入數據庫。
(2)大文本
文本較大時,無需填寫字符串長度。
①長文本:適用于新聞、正文等小于64K的文本。

設置長文本

clipboard.png

也可以通過選擇變長字段的方式,在數據庫中兩種方式效果相同。

設置變長字段

clipboard.png

②超長文本:適用于論文等長文。

設置超長文本

clipboard.png

6.字段描述
在“字段描述”文本框里,用戶可以為字段填寫描述性的注釋內容。

四,數據表的創建、關聯與刪除

表單只是定義了都有哪些字段,想要實現數據的存儲,需要對表單創建對應的數據表。(軟件默認連接了ForeLib數據庫,可更改。)

關聯數據表

clipboard.png

  1. 創建數據表

選擇表單,在表單的左下方點擊“創建”,輸入數據表名稱(僅限英文),完成數據表的創建。

  1. 關聯數據表

勾選前面的多選框,即已關聯數據表。取消勾選,解除關聯。
采集數據時,數據存入勾選的數據表。

  1. 刪除數據表

可以刪除已創建的數據表。

  1. 反建表單

反建表單會根據數據庫中,已存在的數據表創建爬蟲表單。

五,表單變更后的配置修改

表單建好后,如果已經配置了模板中的字段,甚至已經建立了數據表,則修改表單,需要進行下列操作。

1.影響字段節點取值的情況
如果字段名稱、字段數量和采集內容更改,需要到對應任務的字段節點,修改字段和采集內容。修改方式有兩種:
(1)重置表單
重新選擇表單名稱后,這里的表單將被重置,所有的字段取值配置(包括字段處理腳本)也被清空,需要逐一重新配置字段取值。
(2)添加刪除字段
當表單做了修改字段名稱、添加刪除字段的操作后,可以不必重置表單,在模板列表對應的數據抽取節點,通過右鍵添加刪除字段,將兩邊的字段名稱和數量保持一致即可。
這里的添加刪除操作只針對該數據抽取,不會改動表單。

添加數據字段

clipboard.png

①添加字段
在模板列表對應的數據抽取節點,點擊右鍵,選擇“添加數據字段”,可以新建字段。
②刪除字段
在某字段上點擊右鍵,可以刪除該字段。
③修改采集內容
通過字段節點向導中的下拉菜單,修改采集內容與表單中的一致即可。

2.已創建數據表
當數據表已經建好后,修改表單會影響采集,原數據表不能適應新的表單結構。在上述修改字段的基礎上,還需要刪除原數據表,再重新創建一個新的數據表。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/449334.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/449334.shtml
英文地址,請注明出處:http://en.pswp.cn/news/449334.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

世紀大爭論:Linux還是GNU/Linux?

本文由 極客范 - 愛開源的貢獻開源社區 翻譯自 Chris Hoffman。歡迎加入極客翻譯小組&#xff0c;同我們一道翻譯與分享。轉載請參見文章末尾處的要求。我們在網上已經習慣用“Linux”來稱呼Linux操作系統了&#xff0c;然而&#xff0c;偶爾也用“GNU/Linux”來稱呼和指代同…

PyTorch Softmax

PyTorch provides 2 kinds of Softmax class. The one is applying softmax along a certain dimension. The other is do softmax on a spatial matrix sized in B, C, H, W. But it seems like some problems existing in Softmax2d. : ( 轉載于:https://www.cnblogs.com/hiz…

國信證券學習系列(5)

網格策略&#xff0c;號稱勝率100%的策略&#xff0c;只要扛得住回撤&#xff0c;怎么說呢&#xff0c;它包含了最簡單的思想&#xff0c;大道至簡&#xff0c;真的是沒有什么復雜的&#xff0c;原理清晰&#xff0c;思路簡單。可以明確知道我掙的是那筆錢&#xff0c;為什么獲…

promise

## 前言 今天來分享下promise的用法&#xff0c;es6偉大發明之一&#xff0c;當初我學習的時候也是蠻頭大的&#xff0c;不知道為啥&#xff0c;整個腦子就是&#xff0c;我在哪&#xff0c;我要干啥的懵圈&#xff0c;后面認真學習之后&#xff0c;覺得真是十分好用&#xff0…

計算機集群 解說

前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 計算機集群簡稱集群是一種計算機系統&#xff0c;它通過一組松散集成的計算機軟件和/或硬件連接起來高度緊密地協作完成計算工作。 在某…

同時尋找最大數和最小數的最優算法 第二大數

我們知道&#xff0c;在一個容量為n的數據集合中尋找一個最大數&#xff0c;不管用什么樣的比較算法&#xff0c;至少要比較n-1次&#xff0c;就算是用競標賽排序也得比較n-1次&#xff0c;否則你找到的就不能保證是最大的數。那么&#xff0c;在一個容量為n的數據集合中同時尋…

淺談mpvue項目目錄和文件結構

2019獨角獸企業重金招聘Python工程師標準>>> 在Visual Studio Code里面打開項目文件夾&#xff0c;我們可以看到類似如下的文件結構&#xff1a; 1、package.json文件 package.json是項目的主配置文件&#xff0c;里面包含了mpvue項目的基本描述信息、項目所依賴的各…

[AHOI2009]最小割(最大流+tarjan)

繼續填坑了&#xff0c;啦啦啦 這道題本來是準備枚舉每個邊&#xff0c;暫時去除它&#xff0c;但發現時間會爆炸的 于是決定另辟蹊徑 于是這篇題解就應運而生 首先還是網絡流跑一邊 畢竟題目叫最小割嘛&#xff0c;給個面子 然后跑一邊tarjan對滿流的邊處理掉&#xff0c;即不…

進程間通信---信號

什么是信號&#xff1f; 】 信號處理流程 信號類型 發送信號的函數 參數sig&#xff1a;代表 信號 接收信號的函數 參數 handle 的處理方式有幾種&#xff1f; 實例代碼 實例邏輯 圖中的等待操作使用&#xff1a;pause&#xff08;&#xff09;函數 代碼 在這里插入代碼片…

大白話解說,半分鐘就懂 --- 分布式與集群是什么 ? 區別是什么?

前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 PS&#xff1a;這篇文章算是筆記&#xff0c;僅部分文字是原創&#xff0c;相當內容只是收集、整理、提煉、總結別人寫的。 沒有標為原創…

國信證券學習系列(6)

行業輪動策略&#xff1a; 本策略每隔1個月定時觸發計算1000能源&#xff08;399381.SZ&#xff09;、1000材料&#xff08;399382.SZ&#xff09;、1000工業&#xff08;399383.SZ&#xff09;、1000可選&#xff08;399384.SZ&#xff09;、1000消費&#xff08;399385.SZ&a…

用Linux命令行修圖——縮放、編輯、轉換格式——一切皆有可能

本文由 極客范 - 八卦愛好者 翻譯自 How-To Geek。歡迎加入極客翻譯小組&#xff0c;同我們一道翻譯與分享。轉載請參見文章末尾處的要求。ImageMagick是一系列的用于修改、加工圖像的命令行工具。ImageMagick能夠快速地使用命令行對圖片進行操作&#xff0c;對大量的圖片進行…

劍指offer:二維數組中的查找

目錄 題目解題思路具體代碼題目 題目鏈接劍指offer&#xff1a;二維數組中的查找題目描述 在一個二維數組中&#xff08;每個一維數組的長度相同&#xff09;&#xff0c;每一行都按照從左到右遞增的順序排序&#xff0c;每一列都按照從上到下遞增的順序排序。請完成一個函數&a…

函數對象 函數嵌套 名稱空間與作用域

函數對象&#xff1a; 函數是第一類對象&#xff0c;即函數可以當做數據傳遞 1 可以被引用 2 可以當做參數傳遞 3 返回值可以是函數 &#xff08;函數名 不帶&#xff08;&#xff09; 就是函數名的內存地址&#xff0c;帶括號就是執行函數&#xff09; 4 可以當做容器類型的…

國信證券學習系列(7)

跨品種套利策略&#xff1a; 本策略根據計算滾動的.過去的30個bar的均值正負0.5個標準差得到布林線 并在最新價差上穿上軌來做空價差,下穿下軌來做多價差 并在回歸至上下軌水平內的時候平倉 獲取數據&#xff1a; # 獲取兩個品種的收盤價時間序列closesContextInfo.get_ma…

dubbo-admin管理平臺搭建

一、前言 前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 dubbo的使用&#xff0c;其實只需要有注冊中心&#xff0c;消費者&#xff0c;提供者這三個就可以使用了&#xff0c;但是并不能…

不朽傳奇-云計算技術背后的那些天才程序員:Qemu的作者法布里斯貝拉

作者&#xff1a;Liu Guo Hui&#xff0c;OpenStack中國社區&#xff0c;轉載請注明出處 眾所周知&#xff0c;虛擬化技術是構建云基礎架構不可或缺的關鍵技術之一&#xff0c;而在眾多虛擬化技術實現當中&#xff0c;KVM&#xff08;Kernel Virtual Machine&#xff09;因為L…

C學習筆記-字符串

對于C語言來說&#xff0c;字符串其實就是最后一個元素為’\0’的char數組 字符數組的初始化 字符數組常見的有兩種初始化方式 char str[] "hello";或者 char str[] {h, e, l, l, o};當使用sizeof&#xff08;str&#xff09;時&#xff0c;得到的大小為6&#xff…

Shiro安全框架入門篇(登錄驗證實例詳解與源碼)

一、Shiro框架簡單介紹 前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 Apache Shiro是Java的一個安全框架&#xff0c;旨在簡化身份驗證和授權。Shiro在JavaSE和JavaEE項目中都可以使用…

國信證券學習系列(8)

我為什么要用國信&#xff0c;就是這個原因&#xff0c;可以做期權&#xff0c;期貨&#xff0c;股票&#xff0c;etf&#xff0c;可轉債的回測。滿足了我所有的需要&#xff0c;我要做指數增強。通常的做法是股票和期貨。但實際上&#xff0c;股票和期權做組合&#xff0c;成本…