1.計算機檢索原理
計算機一方面接受用戶的檢索提問,一方面從數據庫中讀取文獻記錄,然后把兩者進行比較,即檢索提問標識與文獻記錄標識進行匹配運算,如果比較的結果一致,那么這篇文獻就會作為命中文獻在檢索結果中顯示,否則就是未命中文獻。
2.文獻數據庫的結構
(1)文獻數據庫(Database):作為以某種方式將眾多的文獻信息存貯在計算機存貯設備上(如磁盤、光盤等)的數據結合,由于往往包含數以萬計的文獻記錄,為便于選擇檢索,常被劃分為若干個文檔。如dialog聯機檢索的MEDLINE數據庫被劃分為若干個回溯文檔(MED66、MED75、MED80、MED85、MED90)和現期文檔 MED93.
(2)文檔(File):是數據庫一部分記錄的集合,是由按一定方式排列的文獻記錄構成。
(3)記錄(Record):是構成文獻數據庫的基本信息單元,每條記錄描述一種(篇)文獻的外表和內容特征,如文獻篇名、作者、主題等。
(4)字段(Field):是構成記錄中的數據項,如文獻的篇名、作者、主題詞等,分別成為篇名字段、作者字段、主題詞字段等。字段可作為一個檢索入口,所以又稱之為可檢字段。
3.計算機檢索功能
3.1布爾邏輯檢索功能
(Booleans)
布爾邏輯組配檢索是現行計算機檢索的基本技術,它利用布爾邏輯組配符表示兩個檢索詞之間的邏輯關系,常用的組配符有:“ AND ”(和)、“ OR ”(或)、“ NOT ”(非)三種,其優先級依次為“ NOT ”、“ AND
”和“ OR
”;改變優先級的方法是使用括號“(
)”,括號內的邏輯式優先執行。為縮短檢索式和醒目起見, Dialog 檢索系統中“ AND ”、“ OR
”、“ NOT
”算符可分別用“ *
”、“+
”、“ – ”代替。
邏輯與: 邏輯與也稱邏輯乘,用關系詞“ and
”或“ * ”表示。
A and B (或 A*B
)表示兩個概念的交叉和限定關系,只有同時含有這兩個概念的記錄才算命中信息,見下圖,陰影部分即為命中信息。使用“邏輯與”組配技術,將會縮小檢索范圍,增強檢索的專指性,能夠提高檢索信息的查準率。
邏輯或: 邏輯或也稱邏輯和,用關系詞“ or
”或“ + ” 表示。
A or B (或 A+B
)表示兩個概念的并列關系,記錄中只要含有任何一個概念就算命中信息,即凡單獨含有概念 A 或單獨含有概念 B 或者同時含有 A 、 B
兩個概念的信息均為命中信息,可用下圖表示,陰影部分為命中信息。使用“邏輯或”組配技術,可擴大檢索范圍,能夠提高檢索信息的查全率。在檢索中,可對與檢索概念有關的同義詞、近義詞、相關詞等用邏輯或來連接,以避免漏檢。
邏輯非:
邏輯非也稱邏輯差,用關系詞“ not
”或“-” 表示。 A not B (或 A - B
)表示兩個概念的排除關系,指記錄中含有概念 A
而不含概念 B
的記錄為命中信息,可用下圖表示,陰影部分為命中信息。使用“邏輯非”組配技術,則剔除了不需要的概念,可提高檢索信息的查準率,但這種方式也會排除掉相關信息,影響檢索信息的查全率。
復合檢索: 使用布爾邏輯組配檢索詞構成的檢索式,邏輯算符 AND 、 OR
、 NOT
的運算次序在不同的檢索系統中有不同的規定,往往在檢索系統的“幫助”菜單中會有說明。布爾算符的優先執行順序一般是:邏輯非、邏輯與、邏輯或,但用括號可以規定或改變其執行順序,如下圖所示,三個概念的信息集合中,陰影部分是邏輯表達式(
A and B )not C
的命中信息。三個邏輯算符和括號的配合使用,可將檢索詞組配成較為復雜的邏輯提問式,以滿足復雜概念信息檢索的需要。
3.2詞位限定檢索功能
(Proximity)
該技術主要是通過檢索式中的專門符號來規定檢索詞在結果中的相對位置。布爾算符檢索時,只對檢索詞進行邏輯組配,未限定檢索詞之間的位置及檢索詞在記錄中的位置關系。在某些情況下,若不限制檢索詞之間的位置關系則會造成誤檢,影響查準率。例如檢索“生物防治”的文獻,若用檢索式“biological*control”檢索,則會將“抑制生物”(control
biological)的文獻也查出來,這顯然不是所需文獻。因此,在大部分檢索系統中設置了位置限定運算符號以確定檢索詞之間的位置關系,常用的相鄰位置算符有(W)、(nW)、(N)、(nN),句子位置算符(S),字段算符(F)、(L)等。但在不同的檢索系統所采用的位置運算符是不一樣的,功能也有差異,使用時應具體對待。 下表為 Dialog 聯機檢索系統供的詞位限定算符及相應功能
算符
用法
表示的檢索含義
W
A(nW)B
A 、B 兩詞相隔 n 個單詞且前后次序不變; n=0 時格式為 A()B 或 A(W)B
N
A(nN)B
A 、B 兩詞相隔 n 個單詞且前后次序不限; n=0 時,格式為 A(N)B
L
A(L)B
A 、B 兩詞在同一主題詞字段中,
A 為主題詞, B 為其副主題詞
S
A(S)B
A 、B
兩詞在同一子字段中,即同一語句或同一短語中,詞序不限
F
A(F)B
A 、B 兩詞在同一字段中,字段不限,詞序不限
3.3截詞檢索功能
(Wildcard)
在英語等西方語言中,常常有詞語單、復數表示形式不同,英美拼寫方式不同,詞根相同、含義相近而詞尾形式不同等情況,為使檢索時不遺漏相關詞,提高檢索效率,一般信息檢索系統都發展了截詞技術,利用截詞符來屏蔽未輸入的字符。截詞符根據檢索系統的不同而不同,常用截詞符有“?”、“ *
”、“ $
”、“!”等,截斷方式也有后截、中截、前截等。
截詞檢索的方式有多種,按截詞位置可分為前截詞、后截詞、前后截詞和中間截詞;按截斷字符數的不同,可分為有限截斷和無限截斷。 前截詞:
也稱左截詞或后方一致。截詞符位于詞干的前邊,允許檢索詞的前端有若干變化形式,如 ?computer 可檢索 computer 、 minicomputer 、 microcomputer 等結果。 后截詞:
也稱右截詞或前方一致。截詞符位于詞干的后邊,允許檢索詞尾部有若干變化。
如computer?可檢索
computer 、 computers 、 computerize 、 computerized 、 computerization 等結果。 前后截詞:
詞干的前后各有一個截詞符,允許檢索詞的前端和尾部各有若干變化形式。如 ?computer?可檢索 computer 、 computers 、 computerize 、 computerized 、 computerization 、 minicomputer 、 minicomputers 、 microcomputer 、 microcomputers 等結果。 中間截詞: 也稱“通用字符檢索法”,截詞符作為通用字符位于檢索詞的中間,而詞的前后方一致,凡前后方一致的詞,都能檢出,通常用在英美對某些詞的不同拼寫法。如:
defen*e 可同時檢出
defence 和 defense 的結果。
截詞檢索技術能提高檢索的查全率。不同數據庫使用的截詞符號也不同,如 DIALOG 系統用“?”,
BRS 系統用“ $”, ORBIT
系統用“ #
”等。網絡信息檢索工具中絕大多數都支持截詞功能,有的是自動截詞,有的是在一定條件下才能截詞。在允許截詞的檢索工具中,一般是指右截詞,部分支持中間截詞,左截詞比校罕見。
3.4短語檢索功能(Phrase)
也稱精確檢索功能,常用“”表示。當把一個短語作為一個整體進行檢索時,在短語的兩端加上雙引號。
如“gene express” 只能檢出
gene
express的結果,而不會檢出express
human gene、gene
constructs to express等結果。
3.5限定字段檢索功能
(Field)
文獻數據庫的每條記錄通常都由多個代表不同信息內容的字段組成,幾乎所有機檢系統中均設置了字段限定檢索的功能,以滿足用戶特定檢索某一字段信息的要求。限定字段檢索即指定檢索詞在記錄中出現的字段,檢索時,計算機只對限定字段進行匹配運算,以提高檢索效率和查準率。不同數據庫和不同種類文獻記錄中所包含的字段數目不盡相同,字段名稱也有區別。在一些網絡數據庫中,字段名稱通常放置在下拉菜單中,用戶可根據需要選擇不同的檢索字段進行檢索。數據庫中常見的字段和代碼見下表。
基本字段
輔助字段
字段名稱
英文全稱
縮寫
字段名稱
英文全稱
縮寫
題目
Title
TI
記錄號
Document Number
DN
文摘
Abstract
AB
作者
Author
AU
敘詞
Descriptor
DE
作者單位
Corporate Source
CS
標題詞
Identifier
ID
期刊名稱
Journal
JN
出版年份
Publishing Year
PY
出版國
Country
CO
文獻類型
Document Type
DT
文獻性質
Treatment Code
TR
語種
Language
LA