搜索引擎現狀及發展趨勢
【摘要】
隨著最近10年中國互聯網的快速發展菜互聯網已經徹底改變了人們的生活方式,而在互聯網的發展過程中。搜索引擎發揮了巨大的推動作用。本文對搜索引擎的發展歷史采用的技術,發展現狀出現的問題以及未來發展方向進行了綜述讓讀者對搜索引擎有個宏觀的了解。
【關鍵詞】 搜索引擎 發展趨勢 發展現狀
【Abstract】
With the rapid development of China’s Internet in the last 10 years, the Internet has completely changed people’s way of life, and in the development of the Internet. Search engines have played a huge role in promoting. This paper reviews the technology used in the development history of search engines, the problems arising from the development status quo and the future development direction so that readers have a macro understanding of search engines.
【Keyword】 Search Engine Trend of Development Development Status
一.搜索引擎概述
搜索引擎指自動從因特網搜集信息,經過一定整理以后,提供給用戶進行查詢的系統。因特網上的信息浩瀚萬千,而且毫無秩序,所有的信息像汪洋上的一個個小島,網頁鏈接是這些小島之間縱橫交錯的橋梁,而搜索引擎,則為用戶繪制一幅一目了然的信息地圖,供用戶隨時查閱。
搜索引擎的工作原理以最簡單的語言描述,即是:
- 搜集信息:首先通過一個稱為網絡蜘蛛的機器人程序來追蹤互聯網上每一個網頁的超鏈接,由于互聯網上每一個網頁都不是單獨存在的(必存在到其它網頁的鏈接),然后這個機器人程序便由原始網頁鏈接到其它網頁,一鏈十,十鏈百,至此,網絡蜘蛛便爬滿了絕大多數網頁。
- 整理信息:搜索引擎整理信息的過程稱為“創建索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規則進行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。
- 接受查詢:用戶向搜索引擎發出查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時每刻都要接到來自大量用戶的幾乎是同時發出的查詢,它按照每個用戶的要求檢查自己的索引,在極短時間內找到用戶需要的資料,并返回給用戶。
二 搜索引擎的背景及意義
1990年以前,沒有任何人能搜索互聯網。1990年誕生的Archie是一個可以用文件名自動索引互聯網匿名FTP網站文件的程序,它實現了搜索,但還不是真正的搜索引擎。現代意義上的搜索引擎出現于1994年7月,當時Michael?Mauldin將JohnLeavitt的蜘蛛程序接入到其索引程序中,創建了大家現在熟知的Lycosa。1995年末,Altavista永遠改變了搜索引擎的定義,AItavista是第一個支持自然語言搜索的搜索引擎,也是第一個實現高級搜索語法的搜索引擎。1998年,Google在Pagerank、動態摘要、網頁快照、DailyRefresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語言支持、用戶界面等功能上的革新,象Altavista一樣,再一次永遠改變了搜索引擎的定義。
現階段,出現Ask? Jeeves,Baidu.com,Goto.com,MySimon,Dito 等內容類別不同的搜索引擎。從出現第一個搜索引擎至今,搜索引擎技術已獲得了飛速的發展,現在的搜索引擎功能越來越強大,提供的服務也越來越全面,它們的目標不僅僅是提供單純的查詢功能,而是把自己發展成為用戶首選的Internet入口站點。
三 搜索引擎的技術簡介
3.1搜索引擎的分類
搜索引擎按其工作方式主要可分為三種,分別是全義搜索引擎( FullText Search Engine )目錄索引類搜索引擎( SearchIndex/Directory )和元搜索引擎( Meta Search)
3.1.1.全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google 、FastAITheWeb、AltaVista. Inktomi. Teoma、WiseNut等國內著名的有百度( Baidu )它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢( Indexer ),俗稱“蜘蛛"( Spider )程序或“機器人Robot)程序,并自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如上面提到的7家引擎;另一種則是租用租用其它引擎的數據庫,并按自定的格式排列搜索結果,如Lycos引擎。
3.1.2.目錄索引
目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。
用戶完全可以不用進行關鍵詞( Keywords )查詢,僅靠 分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo。其他著名的還有Open Directory Project ( DMOZ ) LookSmart、 About 等。國內的搜狐、新浪、網易搜索也都屬于這一類。
3.1.3.元搜索引擎
元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外↓還有以下幾種形式:
1、集合式搜索引擎s如HolBot在2002年底推出的引擎。該引擎類似META搜索引擎;但區別在于不是同時調用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇 ;因此叫它”集合式”搜索引擎更確切些。
2、 門戶搜索引擎:如AOL Search. MSNSearch等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他引擎。
3、免費鏈接列表( Free For All-Links簡稱FFA):這類網站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。
3.2搜索引擎的原理
3.2.1、抓取網頁
每個獨立的搜索引擎都有自己的網頁抓取程序( spider。Spider 順著網頁中的超鏈接,連續地抓取網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發,就能搜集到絕太多數的網頁。
3.2.2、處理網頁
搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最全面四重要的就是提取關鍵詞,建立索引文件。其他還包括去除重復網頁、分析超鏈接、計應用軟算網頁的重要度。
3.2.3、提供檢索服務
用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁為了用戶便于判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
3.3中文搜索引擎的關鍵技術—中文分詞
3.3.3什么是中文分詞?
分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復雜得多、困難得多。
3.3.2中文分詞的作用
漢語自動分詞到底對搜索引擎有多大影響2對于搜索引擎來說最重要的并不是找到所有結果,最重要的是把最相關的結果排在最前面,這也稱為相關度排序。中文分詞的準確與否常常直接影響到對搜索結果的相關度排序。分詞準確性對搜索引擎來說十分重要,但如果分詞速度太慢即使準確性再高,對于搜索引擎來說也是不可用的,因為搜索引擎需要處理數以億計的網頁如果分詞耗用的時間過長會嚴重影響搜索引擎內容更新的速度。因此對搜索引擎來說分詞的準確性和速度都需要達到很高的要求。
3.3.3 分詞算法
3.3.3.1基于字符串匹配的分詞方法
這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的詞數最小)。
還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現象也較少。統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。
一種方法是改進掃描方式,稱為特征掃描或標志切分,優先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的準確率。
3.3.3.2 基于理解的分詞方法
這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。
3.3.3.3 基于統計的分詞方法
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。
這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
到底哪種分詞算法的準確度更高,目前并無定論。對于任何一個成熟的分詞系統來說,不可能單獨依靠某一種算法來實現,都需要綜合不同的算法。個人了解,海量科技的分詞算法就采用“復方分詞法”,所謂復方,相當于用中藥中的復方概念,即用不同的藥才綜合起來去醫治疾病,同樣,對于中文詞的識別,需要多種算法來處理不同的問題。
四 當前搜索引擎的發展狀況
4.1搜索引擎的作用
搜索引擎是網站建設中針對用戶使用網站的便利性所提供的必要功能,同時也是研究網站用戶行為的一個有效工具。新競爭力認為,高效的站內檢索可以讓用戶快速準確地找到目標信息,從而更有效地促進產品/服務的銷售,而且通過對網站訪問者搜索行為的深度分析,對于進一步制定更為有效的網絡營銷策略具有重要價值。因此,對于內容豐富的大型信息類網站和產品線豐富的在線銷售型網站來說,提供一般性的全文檢索是遠遠不夠的,很有必要開發能夠實現個性化需求的高級搜索功能,這也是體現網站的網絡營銷功能的重要方面。
當今社會,沒有人不用搜索引擎,只要有手機有電腦,我們一遇到自己沒遇到過的問題或不了解的事務首先想到的就是搜索引擎。就連有時候我們想問朋友個問題,有些朋友可能會說自己上白隊去查嘛。
搜索引擎發展到今天,基礎架構和算法在技術上都已經基本成型和成熟。如今的一些改進和變化基于在多元化的信息整合,以及產品形態的改進上。 未來會往什么方向發展,或者有什么革命的變化,都不能確定。
4.2搜索引擎在發展過程中遇到的問題
搜索引擎在發展過程中,不可避免會出現大大小小的問題, 主要體現在以下4點:
4.2.1對于虛假廣告信息審查和監管不力
具體體現在數碼、IT、汽車、通訊類較為成熟的產品搜索資訊結果可信度較高。煙草以及屢被央視曝光的醫療服務類搜索資訊可信度位列最后。
4.2.2人工干預搜索結果
例如百度競價排名政策,遭到過很多企業的質疑。也出現過多起突然之間搜索不到某一網站的任何信息的事情。
4.2.3 屏蔽相關企業的負面新聞
例如2008年傳百度屏蔽三鹿集團的負面消息,但是百度很快做出回應否認。這件事仍然反應了這個問題的嚴重性。
4.2.4 侵犯相關產品的版權
版權問題直是搜索引擎遇到的大問題。搜索引擎搜索出來的內容有沒有獲得使用權呢?可惜的是大部分搜索結果都沒有獲得相關版權,例如百度MP3搜索,Google圖片搜索和百度圖片搜索,都曾經因為涉嫌侵權被多次起訴。
這4個問題是經過調查得出的網民認為搜索引擎目前最大的問題,壟斷問題也不容忽視由于掌握搜索引擎技術的公司并不多,因此很容易形成壟斷的局面。對于搜索引擎行業現狀,虛假廣告的審查和監管不力是網民反映最突出的問題,相應對完善審查
而需要的管理措施主要有以下6點:
1、完善審查程序,加大審查力度
2、完善相關法律法規
3、設立專門的政府監管部門
4、加大懲罰力度
5、加強媒體監督
6、依靠互聯網行業自律
五 搜索引擎的發展趨勢
5.1 智能搜索技術在應用于搜索引擎的智能化
智能搜索引擎可以通過自然語言與用戶交互,最大限度地了解用戶的需求,它能用戶提供了一個真正智能化的,個性化的信息過濾和推送服務。智能檢索一是表現在搜索引擎技術的智能化,研究重點放在自然語言處理技術和人工智能技術的研究上;另一表現是體現在搜索引擎面向檢索者的智能化,它 致力于通過分析檢索者的檢索和瀏覽行為來學習檢索者的需求, 利用搜索引擎現有的服務有選擇地為檢索者提供個性化的服務。通過這兩方面的結合來提高搜索引擎的檢索效果。在國外,已開始了將自然語言引入信息檢索的實踐探索,而國內則剛剛引入其理念,正處 于理論探討的初 期,中文搜索引擎需要在這方向進行嘗試。
5.2 對用戶的友好性將不斷提高
首先對用戶檢索界面進行改進。未來的檢索界面要盡可能實現檢索的可視化和圖形化。將現在不為用戶所看到的數據庫內在的語義表述轉化成可見的圖形和圖像;同時在檢索結果處理上也需改進,能提供一些先進的方式來顯示檢索的結果,如提供按站點的排序的顯示方式,按分類、主題、關鍵詞自動把結果列成不同的文件夾的方式等等,這些在國外的某些搜索引擎中已有嘗試。
5.3 多語種檢索和翻譯技術將有較大的突破
在多語種檢索和翻譯反面,Google已經推出了多語言版本,并且推出了它們之間的翻譯服務,即Google翻譯。其翻譯的準確性是目前免費翻譯工具中非常杰出的。未來的搜索引擎將在多語種檢索和翻譯技術有較大的突破。
5.4、搜索引擎的個性化
提高搜索精度的另一個途徑是提供個性化的搜索,也就是將搜索建立在個性化的搜索環境之下,其核心是跟蹤用戶的搜索行為,通過對用戶的不斷了解、分析,積累用戶的搜索個性化數據來提高用戶的搜索效率。中搜,雅虎,Google等都在加緊開發個性化搜索引擎技術。如Google在搜索時對個人偏好予以重視,用全新的搜索理念,讓搜索無處不在,用戶點擊次數多的搜索結果將在下次搜索靠前,用戶也可以直接將某條或者多條搜索結果靠前排名。這樣基于搜索和用戶數據庫的應用模式,使得搜索的多樣化,個性化成為可能,這也是搜索引擎今后發展的趨勢之一。
5.5、多媒體智能搜索引擎
隨著Internet的強勢發展,網上龐大的數字化星系和人們獲取所需信息能力之間的矛盾日益突出。人們對于娛樂方面的搜索要求日益提高。在網絡上看電影,聽歌已經成為一種習慣。現在已經有多種此類的搜索引擎,百度和Google都推出了視頻、音樂和圖片搜索服務。而未來的發展應該是提供一個視頻片段、音頻片段或者一張圖片的一部分,搜索引擎可以在王山找到相應的資源。這也是搜索引擎新的發展方向。
[總結]
綜上所述,搜索引擎正處在高速發展階段,是人們不可缺少的一部分,已經融入了人們的生活。但是目前仍存在多個沒有解決的問題,相信在以后的發展中,搜索引擎技術會越來越成熟,為人們的工作生活帶來更大的便利。
[參考文獻]
[1]龍佳.論搜索引擎的特點與發展態勢[J].電腦知識與技術,2019,15(01):200-201
[2]趙鵬.搜索引擎對信息傳播的影響及其法律規制[J].比較法研究,2018(04):188-200.
[3]李岳夢.搜索引擎淺談[J].電信網技術,2018(04):76-81.
[4]史昊天. 網絡搜索引擎搜索策略及算法研究[D].天津工業大學,2018.
[5]李霄. 我國搜索引擎產業創新中的科技倫理問題研究[D].武漢大學,2017.
[6]v_JULY_vCSDN https://blog.csdn.net/v_july_v/article/details/6827391
[7]田蒂. 基于用戶檢索意圖的元搜索引擎研究[D].吉林大學,2016.
[8]吳昊,秦麗.搜索引擎的發展歷程及發展趨勢[J].電子商務,2016(06):53+59.
[9]張才瓊.現有搜索引擎使用缺陷與未來發展趨勢分析[J].內蒙古科技與經濟,2016(14):65-67.
[10]劉明飛.下一代搜索引擎發展趨勢探析[J].數字化用戶,2016,19(07):7.
[11] Sherry Koshman Web searching on the Vivisimo search engine 2016,12,2
[12] Weiyi Meng Wiley Encyclopedia of Computer Science and Engineering 2017,9,2
[13] Different Types of Search Engines 2010,8,23
[14] Kai Gao Presenting implicit relevance feedback in educational search engine2016,11,23
[15] Methods for measuring search engine performance over time 2017,3,23