sphinx數據文件簡析

?

Sphinx使用的文件包括 “sph”, “spa”, “spi”, “spd”, “spp”, “spm” ,還有鎖文件(.spl)。其中sph是系統的配置文件。其它則為索引文件。

l Spi 文件:保存WordId及指向此WordId對應的文檔信息在spd文件的指針。Spi文件在檢索程序啟動時完全加載入內存。Spi文件是分塊的,塊內排序,塊之間也排序。分塊的目的應該是為了快速檢索到WordId,因為Spi中的WordId是變長壓縮的,索引需要先在塊級別做二分定位,再在快內解壓縮查找。

文件結構,每塊中結構,wordId實際存儲的是差值

WordId

SpdFilePointer

DocNum

HitNum

2 Spd文件:

文件結構

DocID

[DocInfo]

HitFilePointer

FieldNum

HitNum

3 Spp文件

文件結構

HitPos

4 Spa文件:存儲DocInfo的文件,檢索程序啟動時會把此文件加載如內存,sphinx可以指定DocInfo的存儲方式,

① 存儲到spd文件中(InLine)

②. 另外單獨存儲。指定此,就會生成spa文件

文件結構:

DocId

DocInfo

5 Spm文件:在DocInfo中,有一種特殊的屬性,叫MVA,多值屬性。Sphinx對此屬性特殊處理,需要存儲在spm文件中。檢索程序啟動時會把此文件加載如內存。此(MVA)屬性在DocInfo對應位置存儲其在此文件中的字節偏移量。

文件結構:

DocId

Anum,A1,A2,…,An

Bnum,B1,B2,…,Bn

?

?

由于在第一趟掃描過程中會出現WordID相同的不同Hits(不同文檔或者不同位置不同字段),二趟前會根據WordID排序,WordID相同的Hits會連續出現并合并(合并到第一次出現的相同WordID中)

轉載于:https://www.cnblogs.com/Jerry-blog/p/5044602.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/272617.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/272617.shtml
英文地址,請注明出處:http://en.pswp.cn/news/272617.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

收集一些常用的正則表達式

1 . 校驗密碼強度密碼的強度必須是包含大小寫字母和數字的組合,不能使用特殊字符,長度在8-10之間。^(?.*\\d)(?.*[a-z])(?.*[A-Z]).{8,10}$2. 校驗中文字符串僅能是中文。^[\\u4e00-\\u9fa5]{0,}$3. 由數字、26個英文字母或下劃線組成的字符串^\\w$4.…

C#實現圖片的無損壓縮

/// <summary>/// 圖像縮略圖處理/// </summary>/// <param name"bytes">圖像源數據</param>/// <param name"compression">壓縮質量 1-100</param>/// <param name"thumbWidth">縮略圖的寬</para…

部署和調優 1.3 pureftp部署和優化-1

FTP 是 File Transfe Protocol&#xff08;文件傳輸協議&#xff09;的英文簡稱&#xff0c;而中文簡稱為 “文傳協議” 用于 Internet 上的控制件的雙向傳輸。 可以訪問 www.pureftpd.org 官網 切換到下載目錄 cd /usr/local/src 下載 wget http://download.pureftpd.org/…

android通知圖標變白色,android 7.0通知圖標出現白色方塊

我使用下面的代碼片段在我的Android應用程序中生成通知.private void sendNotification(String contentText, String message) {Intent resultIntent new Intent(this, MainActivity.class);resultIntent.putExtra("clear","clear");resultIntent.setFlag…

sqlserver 查找某個字段在哪張表里

如何查找某個字段屬于哪張表&#xff1f;select [name] from [庫名].[dbo].sysobjects where id in(select id from [庫名].[dbo].syscolumns Where name字段名)

性能

成員嵌套越深&#xff0c;訪問速度越慢。location.href 總是快于window.location.href&#xff0c;而后者也要比window.location.href.toString()更快。如果這些屬性不是對象的實例屬性&#xff0c;那么成員解析還要在每個點上搜索原形鏈&#xff0c;這將需要更長時間。 functi…

身份證號碼有效性檢測算法 ( js版 轉 C#版 )

C#版#region 檢測是否是正確的身份證/// <summary>/// 身份證驗證/// </summary>/// <param name"num"></param>/// <returns></returns>public static bool isIdCardNo(string cardid){string num cardid.ToUpper();int[] fac…

android藍牙移植,平板藍牙測試與移植一

一&#xff0e;平板藍牙測試硬件連接&#xff1a;進入系統的”設置”&#xff0c;開啟“藍牙”&#xff1a;可以看到掃描到其他的藍牙設備&#xff0c;“Bluez”是平板的名稱。點擊“Bluez”&#xff0c;設置如下&#xff1a;點擊要配對的藍牙設備(手機等)&#xff0c;進行藍牙…

ASP.NET系列:自定義配置節點的復用

appSettings太簡單&#xff0c;為每個程序自定義配置節點太復雜&#xff0c;因此要解決app.config&web.config自定義配置的復用問題。 1.讀取不依賴SectionName,根節點可以定義為任何名稱。 2.足夠簡單&#xff0c;配置項采用name value的形式&#xff1b;足夠復雜&#xf…

Web的26項基本概念和技術

Web開發是比較費神的&#xff0c;需要掌握很多很多的東西&#xff0c;特別是從事前端開發的朋友&#xff0c;需要通十行才行。今天&#xff0c;本文向初學者介紹一些Web開發中的基本概念和用到的技術&#xff0c;從A到Z總共26項&#xff0c;每項對應一個概念或者技術。Internet…

android 引入 .so,android studio引入so庫方法(示例代碼)

在Android Studio中引入so庫&#xff0c;只需在app/jniLibs下放入so文件&#xff0c;然后在Module的build.gradle中加入&#xff1a;sourceSets {main {jniLibs.srcDirs [‘libs‘]}}完整的build.gradle如下&#xff1a;apply plugin: ‘com.android.library‘android {compil…

BZOJ3670: [Noi2014]動物園

Description 近日&#xff0c;園長發現動物園中好吃懶做的動物越來越多了。例如企鵝&#xff0c;只會賣萌向游客要吃的。為了整治動物園的不良風氣&#xff0c;讓動物們憑自己的真才實學向游客要吃的&#xff0c;園長決定開設算法班&#xff0c;讓動物們學習算法。 某天&#x…

NSPredicate的用法、數組去重、比較...

一般來說這種情況還是蠻多的&#xff0c;比如你從文件中讀入了一個array1&#xff0c;然后想把程序中的一個array2中符合array1中內容的元素過濾出來。 1&#xff09;例子一&#xff0c;一個循環 NSArray *arrayFilter [NSArray arrayWithObjects:"pict", "bla…

android one指紋解鎖,小米用屏幕內指紋掃描儀準備了兩部Android One手機

2017年9月發布時&#xff0c;小米米A1幾乎成功一夜成名。小西米去年夏天推出了Mi A2和Mi A2 Lite。現在&#xff0c;正如XDA開發者所揭示的那樣&#xff0c;中國品牌正在籌備第三代產品陣容。代號為“bamboo_sprout”和“cosmos_sprout” - 所有Android One智能手機都包含代號為…

hive日志位置(日志定位報錯:Failed with exception Unable to move sourcehdfs://namenode/tmp/hive-pmp_bi/h)...

Hive中的日志分為兩種 1. 系統日志&#xff0c;記錄了hive的運行情況&#xff0c;錯誤狀況。 2. Job 日志&#xff0c;記錄了Hive 中job的執行的歷史過程。日志查看方法 1&#xff0c;在本地運行機器上 hive日志存儲位置在本機上&#xff0c;不是hadoop上&#xff1a;在hive/co…

控制算法用c語言實現的,PID控制算法的C語言實現(完整版)

【實例簡介】該文件里面還有各種改進的PID的算法&#xff0c;比如變積分控制等【實例截圖】【核心代碼】具體 PID 實現代碼如下&#xff1a;pid.Kp0.4;pid.Ki0.2;//增加了積分系數pid.Kd0.2;float PID_realize(float speed){float index;pid.SetSpeedspeed;pid.errpid.SetSpeed…

《挑戰程序設計競賽》2.2 貪心法-其它 POJ3617 3069 3253 2393 1017 3040 1862 3262

POJ3617 Best Cow Line 題意 給定長度為N的字符串S&#xff0c;要構造一個長度為N的字符串T。起初&#xff0c;T是一個空串&#xff0c;隨后反復進行下列任意操作&#xff1a; 從S的頭部&#xff08;或尾部&#xff09;刪除一個字符&#xff0c;加到T的尾部 目標是構造字典序…

easyui dialog的一個小坑

問題描述&#xff1a;1、html<div id"dig" style"padding:10px;width:500px;height:300px;font-family:微軟雅黑;font-size:16px;"> Dialog Content. </div> 2、js$("#dig").css("display", "block");$(#dig).d…

android rxbus 一個頁面監聽,Android RxBus的使用

RxBus的核心功能是基于Rxjava的&#xff0c;在RxJava中有個Subject類&#xff0c;它繼承Observable類&#xff0c;同時實現了Observer接口&#xff0c;因此Subject可以同時擔當訂閱者和被訂閱者的角色&#xff0c;這里我們使用Subject的子類PublishSubject來創建一個Subject對象…

AngularJS $q

updatePushIdfunction($q,pushid) { var d$q.defer(); var data {pushid:pushid}; server.api("/updateRId",data).success(function(res){ if(res.resultcode1){ d.resolve(更新成功.);…