sphinx數據文件簡析

sphinx數據文件簡析

news/2025/8/30 5:03:52/文章來源:https://blog.csdn.net/weixin_30563319/article/details/96933056

?

Sphinx使用的文件包括 “sph”， “spa”， “spi”， “spd”, “spp”， “spm” ，還有鎖文件（.spl）。其中sph是系統的配置文件。其它則為索引文件。

l Spi 文件：保存WordId及指向此WordId對應的文檔信息在spd文件的指針。Spi文件在檢索程序啟動時完全加載入內存。Spi文件是分塊的，塊內排序，塊之間也排序。分塊的目的應該是為了快速檢索到WordId，因為Spi中的WordId是變長壓縮的，索引需要先在塊級別做二分定位，再在快內解壓縮查找。

文件結構，每塊中結構，wordId實際存儲的是差值

WordId

SpdFilePointer

DocNum

HitNum

2 Spd文件：

文件結構

DocID

[DocInfo]

HitFilePointer

FieldNum

HitNum

3 Spp文件

文件結構

HitPos

4 Spa文件：存儲DocInfo的文件，檢索程序啟動時會把此文件加載如內存，sphinx可以指定DocInfo的存儲方式，

① 存儲到spd文件中（InLine）

②. 另外單獨存儲。指定此，就會生成spa文件

文件結構：

DocId

DocInfo

5 Spm文件：在DocInfo中，有一種特殊的屬性，叫MVA，多值屬性。Sphinx對此屬性特殊處理，需要存儲在spm文件中。檢索程序啟動時會把此文件加載如內存。此（MVA）屬性在DocInfo對應位置存儲其在此文件中的字節偏移量。

文件結構：

DocId

Anum,A1,A2,…,An

Bnum,B1,B2,…,Bn

…

?

?

由于在第一趟掃描過程中會出現WordID相同的不同Hits(不同文檔或者不同位置不同字段)，二趟前會根據WordID排序，WordID相同的Hits會連續出現并合并(合并到第一次出現的相同WordID中)

轉載于:https://www.cnblogs.com/Jerry-blog/p/5044602.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/272617.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/272617.shtml
英文地址，請注明出處：http://en.pswp.cn/news/272617.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

收集一些常用的正則表達式

收集一些常用的正則表達式

1 . 校驗密碼強度密碼的強度必須是包含大小寫字母和數字的組合，不能使用特殊字符，長度在8-10之間。^(?.*\\d)(?.*[a-z])(?.*[A-Z]).{8,10}$2. 校驗中文字符串僅能是中文。^[\\u4e00-\\u9fa5]{0,}$3. 由數字、26個英文字母或下劃線組成的字符串^\\w$4.…

閱讀更多...

C#實現圖片的無損壓縮

C#實現圖片的無損壓縮

/// <summary>/// 圖像縮略圖處理/// </summary>/// <param name"bytes">圖像源數據</param>/// <param name"compression">壓縮質量 1-100</param>/// <param name"thumbWidth">縮略圖的寬</para…

閱讀更多...

部署和調優 1.3 pureftp部署和優化-1

部署和調優 1.3 pureftp部署和優化-1

FTP 是 File Transfe Protocol（文件傳輸協議）的英文簡稱，而中文簡稱為 “文傳協議” 用于 Internet 上的控制件的雙向傳輸。可以訪問 www.pureftpd.org 官網切換到下載目錄 cd /usr/local/src 下載 wget http://download.pureftpd.org/…

閱讀更多...

android通知圖標變白色,android 7.0通知圖標出現白色方塊

android通知圖標變白色,android 7.0通知圖標出現白色方塊

我使用下面的代碼片段在我的Android應用程序中生成通知.private void sendNotification(String contentText, String message) {Intent resultIntent new Intent(this, MainActivity.class);resultIntent.putExtra("clear","clear");resultIntent.setFlag…

閱讀更多...

sqlserver 查找某個字段在哪張表里

sqlserver 查找某個字段在哪張表里

如何查找某個字段屬于哪張表？select [name] from [庫名].[dbo].sysobjects where id in(select id from [庫名].[dbo].syscolumns Where name字段名)

閱讀更多...

性能

成員嵌套越深，訪問速度越慢。location.href 總是快于window.location.href，而后者也要比window.location.href.toString()更快。如果這些屬性不是對象的實例屬性，那么成員解析還要在每個點上搜索原形鏈，這將需要更長時間。 functi…

閱讀更多...

身份證號碼有效性檢測算法 ( js版轉 C#版 )

身份證號碼有效性檢測算法 ( js版轉 C#版 )

C#版#region 檢測是否是正確的身份證/// <summary>/// 身份證驗證/// </summary>/// <param name"num"></param>/// <returns></returns>public static bool isIdCardNo(string cardid){string num cardid.ToUpper();int[] fac…

閱讀更多...

android藍牙移植,平板藍牙測試與移植一

android藍牙移植,平板藍牙測試與移植一

一．平板藍牙測試硬件連接：進入系統的”設置”，開啟“藍牙”：可以看到掃描到其他的藍牙設備，“Bluez”是平板的名稱。點擊“Bluez”，設置如下：點擊要配對的藍牙設備(手機等)，進行藍牙…

閱讀更多...

ASP.NET系列：自定義配置節點的復用

ASP.NET系列：自定義配置節點的復用

appSettings太簡單，為每個程序自定義配置節點太復雜，因此要解決app.config&web.config自定義配置的復用問題。 1.讀取不依賴SectionName,根節點可以定義為任何名稱。 2.足夠簡單，配置項采用name value的形式；足夠復雜&#xf…

閱讀更多...

Web的26項基本概念和技術

Web的26項基本概念和技術

Web開發是比較費神的，需要掌握很多很多的東西，特別是從事前端開發的朋友，需要通十行才行。今天，本文向初學者介紹一些Web開發中的基本概念和用到的技術，從A到Z總共26項，每項對應一個概念或者技術。Internet…

閱讀更多...

android 引入 .so,android studio引入so庫方法(示例代碼)

android 引入 .so,android studio引入so庫方法(示例代碼)

在Android Studio中引入so庫，只需在app/jniLibs下放入so文件，然后在Module的build.gradle中加入：sourceSets {main {jniLibs.srcDirs [‘libs‘]}}完整的build.gradle如下：apply plugin: ‘com.android.library‘android {compil…

閱讀更多...

BZOJ3670: [Noi2014]動物園

BZOJ3670: [Noi2014]動物園

Description 近日，園長發現動物園中好吃懶做的動物越來越多了。例如企鵝，只會賣萌向游客要吃的。為了整治動物園的不良風氣，讓動物們憑自己的真才實學向游客要吃的，園長決定開設算法班，讓動物們學習算法。某天&#x…

閱讀更多...

NSPredicate的用法、數組去重、比較...

NSPredicate的用法、數組去重、比較...

一般來說這種情況還是蠻多的，比如你從文件中讀入了一個array1，然后想把程序中的一個array2中符合array1中內容的元素過濾出來。 1）例子一，一個循環 NSArray *arrayFilter [NSArray arrayWithObjects:"pict", "bla…

閱讀更多...

android one指紋解鎖,小米用屏幕內指紋掃描儀準備了兩部Android One手機

android one指紋解鎖,小米用屏幕內指紋掃描儀準備了兩部Android One手機

2017年9月發布時，小米米A1幾乎成功一夜成名。小西米去年夏天推出了Mi A2和Mi A2 Lite。現在，正如XDA開發者所揭示的那樣，中國品牌正在籌備第三代產品陣容。代號為“bamboo_sprout”和“cosmos_sprout” - 所有Android One智能手機都包含代號為…

閱讀更多...

hive日志位置（日志定位報錯:Failed with exception Unable to move sourcehdfs://namenode/tmp/hive-pmp_bi/h）...

hive日志位置（日志定位報錯:Failed with exception Unable to move sourcehdfs://namenode/tmp/hive-pmp_bi/h）...

Hive中的日志分為兩種 1. 系統日志，記錄了hive的運行情況，錯誤狀況。 2. Job 日志，記錄了Hive 中job的執行的歷史過程。日志查看方法 1，在本地運行機器上 hive日志存儲位置在本機上，不是hadoop上：在hive/co…

閱讀更多...

控制算法用c語言實現的,PID控制算法的C語言實現(完整版)

控制算法用c語言實現的,PID控制算法的C語言實現(完整版)

【實例簡介】該文件里面還有各種改進的PID的算法，比如變積分控制等【實例截圖】【核心代碼】具體 PID 實現代碼如下：pid.Kp0.4;pid.Ki0.2;//增加了積分系數pid.Kd0.2;float PID_realize(float speed){float index;pid.SetSpeedspeed;pid.errpid.SetSpeed…

閱讀更多...

《挑戰程序設計競賽》2.2 貪心法-其它 POJ3617 3069 3253 2393 1017 3040 1862 3262

《挑戰程序設計競賽》2.2 貪心法-其它 POJ3617 3069 3253 2393 1017 3040 1862 3262

POJ3617 Best Cow Line 題意給定長度為N的字符串S，要構造一個長度為N的字符串T。起初，T是一個空串，隨后反復進行下列任意操作： 從S的頭部（或尾部）刪除一個字符，加到T的尾部目標是構造字典序…

閱讀更多...

easyui dialog的一個小坑

easyui dialog的一個小坑

問題描述：1、html<div id"dig" style"padding:10px;width:500px;height:300px;font-family:微軟雅黑;font-size:16px;"> Dialog Content. </div> 2、js$("#dig").css("display", "block");$(#dig).d…

閱讀更多...

android rxbus 一個頁面監聽,Android RxBus的使用

android rxbus 一個頁面監聽,Android RxBus的使用

RxBus的核心功能是基于Rxjava的，在RxJava中有個Subject類，它繼承Observable類，同時實現了Observer接口，因此Subject可以同時擔當訂閱者和被訂閱者的角色，這里我們使用Subject的子類PublishSubject來創建一個Subject對象…

閱讀更多...

AngularJS $q

AngularJS $q

updatePushIdfunction($q,pushid) { var d$q.defer(); var data {pushid:pushid}; server.api("/updateRId",data).success(function(res){ if(res.resultcode1){ d.resolve(更新成功.);…

閱讀更多...

最新文章