用nodejs連接mongodb數據庫對標題和內容的全文本搜索，mogogdb對文檔的全文本索引的設置以及用node-rs/jieba對標題和內容的分詞

//首先我們要在Nodejs中安裝我們的分詞庫@node-rs/jieba,這個分詞不像jieba安裝時會踩非常多的雷，而且一半的機率都是安裝失敗，node-rs/jieba比jieba庫要快20-30%；安裝分詞庫是為了更好達到搜索的效果
這個庫直接npm install @node-rs/jieba即可

代碼分為三個，將標題，內容分詞后插入mongodb數據庫，insertContent.js
第二個為搜索代碼，對標題和內容進行全文搜索search.js
第三個為頁面顯示代碼，對搜索出來的結果進行顯示

//insertContent.js

const {Jieba}=require("@node-rs/jieba");
const {dict}=require("@node-rs/jieba/dict");
const {MongoClient}=require('mongodb');//異步函數插入標題和內容
async function insertDocument(title,text)
{
//連接Mongodb數據庫const client=new MongoClient('mongodb://ychj:123456@localhost:27017/?authSource=employees');try{await client.connect();const db=client.db('employees');	//要連接的數據庫名const collection=db.collection("blog");	//要連接的集合名//使用jieba分詞const jieba=Jieba.withDict(dict);//對標題進行分詞const titleWords=jieba.cut(title);//對文本內容進行分詞const contentWords=text.split('\n').map(paragraph=>jieba.cut(paragraph).join(' '));//將分詞結果存儲到Mongodbconst result=await collection.insertOne({"id":1,"title":titleWords.join(' '),"content":contentWords.join('\n')});//后面文本跟了一個'\n'是為了給文章分段落console.log('文檔插入成功',result.insertedId);}finally{await client.close();}
}//為什么對標題進行分詞，一般搜索文章是搜索標題，分詞可以提高搜索率
//如果要對文本進行分詞和分段落，那么段落得用\n來標識，不分段落那么出來的文章內容全是一段了
const title="nodejs使用nodejieba";
const text="高性能： Nodejieba的底層實現采用了C++，通過Node.js的插件機制與JavaScript集成，因此具有較高的性能。這使得Nodejieba在處理大規模文本數據時表現出色.\n支持多種分詞模式： Nodejieba支持多種分詞模式，包括精確模式、搜索引擎模式和新詞識別模式。這使得它適用于不同的應用場景，可以根據需求選擇合適的分詞模式。\n用戶自定義詞典： 用戶可以通過自定義詞典來增加或修改分詞器的詞匯，以適應特定領域或特定項目的需求。這種靈活性使Nodejieba更適用于定制化的分詞任務.\n";//插入數據庫
insertDocument(title,text).catch(console.error);

//搜索代碼
//search.js

const {MongoClient}=require('mongodb');
const {Jieba}=require("@node-rs/jieba");
const {dict}=require("@node-rs/jieba/dict");
const fs=require('fs');//搜索函數
async function searchDocuments(words){const client=new MongoClient('mongodb://ychj:123456@localhost:27017/?authSource=employees');try{await client.connect();const db=client.db('employees');	//連接數據庫名const collection=db.collection('blog');	//連接集合名//搜索詞const cursor=collection.find({$text:{"$search":words}});//轉化為數組const docs=await cursor.toArray();//臨時隨機文件名const outputFile=getRandomFileName();//對大文件的數據流，為什么要用數據流，因為搜索出來的結果如果非常大，如上千條，我們不能存儲在內存中，而是存在一個臨時的隨機文件中//避免占用或撐爆我們的內存，所以直接寫入臨時文件當中，然后顯示 的時候再讀取const writableStream=fs.createWriteStream(outputFile);//將讀取到的搜索結果存儲為json文件格式，用一個數組將其包含當中writableStream.write('[');let isFirst=true;docs.forEach((doc)=>{if(!isFirst){writableStream.write(',\n');}const formattitle=doc.title.replace(/\s+/g,'');//先按段落分成數據，然后再將文章內的空格去除掉，在段落末尾加上\nconst formatcontent=doc.content.split('\n').map(paragraph=>paragraph.replace(/\s+/g,'')).join('\n');const id=doc.id;//將各屬性id,title,content組合成對象形式，然后再轉化為json格式寫入臨時的json文件中const result={id:id,title:formattitle,content:formatcontent};writableStream.write(JSON.stringify(result));isFirst=false;});writableStream.write(']');writableStream.end();console.log('所有文檔處理完結');}finally{await client.close();}
}//生成臨時的隨機json文件
function getRandomFileName(){return `output_${Math.random().toString(36).substring(2,9)}.json`;
}//對搜索的詞進行分解析和分詞，為什么要對搜索的詞的要進行分解？因為用戶搜索時都是連貫不會分詞
//所以我們要對用戶輸入的詞進行分詞才能更好搜索出結果來，如果不分詞可能搜索不出用戶想要的結果
const text='mongodb和jieba';
const jieba=Jieba.withDict(dict);
const CutWords=jieba.cut(text);
const sreachCutWords=CutWords.join(' ');//分詞后用空格進行間隔
//生成搜索結果
searchDocuments(sreachCutWords).catch(console.error);

//展示搜索結果頁面
//showSearch.js

const http=require('http');
const fs=require('fs');
const readline=require('readline');const server=http.createServer((req,res)=>{if(req.url==="/show"){//這時是用一個簡單的方法來獲取了臨時的隨機文件名，生產過程中應該和搜索頁面是一起的const outputFile="./output_03b5mml.json";const fileStream=fs.createReadStream(outputFile);	//讀取臨時文件const rl=readline.createInterface({input:fileStream,crlfDelay:Infinity	//不同操作系統使用不同的換行符，linux；\n,window:\r\n});res.writeHead(200,{"Content-type":'text/html; charset=utf-8'});res.write('<html><body><pre>');//按行讀取所有的json文件內容let jsonData='';rl.on('line',line=>{jsonData+=line;});rl.on('close',()=>{try{const records=JSON.parse(jsonData);//解析json文件，并將其轉化為對象數組//循環出數組中的每個json文件對象，并發送給http，//當然在實現中你可能是前后端分離的，這里應該是前端收到json文件并解析為對象數組，然后排序插入到前端文檔中records.forEach(record=>{res.write(`<div>`);res.write(`ID:${record.id}<br>`);res.write(`標題：${record.title}<br>`);res.write(`內容：${record.content}<br>`);res.write(`</div><hr>`);})}catch(err){console.error('解析JSON數據時出錯：',err);res.write('解析json數據時出錯。');}res.write('</pre></body></html');res.end();})}
});
server.listen(3000,()=>{console.log('Server is running on http://localhost:3000');
})

在window打開cmd運行showSearch.js,然后在瀏覽器中輸入http://localhost:3000/show 則會顯示出搜索結果

對于在Mongodb中設置全文本索引，比如上面代碼中的title,content
db.blog.createIndex({“title”:“text”,“content”:“text”});
即設置成功
注意：設置全文本索引的成本非常高，會比普通的索引更嚴重的性能問題，因為所有字符串都會被分解，分詞，并保存到一個地方，
擁有全文本索引的集合寫入性能都比其他的集合要差，在分片和遷移時速度都較慢，因為要重新的進行索引，而且吃內存

搜索出來的結果非常大時，可以采用以下優化策略來提高性能和效率：

使用流（Stream）處理數據
對于大文本數據，使用流可以有效減少內存占用，并提高處理速度。流可以讓你按塊處理數據，而不是一次性將整個數據加載到內存中。在 Node.js 中，可以使用 fs.createReadStream() 和 fs.createWriteStream() 來創建讀寫流。
減少 write() 的次數
頻繁調用 write() 方法會顯著降低寫入速度，并增加內存占用。可以通過緩存一定量的數據，然后一次性寫入，來減少 write() 的調用次數。例如，可以設置一個緩存大小，當達到該大小時再執行寫入操作。
使用管道（Pipe）傳輸數據
管道（pipe()）方法可以將一個流的輸出直接傳遞給另一個流，避免了手動處理事件監聽和數據傳輸。這不僅可以簡化代碼，還能提高效率。例如，可以將查詢結果直接通過管道傳輸到另一個流中進行處理或存儲。
逐行處理數據
如果數據是按行分隔的，可以使用 readline 模塊逐行讀取數據。這樣可以避免一次性加載整個文件內容到內存中，從而減少內存占用。逐行處理數據還可以讓你在處理每一行時進行必要的格式化或分析。
使用分塊處理
將大文件分成更小的塊進行處理，可以有效避免內存不足的問題。通過定義一個塊大小并使用循環讀取文件，每次只處理一個塊，然后將處理結果寫入到目標文件或進行其他操作。
選擇合適的數據處理方法
在處理大規模數據時，選擇合適的數據處理方法至關重要。例如，在統計換行符數量的實驗中，使用 indexOf 方法比手動逐字節檢查快了大約 10-20%。這表明在某些情況下，使用內置的優化方法可以顯著提高性能。