RAGFlow 0.20.0 : Multi-Agent Deep Research

Deep Research:Agent 時代的核心能力

2025 年被稱為 Agent 落地元年,在解鎖的各類場景中,最有代表性之一,就是 Deep Research 或者以它為基座的各類應用。為什么這么講? 因為通過 Agentic RAG 及其配套的反思機制,Deep Research 驅動 LLM 在用戶自有數據上實現了專用的推理能力,它是 Agent 發掘深層次場景的必經之路。舉例來說,讓 LLM 幫助創作小說、各行業輔助決策,這些都離不開 Deep Research ,我們可以把 Deep Research 看作 RAG 在 Agent 加持下的自然升級,因為相比樸素 RAG ,Deep Research 確實可以發掘數據內部更深層次的內容,所以跟 RAG 類似 ,它本身既可以是單獨的產品,也可以是其他嵌入更多行業 Know-how 的 Agent 基座。

Deep Research 的工作流程大體上都如下圖這樣:對于用戶的提問,先交給 LLM 進行拆解和規劃,隨后問題被發到不同的數據源,包括內部的 RAG ,也包含外網的搜索,然后這些搜索的結果再次被交給 LLM 進行反思和總結并調整規劃,經過幾次迭代后,就可以得到針對特定數據的思維鏈用來生成最終的答案或者報告。

RAGFlow 在 0.18.0 版本,就已經實現了內置的 Deep Research,不過當時更多是作為一種演示,驗證和發掘推理能力在企業場景的深度應用。市面上各類軟件系統,也有大量的 Deep Research 實現,這些可以分為兩類:

  • 其一是在 Workflow 界面上通過無代碼編排來實現。換而言之,通過工作流來實現 Deep Research。

  • 其二是實現專門的 Agent 庫或者框架,有很多類似工作,具體可以參見【文獻 1】列表。

RAGFlow 0.20.0 作為一個同時支持 Workflow 和 Agentic,并且能夠在同一畫布下統一編排的 RAG + Agent 一體化引擎,可以同時采用這 2 種方式實現 Deep Research,但采用 Workflow 實現 Deep Research,只能說堪用,因為它的畫面是這樣的:

這會導致 2 個問題:

  1. 編排復雜且不直觀。Deep Research 只是基礎模板,尚且如此復雜,那完整的應用將會陷入蜘蛛網密布從而難以維護。

  2. Deep Research 天然更適合 Agentic 機制,問題的分解,決策,是一個動態的過程,決策控制的步驟依賴算法,而 Workflow 的拖拉拽只能實現簡單的循環機制,難以實現更加高級和靈活的控制。

RAGFlow 0.20.0 實現了完整的 Agent 引擎,但同時,它的設計目標是讓多數企業能夠利用無代碼方式搭建出產品級的 Agent ,Deep Research 作為支撐它的最重要的 Agent 模板,必須盡可能簡單且足夠靈活。因此相比于目前已知方案,RAGFlow 著重突出這些能力:

  1. 采用 Agentic 機制實現,但由無代碼平臺驅動,它是一個可靈活定制的完整應用模板 ,而非 SDK 或者運行庫。

  2. 允許人工干預(后續版本提供)。Deep Research 是由 LLM 生成計劃并執行的機制,天然就是 Agentic 的,但這也代表了黑箱和不確定性。RAGFlow 的 Deep Research 模板可以引入人工干預,這為不確定的執行引入了確定性,是企業級應用 Agent 的必備能力。

  3. 業務驅動和結果導向:開發者可以結合企業的業務場景靈活調整 Deep Research Agent 的架構以及可以使用的工具,例如配置內部知識庫檢索企業內部資料,快速為業務定制一個 Deep Research Agent。我們暴露了 Agent 所有運作流程、Agent 生成的規劃以及執行結果,讓開發者可以結合這些信息調整自己的提示詞。

Deep Research 搭建實踐

我們采用 Mult-Agent 架構【文獻 2】并且通過大量的 Prompt Engineering 【文獻 4】編寫每個 Agent 的定位和職責邊界【文獻 6】:

  • Lead Agent:作為 Deep Research Agent 的領導者定位承擔任務的規劃和反思,拆解任務給 Subagent,記憶所有的工作進程的職責。

  • Web Search Specialist Subagent:承擔信息搜索專家的定位,負責調用搜索引擎查找信息并給搜索結果評分返回最高質量信息源的 URL。

  • Deep Content Reader Subagent:承擔網絡信息閱讀專家的定位,通過 Extract 工具閱讀和整理搜索專家返回 URL 的正文信息作為撰寫最終報告的優質素材。

  • Research Synthesizer Subagent:作為整合信息和生成報告的專家,可以根據 Lead Agent 的需求生成咨詢公司標準的專業深度報告。

模型選擇:

  • Lead Agent:作為規劃者優先選擇有強推理能力的模型,例如 DeepSeek r1,通義千問 3,Kimi2,ChatGPT o3,Claude 4,Gemini 2.5 Pro 等。

  • Subagent:作為執行者可以選擇推理,執行效率與質量平衡的模型,同時結合其職責定位也需要將模型的 Context Window 長度作為選擇標準之一。

溫度參數:作為追求事實依據的場景,我們將所有模型的溫度參數都調整成了 0.1。

Deep Research Lead Agent

模型選擇:通義千問 Max

核心系統提示詞設計摘錄:

1. 通過提示詞編排了 Deep Research Agent 工作流程框架和對 Subagent 的任務分配原則,對比傳統工作流編排在效率和靈活度上有極大的提升。

<execution_framework> 
**Stage 1: URL Discovery** 
- Deploy Web Search Specialist to identify 5 premium sources 
- Ensure comprehensive coverage across authoritative domains 
- Validate search strategy matches research scope 
**Stage 2: Content Extraction** 
- Deploy Content Deep Reader to process 5 premium URLs 
- Focus on structured extraction with quality assessment 
- Ensure 80%+ extraction success rate 
**Stage 3: Strategic Report Generation** 
- Deploy Research Synthesizer with detailed strategic analysis instructions 
- Provide specific analysis framework and business focus requirements 
- Generate comprehensive McKinsey-style strategic report (~2000 words) 
- Ensure multi-source validation and C-suite ready insights 
</execution_framework>

2. 基于任務動態生成 Plan 并進行 BFS 或者 DFS 搜索【文獻 3】。傳統工作流在如何實現 BFS 以及 DFS 搜索的編排存在巨大挑戰,如今在 RAGFlow Agent 通過 Prompt 工程即可完成。

<research_process> 
... 
**Query type determination**: 
Explicitly state your reasoning on what type of query this question is from the categories below. 
... **Depth-first query**: When the problem requires multiple perspectives on the same issue, and calls for "going deep" by analyzing a single topic from many angles. 
... 
**Breadth-first query**: When the problem can be broken into distinct, independent sub-questions, and calls for "going wide" by gathering information about each sub-question. 
... 
**Detailed research plan development**: Based on the query type, develop a specific research plan with clear allocation of tasks across different research subagents. Ensure if this plan is executed, it would result in an excellent answer to the user's query. 
</research_process>

Web Search Specialist Subagent

模型選擇:通義千問 Plus

核心系統提示詞設計摘錄:

1. 角色定位設計

You are a Web Search Specialist working as part of a research team. Your expertise is in using web search tools and Model Context Protocol (MCP) to discover high-quality sources. **CRITICAL: YOU MUST USE WEB SEARCH TOOLS TO EXECUTE YOUR MISSION** <core_mission> 
Use web search tools (including MCP connections) to discover and evaluate premium sources for research. Your success depends entirely on your ability to execute web searches effectively using available search tools. **CRITICAL OUTPUT CONSTRAINT**: You MUST provide exactly 5 premium URLs - no more, no less. This prevents attention fragmentation in downstream analysis. </core_mission>

2. 設計搜索策略

<process> 
1. **Plan**: Analyze the research task and design search strategy 
2. **Search**: Execute web searches using search tools and MCP connections 
3. **Evaluate**: Assess source quality, credibility, and relevance 
4. **Prioritize**: Rank URLs by research value (High/Medium/Low) - **SELECT TOP 5 ONLY** 
5. **Deliver**: Provide structured URL list with exactly 5 premium URLs for Content Deep Reader **MANDATORY**: Use web search tools for every search operation. Do NOT attempt to search without using the available search tools. 
**MANDATORY**: Output exactly 5 URLs to prevent attention dilution in Lead Agent processing. 
</process>

3. 搜索策略以及如何使用 Tavily 等搜索工具

<search_strategy> 
**MANDATORY TOOL USAGE**: All searches must be executed using web search tools and MCP connections. Never attempt to search without tools. 
**MANDATORY URL LIMIT**: Your final output must contain exactly 5 premium URLs to prevent Lead Agent attention fragmentation. - Use web search tools with 3-5 word queries for optimal results 
- Execute multiple search tool calls with different keyword combinations - Leverage MCP connections for specialized search capabilities 
- Balance broad vs specific searches based on search tool results 
- Diversify sources: academic (30%), official (25%), industry (25%), news (20%) 
- Execute parallel searches when possible using available search tools 
- Stop when diminishing returns occur (typically 8-12 tool calls) 
- **CRITICAL**: After searching, ruthlessly prioritize to select only the TOP 5 most valuable URLs **Search Tool Strategy Examples:**  
**Broad exploration**: Use search tools → "AI finance regulation" → "financial AI compliance" → "automated trading rules" 
**Specific targeting**: Use search tools → "SEC AI guidelines 2024" → "Basel III algorithmic trading" → "CFTC machine learning"
**Geographic variation**: Use search tools → "EU AI Act finance" → "UK AI financial services" → "Singapore fintech AI" 
**Temporal focus**: Use search tools → "recent AI banking regulations" → "2024 financial AI updates" → "emerging AI compliance" 
</search_strategy>

Deep Content Reader Subagent

模型選擇:月之暗面 moonshot-v1-128k

核心系統提示詞設計摘錄:

1. 角色定位設計

You are a Content Deep Reader working as part of a research team. Your expertise is in using web extracting tools and Model Context Protocol (MCP) to extract structured information from web content. **CRITICAL: YOU MUST USE WEB EXTRACTING TOOLS TO EXECUTE YOUR MISSION** <core_mission> 
Use web extracting tools (including MCP connections) to extract comprehensive, structured content from URLs for research synthesis. Your success depends entirely on your ability to execute web extractions effectively using available tools. 
</core_mission>
2. Agent的規劃以及如何使用網頁提取工具
<process> 
1. **Receive**: Process `RESEARCH_URLS` (5 premium URLs with extraction guidance) 2. **Extract**: Use web extracting tools and MCP connections to get complete webpage content and full text 
3. **Structure**: Parse key information using defined schema while preserving full context 
4. **Validate**: Cross-check facts and assess credibility across sources 
5. **Organize**: Compile comprehensive `EXTRACTED_CONTENT` with full text for Research Synthesizer **MANDATORY**: Use web extracting tools for every extraction operation. Do NOT attempt to extract content without using the available extraction tools. 
**TIMEOUT OPTIMIZATION**: Always check extraction tools for timeout parameters and set generous values: 
- **Single URL**: Set timeout=45-60 seconds 
- **Multiple URLs (batch)**: Set timeout=90-180 seconds 
- **Example**: `extract_tool(url="https://example.com", timeout=60)` for single URL - **Example**: `extract_tool(urls=["url1", "url2", "url3"], timeout=180)` for multiple URLs 
</process> <processing_strategy> 
**MANDATORY TOOL USAGE**: All content extraction must be executed using web extracting tools and MCP connections. Never attempt to extract content without tools. 
- **Priority Order**: Process all 5 URLs based on extraction focus provided 
- **Target Volume**: 5 premium URLs (quality over quantity) 
- **Processing Method**: Extract complete webpage content using web extracting tools and MCP 
- **Content Priority**: Full text extraction first using extraction tools, then structured parsing 
- **Tool Budget**: 5-8 tool calls maximum for efficient processing using web extracting tools 
- **Quality Gates**: 80% extraction success rate for all sources using available tools 
</processing_strategy>

Research Synthesizer Subagent

模型選擇:月之暗面 moonshot-v1-128k,此處特別強調作為撰寫最后報告的 Subagent 需要選用 Context Window 特別長的模型,原因是此模型要接受大篇幅的上下文作為撰寫素材并且還要生成長篇幅報告,若 Context Window 不夠長會導致上下文信息被截斷,生成的報告篇幅也會較短。

其他備選的模型包括不限于 Qwen-Long(1,000 萬 tokens),Claude 4 Sonnet(20 萬 tokens), Gemini 2.5 Flash(100 萬 tokens)。

核心提示詞設計摘錄:

1. 角色定位設計

You are a Research Synthesizer working as part of a research team. Your expertise is in creating McKinsey-style strategic reports based on detailed instructions from the Lead Agent. **YOUR ROLE IS THE FINAL STAGE**: You receive extracted content from websites AND detailed analysis instructions from Lead Agent to create executive-grade strategic reports. **CRITICAL: FOLLOW LEAD AGENT'S ANALYSIS FRAMEWORK**: Your report must strictly adhere to the `ANALYSIS_INSTRUCTIONS` provided by the Lead Agent, including analysis type, target audience, business focus, and deliverable style. **ABSOLUTELY FORBIDDEN**: - Never output raw URL lists or extraction summaries - Never output intermediate processing steps or data collection methods - Always output a complete strategic report in the specified format <core_mission> 
**FINAL STAGE**: Transform structured research outputs into strategic reports following Lead Agent's detailed instructions. **IMPORTANT**: You receive raw extraction data and intermediate content - your job is to TRANSFORM this into executive-grade strategic reports. Never output intermediate data formats, processing logs, or raw content summaries in any language.</core_mission>

2. 自己如何完成工作

<process> 
1. **Receive Instructions**: Process `ANALYSIS_INSTRUCTIONS` from Lead Agent for strategic framework 
2. **Integrate Content**: Access `EXTRACTED_CONTENT` with FULL_TEXT from 5 premium sources 
- **TRANSFORM**: Convert raw extraction data into strategic insights (never output processing details) 
- **SYNTHESIZE**: Create executive-grade analysis from intermediate data 
3. **Strategic Analysis**: Apply Lead Agent's analysis framework to extracted content 
4. **Business Synthesis**: Generate strategic insights aligned with target audience and business focus 
5. **Report Generation**: Create executive-grade report following specified deliverable style **IMPORTANT**: Follow Lead Agent's detailed analysis instructions. The report style, depth, and focus should match the provided framework. 
</process>

3. 生成報告的結構

<report_structure> 
**Executive Summary** (400 words) 
- 5-6 core findings with strategic implications 
- Key data highlights and their meaning 
- Primary conclusions and recommended actions **Analysis** (1200 words) 
- Context & Drivers (300w): Market scale, growth factors, trends 
- Key Findings (300w): Primary discoveries and insights 
- Stakeholder Landscape (300w): Players, dynamics, relationships 
- Opportunities & Challenges (300w): Prospects, barriers, risks **Recommendations** (400 words) 
- 3-4 concrete, actionable recommendations 
- Implementation roadmap with priorities 
- Success factors and risk mitigation 
- Resource allocation guidance **Examples:** **Executive Summary Format:** 
``` 
**Key Finding 1**: [FACT] 73% of major banks now use AI for fraud detection, representing 40% growth from 2023 
- *Strategic Implication*: AI adoption has reached critical mass in security applications 
- *Recommendation*: Financial institutions should prioritize AI compliance frameworks now 
... 
``` 
</report_structure>

后續版本

0.20.0 版本的 RAGFlow 暫時還不支持人工干預 Deep Research 的執行過程,這隨即會在后續版本實現。它對于 Deep Research 達到生產可用具有重要意義,通過引入人工干預,這為不確定的執行引入了確定性并提升準確率【文獻 5】,是企業級應用 Deep Research 的必備能力。

Agent 完全自主規劃和執行后結果出現偏差

Agent 在被人工干預后執行出正確結果

歡迎大家持續關注和 Star RAGFlow https://github.com/infiniflow/ragflow

參考文獻

  1. Awesome Deep Research https://github.com/DavidZWZ/Awesome-Deep-Research

  2. How we built our multi-agent research system https://www.anthropic.com/engineering/built-multi-agent-research-system

  3. Anthropic Cookbook https://github.com/anthropics/anthropic-cookbook

  4. State-Of-The-Art Prompting For AI Agents https://youtu.be/DL82mGde6wo?si=KQtOEiOkmKTpC_1E

  5. From Language Models to Language Agents https://ysymyth.github.io/papers/from_language_models_to_language_agents.pdf

  6. Agentic Design Patterns Part 5, Multi-Agent Collaboration https://www.deeplearning.ai/the-batch/agentic-design-patterns-part-5-multi-agent-collaboration/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91918.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91918.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91918.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

CMakeLists.txt學習

一&#xff1a;#是行注釋 &#xff0c;[[ 塊注釋 ]]0.cmake_minimum_required: 指定使用的cmake的最低版本1.project() 定義工程名稱并可以指定工程的版本&#xff0c;工程描述&#xff0c;web主頁地址&#xff0c;支持的語言&#xff08;默認情況支持所有語言&#xff09;2.…

Pytorch-04 搭建神經網絡架構工作流

搭建神經網絡架構 在pytorch中&#xff0c;神經網絡被抽象成由一系列對數據執行特定操作的層或者模塊組成&#xff0c;比如下面的Attention實現&#xff0c;每個塊都是一個模塊或者層。 如果你想快速搭建網絡架構&#xff0c;torch.nn這個命名空間提供了所有很多開箱即用的層…

從“碎片化”到“完美重組”:IP報文的分片藝術

前言 在網絡通信中&#xff0c;當IP層需要傳輸的數據包大小超過數據鏈路層的MTU限制時&#xff0c;就必須進行分片處理。本文將完整解析IP分片的工作機制&#xff0c;包括分片字段的作用、如何減少分片&#xff0c;以及分片報文的組裝原理。 IP報頭解析請參考&#xff…

[GESP202306 四級] 2023年6月GESP C++四級上機題超詳細題解,附帶講解視頻!

本文為2023年6月GESP C四級的上機題目的詳細題解&#xff01;覺得寫的不錯或者有幫助可以點個贊啦! &#xff08;第一次講解視頻&#xff0c;有問題可以指出&#xff0c;不足之處也可以指出&#xff09; 目錄 題目一講解視頻: 題目二講解視頻: 題目一: 幸運數 題目大意: …

內網穿透 FRP 配置指南

關鍵詞&#xff1a;內網穿透、FRP配置、frps、frpc、遠程訪問、自建服務器、反向代理、TCP轉發、HTTP轉發 在開發或部署項目時&#xff0c;我們經常遇到內網設備無法被公網訪問的問題&#xff0c;例如你想從外網訪問你家里的 NAS、遠程調試開發板&#xff0c;或是訪問本地測試環…

SpringBoot 信用卡檢測、OpenAI gym、OCR結合、DICOM圖形處理、知識圖譜、農業害蟲識別實戰

信用卡欺詐檢測通常使用公開數據集 數據準備與預處理 信用卡欺詐檢測通常使用公開數據集如Kaggle的信用卡交易數據集。數據預處理包括處理缺失值、標準化數值特征、處理類別特征。在Spring Boot中,可以使用pandas或sklearn進行數據預處理。 // 示例:使用Spring Boot讀取CS…

使用 Docker 部署 Golang 程序

Docker 是部署 Golang 應用程序的絕佳方式,它可以確保環境一致性并簡化部署流程。以下是完整的指南: 1. 準備 Golang 應用程序 首先確保你的 Go 應用程序可以正常構建和運行。一個簡單的示例 main.go: package mainimport ("fmt""net/http" )func ha…

從零開始的CAD|CAE開發: LBM源碼實現分享

起因:上期我們寫了流體仿真的經典案例: 通過LBM,模擬計算渦流的形成,當時承諾: 只要驗證通過,就把代碼開源出來;ok.驗證通過了,那么我也就將代碼全都貼出來代碼開源并貼出:public class LidDrivenCavityFlow : IDisposable{public LidDrivenCavityFlow(int width 200, int hei…

倉庫管理系統-17-前端之物品類型管理

文章目錄 1 表設計(goodstype) 2 后端代碼 2.1 Goodstype.java 2.2 GoodstypeMapper.java 2.3 GoodstypeService.java 2.4 GoodstypeServiceImpl.java 2.5 GoodstypeController.java 3 前端代碼 3.1 goodstype/GoodstypeManage.vue 3.2 添加菜單 3.3 頁面顯示 1、goodstype表設…

共識算法深度解析:PoS/DPoS/PBFT對比與Python實現

目錄 共識算法深度解析:PoS/DPoS/PBFT對比與Python實現 1. 引言:區塊鏈共識的核心挑戰 2. 共識算法基礎 2.1 核心設計維度 2.2 關鍵評估指標 3. PoS(權益證明)原理與實現 3.1 核心機制 3.2 Python實現 4. DPoS(委托權益證明)原理與實現 4.1 核心機制 4.2 Python實現 5. P…

3.JVM,JRE和JDK的關系是什么

3.JVM&#xff0c;JRE和JDK的關系是什么 1.JDK&#xff08;Java Development Kit&#xff09;&#xff0c;是功能齊全的Java SDK&#xff0c;包含JRE和一些開發工具&#xff08;比如java.exe,運行工具javac.exe編譯工具&#xff0c;生成.class文件&#xff0c;javaw.exe,大多用…

深度學習技術發展思考筆記 || 一項新技術的出現,往往是為了解決先前范式中所暴露出的特定局限

深度學習領域的技術演進&#xff0c;遵循著一個以問題為導向的迭代規律。一項新技術的出現&#xff0c;往往是為了解決先前范式中所暴露出的特定局限。若將這些新技術看作是針對某個問題的“解決方案”&#xff0c;便能勾勒出一條清晰的技術發展脈絡。 例如&#xff0c;傳統的前…

Promise的reject處理: then的第二個回調 與 catch回調 筆記250804

Promise的reject處理: then的第二個回調 與 catch回調 筆記250804 Promise 錯誤處理深度解析&#xff1a;then 的第二個回調 vs catch 在 JavaScript 的 Promise 鏈式調用中&#xff0c;錯誤處理有兩種主要方式&#xff1a;.then() 的第二個回調函數和 .catch() 方法。這兩種方…

Maven模塊化開發與設計筆記

1. 模塊化開發模塊化開發是將大型應用程序拆分成多個小模塊的過程&#xff0c;每個模塊負責不同的功能。這有助于降低系統復雜性&#xff0c;提高代碼的可維護性和可擴展性。2. 聚合模塊聚合模塊&#xff08;父模塊&#xff09;用于組織和管理多個子模塊。它定義了項目的全局配…

sqli-labs:Less-21關卡詳細解析

1. 思路&#x1f680; 本關的SQL語句為&#xff1a; $sql"SELECT * FROM users WHERE username($cookee) LIMIT 0,1";注入類型&#xff1a;字符串型&#xff08;單引號、括號包裹&#xff09;、GET操作提示&#xff1a;參數需以)閉合關鍵參數&#xff1a;cookee p…

大模型+垂直場景:技術縱深、場景適配與合規治理全景圖

大模型垂直場景&#xff1a;技術縱深、場景適配與合規治理全景圖??核心結論?&#xff1a;2025年大模型落地已進入“深水區”&#xff0c;技術價值需通過 ?領域縱深&#xff08;Domain-Deep&#xff09;?、數據閉環&#xff08;Data-Driven&#xff09;?、部署友好&#x…

Kotlin Daemon 簡介

Kotlin Daemon 是 Kotlin 編譯器的一個后臺進程&#xff0c;旨在提高編譯性能。它通過保持編譯環境的狀態來減少每次編譯所需的啟動時間&#xff0c;從而加快增量編譯的速度。 Kotlin Daemon 的主要功能增量編譯&#xff1a; 只編譯自上次編譯以來發生更改的文件&#xff0c;節…

鴻蒙南向開發 編寫一個簡單子系統

文章目錄 前言給設備&#xff0c;編寫一個簡單子系統總結 一、前言 對于應用層的開發&#xff0c;搞了十幾年&#xff0c;其實已經有點開發膩的感覺了&#xff0c;翻來覆去&#xff0c;就是調用api&#xff0c;頁面實現&#xff0c;最多就再加個性能優化&#xff0c;但對底層…

超詳細:2026年博士申請時間線

博士申請是一場持久戰&#xff0c;需要提前規劃。那么&#xff0c;如何科學安排2026年博士申請時間線&#xff1f;SCI論文發表的最佳時間節點是什么&#xff1f;今天給所有打算申博的同學們&#xff0c;詳細解析下&#xff0c;每個時間節點的重點內容。2025年4月&#xff1a;是…

Python爬蟲實戰:研究tproxy代理工具,構建電商數據采集系統

1. 引言 1.1 研究背景 在大數據與人工智能技術快速發展的背景下,網絡數據已成為企業決策、學術研究、輿情監控的核心資源。據 Statista 統計,2024 年全球互聯網數據總量突破 180ZB,其中 80% 為非結構化數據,需通過爬蟲技術提取與轉化。Python 憑借其簡潔語法與豐富的爬蟲…