Azure Document Intelligence(以前稱為 Form Recognizer)是一項云服務,可用于從文檔中提取文本、鍵值對、表等信息。下面是一個使用 Python SDK 進行文檔轉換和提取信息的基本示例。

1. 安裝依賴

首先,你需要安裝 azure-ai-formrecognizer 庫,可以使用以下命令進行安裝:

pip install azure-ai-formrecognizer
  • 1.
2. 示例代碼

下面的代碼展示了如何使用 Document Intelligence 來分析一個文檔(例如 PDF 或圖像)并提取信息。

3. 代碼說明
  • 導入必要的庫:導入 azure.ai.formrecognizer 庫中的 DocumentAnalysisClientAzureKeyCredential
  • 創建客戶端:使用你的 Azure Document Intelligence 端點和密鑰創建 DocumentAnalysisClient 實例。
  • 開始分析:使用 begin_analyze_document_from_url 方法開始分析文檔。這里使用了預構建的 prebuilt-document 模型,它可以識別文檔中的文本、鍵值對和表格。
  • 處理結果:打印提取的文本、鍵值對和表格。
  • 異常處理:捕獲并處理可能出現的異常。
4. 環境變量設置

你需要設置兩個環境變量:

  • AZURE_FORM_RECOGNIZER_ENDPOINT:你的 Azure Document Intelligence 端點。
  • AZURE_FORM_RECOGNIZER_KEY:你的 Azure Document Intelligence 密鑰。

可以使用以下命令在 Linux 或 macOS 上設置環境變量:

export AZURE_FORM_RECOGNIZER_ENDPOINT="your-endpoint"
export AZURE_FORM_RECOGNIZER_KEY="your-key"
  • 1.
  • 2.

在 Windows 上,可以使用以下命令:

$env:AZURE_FORM_RECOGNIZER_ENDPOINT="your-endpoint"
$env:AZURE_FORM_RECOGNIZER_KEY="your-key"
  • 1.
  • 2.

請確保將 "your-endpoint""your-key" 替換為你自己的實際值。