Azure Document Intelligence(以前稱為 Form Recognizer)是一項云服務,可用于從文檔中提取文本、鍵值對、表等信息。下面是一個使用 Python SDK 進行文檔轉換和提取信息的基本示例。
1. 安裝依賴
首先,你需要安裝 azure-ai-formrecognizer
庫,可以使用以下命令進行安裝:
2. 示例代碼
下面的代碼展示了如何使用 Document Intelligence 來分析一個文檔(例如 PDF 或圖像)并提取信息。
3. 代碼說明
- 導入必要的庫:導入
azure.ai.formrecognizer
庫中的DocumentAnalysisClient
和AzureKeyCredential
。 - 創建客戶端:使用你的 Azure Document Intelligence 端點和密鑰創建
DocumentAnalysisClient
實例。 - 開始分析:使用
begin_analyze_document_from_url
方法開始分析文檔。這里使用了預構建的prebuilt-document
模型,它可以識別文檔中的文本、鍵值對和表格。 - 處理結果:打印提取的文本、鍵值對和表格。
- 異常處理:捕獲并處理可能出現的異常。
4. 環境變量設置
你需要設置兩個環境變量:
AZURE_FORM_RECOGNIZER_ENDPOINT
:你的 Azure Document Intelligence 端點。AZURE_FORM_RECOGNIZER_KEY
:你的 Azure Document Intelligence 密鑰。
可以使用以下命令在 Linux 或 macOS 上設置環境變量:
在 Windows 上,可以使用以下命令:
請確保將 "your-endpoint"
和 "your-key"
替換為你自己的實際值。