開源數據發現平臺:Amundsen 本地環境安裝

在這里插入圖片描述

Amundsen 是一個數據發現和元數據引擎,旨在提高數據分析師、數據科學家和工程師與數據交互時的生產力。目前,它通過索引數據資源(表格、儀表板、數據流等)并基于使用模式(例如,查詢頻率高的表格會優先于查詢頻率低的表格)提供頁面排名式的搜索功能來實現這一目標。您可以將其視為數據版的 Google 搜索。該項目以挪威探險家羅爾德·阿蒙森 (Roald Amundsen) 的名字命名,他是第一個發現南極的人。

安裝

Installation

使用 Docker 快速啟動默認版本的 Amundsen

以下指令用于通過 Docker 部署 Amundsen。

  1. 確保為 Docker 預留至少 3 GB 磁盤空間,并安裝 dockerdocker-compose

  2. 克隆本倉庫及其子模塊,執行:

    git clone --recursive https://github.com/amundsen-io/amundsen.git
    
  3. 進入克隆目錄并執行以下命令:

    # 使用 Neo4j 后端
    $ docker-compose -f docker-amundsen.yml up# 使用 Atlas
    $ docker-compose -f docker-amundsen-atlas.yml up
    

    若是首次運行,建議提前查閱故障排查步驟,尤其是與 ElasticSearch 堆內存及 Docker 引擎內存分配相關的首項(可能導致 Docker 錯誤 137)。

  4. 將提供的示例數據導入 Neo4j:(如使用 Atlas 后端,請跳過此步)

  5. 在另一終端窗口中,切換至 databuilder 目錄。

  6. examples/ 目錄中的 sample_data_loader Python 腳本依賴 elasticsearch clientpyhocon 等庫。請在虛擬環境中安裝依賴并執行腳本,命令如下。如在 Windows 運行 python3 setup.py install 時出現 extas_require 相關錯誤,請見 Windows 故障排查。

     python3 -m venv venvsource venv/bin/activatepip3 install --upgrade pippip3 install -r requirements.txtpython3 setup.py installpython3 example/scripts/sample_data_loader.py
    
  7. http://localhost:5000 查看 UI,嘗試搜索 test,應返回結果。
    圖片

  8. 也可對表實體執行精確匹配搜索。例如:在表字段中搜索 test_table1,將返回匹配記錄。
    圖片

Atlas 注意: Atlas 啟動需一定時間,因此執行 docker-compose up 后可能不會立即看到結果。當 Docker 日志輸出 Amundsen Entity Definitions Created... 時,Atlas 即準備就緒。

驗證部署

  1. 通過訪問 http://localhost:7474/browser/ 驗證示例數據是否已導入 Neo4j,在查詢框中運行 MATCH (n:Table) RETURN n LIMIT 25,應能看到若干表。
    圖片
  2. 通過訪問以下地址驗證數據是否已加載到元數據服務:
  3. http://localhost:5000/table_detail/gold/hive/test_schema/test_table1
  4. http://localhost:5000/table_detail/gold/dynamo/test_schema/test_table2

故障排查

  1. 若 Docker 容器為 ElasticSearch 分配的堆內存不足,es_amundsen 將在 docker-compose 期間失敗。

  2. docker-compose 錯誤:es_amundsen | [1]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

  3. 增加堆內存,詳細說明見此

    1. 編輯 /etc/sysctl.conf
    2. 添加條目 vm.max_map_count=262144,保存并退出。
    3. 重載設置 $ sysctl -p
    4. 重啟 docker-compose
  4. docker-amundsen-local.ymlorg.elasticsearch.bootstrap.StartupException: java.lang.IllegalStateException: Failed to create node environment 停止,則 es_amundsen 無法寫入 .local/elasticsearch

  5. chown -R 1000:1000 .local/elasticsearch

  6. 重啟 docker-compose

  7. 運行示例數據加載器時若出現與 ElasticSearch 或 Neo4j 相關的連接錯誤,如:

        Traceback (most recent call last):File "/home/ubuntu/amundsen/amundsendatabuilder/venv/lib/python3.6/site-packages/neobolt/direct.py", line 831, in _connects.connect(resolved_address)ConnectionRefusedError: [Errno 111] Connection refused
    
  8. elastic search 容器因 max file descriptors [4096] for elasticsearch process is too low, increase to at least [65535] 報錯停止,請將以下代碼添加至 docker-amundsen-local.ymlelasticsearch 定義中:

    ulimits:
    nofile:soft: 65535hard: 65535
    

    然后執行 docker ps 檢查 5 個 Amundsen 相關容器是否全部運行?能否通過 http://localhost:7474/browser/ 連接 Neo4j UI 及 http://localhost:9200 訪問原始 ES API?Docker 日志是否顯示嚴重問題?

  9. 若首次訪問網站 (http://localhost:5000/) 時 ES 容器因 Docker 錯誤 137 崩潰,這是因為 Docker 引擎默認僅分配 2 GB 內存。所有容器加載示例數據后,最低需要 3 GB。請前往 Docker -> Preferences -> Resources -> Advanced 增加 Memory,然后重啟 Docker 引擎。
    圖片

  10. Windows 故障排查

風險提示與免責聲明
本文內容基于公開信息研究整理,不構成任何形式的投資建議。歷史表現不應作為未來收益保證,市場存在不可預見的波動風險。投資者需結合自身財務狀況及風險承受能力獨立決策,并自行承擔交易結果。作者及發布方不對任何依據本文操作導致的損失承擔法律責任。市場有風險,投資須謹慎。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/95927.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/95927.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/95927.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ubuntu18.04部署cephfs

比起君子訥于言而敏于行,我更喜歡君子善于言且敏于行。 目錄 一. 準備工作(所有節點) 1. /etc/hosts 2. 安裝python2 3. 配置普戶免密sudo 4. 準備好四塊盤,一塊hddsdd為一組,一臺設備上有一組 5. 添加源 二. 安…

VMD+皮爾遜+降噪+重構(送報告+PPT)Matlab程序

1.程序介紹:以含白噪聲信號為例:1.對信號進行VMD分解2.通過皮爾遜進行相關性計算3.通過設定閾值將噪聲分量和非噪聲分量分別提取出4.對非噪聲信號進行重構達到降噪效果包含評價指標:% SNR:信噪比% MSE:均方誤差% NCC:波…

UE5多人MOBA+GAS 45、制作沖刺技能

文章目錄添加技能需要的東西添加本地播放GC添加沖刺tag添加一個新的TA用于檢測敵方單位添加沖刺GA到角色中監聽加速移動速度的回調創建蒙太奇添加GE添加到數據表中添加到角色中糾錯添加技能需要的東西 添加本地播放GC 在UCAbilitySystemStatics中添加 /*** 在本地觸發指定的游…

分庫分表和sql的進階用法總結

說下你對分庫分表的理解分庫分表是?種常?的數據庫?平擴展(Scale Out)技術,?于解決單?數據庫性能瓶頸和存儲容量限制的問題。在分庫分表中,數據庫會根據某種規則將數據分散存儲在多個數據庫實例和表中,從?提?數據…

紫金橋RealSCADA:國產工業大腦,智造安全基石

在工業4.0時代,數字化轉型已成為企業提升競爭力的核心路徑。作為工業信息化的基石,監控組態軟件在智能制造、物聯網、大數據等領域發揮著關鍵作用。紫金橋軟件積極響應國家“兩化融合”戰略,依托多年技術積淀與行業經驗,重磅推出跨…

朗空量子與 Anolis OS 完成適配,龍蜥獲得抗量子安全能力

近日,蘇州朗空后量子科技有限公司(以下簡稱“朗空量子”)簽署了 CLA(Contributor License Agreement,貢獻者許可協議),加入龍蜥社區(OpenAnolis)。 朗空量子是一家后量子…

C#WPF實戰出真汁08--【消費開單】--餐桌面板展示

1、功能介紹在這節里,需要實現餐桌類型展示,類型點擊切換事件,餐桌面板展示功能,細節很多,流程是UI設計布局-》后臺業務邏輯-》視圖模型綁定-》運行測試2、UI設計布局TabControl,StackPanel,Gri…

2025年機械制造、機器人與計算機工程國際會議(MMRCE 2025)

🤖🏭💻 探索未來:機械制造、機器人與計算機工程的交匯點——2025年機械制造、機器人與計算機工程國際會議🌟MMRCE 2025將匯聚全球頂尖專家、學者及行業領袖,聚焦機械制造、機器人和計算機工程領域的前沿議題…

Vue Router 嵌套路由與布局系統詳解:從新手到精通

在Vue單頁應用開發中&#xff0c;理解Vue Router的嵌套路由機制是構建現代管理后臺的關鍵。本文將通過實際案例&#xff0c;深入淺出地解釋Vue Router如何實現布局與內容的分離&#xff0c;以及<router-view>的嵌套渲染原理。什么是嵌套路由&#xff1f;嵌套路由是Vue Ro…

Grafana 與 InfluxDB 可視化深度集成(二)

四、案例實操&#xff1a;以服務器性能監控為例 4.1 模擬數據生成 為了更直觀地展示 Grafana 與 InfluxDB 的集成效果&#xff0c;我們通過 Python 腳本模擬生成服務器性能相關的時間序列數據。以下是一個簡單的 Python 腳本示例&#xff0c;用于生成 CPU 使用率和內存使用量…

.net印刷線路板進銷存PCB材料ERP財務軟件庫存貿易生產企業管理系統

# 印刷線路板進銷存PCB材料ERP財務軟件庫存貿易生產企業管理系統 # 開發背景 本軟件原為給蘇州某企業開發的pcb ERP管理軟件&#xff0c;后來在2021年深圳某pcb 板材公司買了我們的軟件然后在此基礎上按他行業的需求多次修改后的軟件&#xff0c;適合pcb板材行業使用。 # 功能…

基于飛算JavaAI的可視化數據分析集成系統項目實踐:從需求到落地的全流程解析

引言&#xff1a;為什么需要“可視化AI”的數據分析系統&#xff1f; 在數字化轉型浪潮中&#xff0c;企業/團隊每天產生海量數據&#xff08;如用戶行為日志、銷售記錄、設備傳感器數據等&#xff09;&#xff0c;但傳統數據分析存在三大痛點&#xff1a; 技術門檻高&#xff…

MqSQL中的《快照讀》和《當前讀》

目錄 1、MySQL讀取定義 1.1、鎖的分類 1.2、快照讀與當前讀 1.3、使用場景 1.4、區別 2、實現機制 2.1、實現原理 2.2、隔離級別和快照聯系 1、隔離級別 2、快照讀 2.3、快照何時生成 3、SQL場景實現 3.1、快照讀 3.2、當前讀 4、鎖的細節&#xff08;與當前讀相…

【Docker項目實戰】使用Docker部署Notepad輕量級記事本

【Docker項目實戰】使用Docker部署Notepad輕量級記事本一、 Notepad介紹1.1 Notepad簡介1.2 Notepad特點1.3 主要使用場景二、本次實踐規劃2.1 本地環境規劃2.2 本次實踐介紹三、本地環境檢查3.1 檢查Docker服務狀態3.2 檢查Docker版本3.3 檢查docker compose 版本四、下載Note…

開疆智能ModbusTCP轉Ethernet網關連接FBOX串口服務器配置案例

本案例是串口服務器通過串口采集第三方設備數據轉成ModbusTCP的服務器后歐姆龍PLC通過Ethernet連接到網關&#xff0c;讀取采集到的數據。具體配置過程如下。配置過程&#xff1a;Fbox做從站FBox采集PLC數據&#xff0c;通過Modbus TCP Server/Modbus RTU Server協議配置地址映…

Vue中的數據渲染【4】

目錄1.頁面樣式綁定&#xff1a;1.概述&#xff1a; 2.綁定方式&#xff1a;1.通過類名綁定&#xff1a;1.通過動態類名綁定&#xff1a;&#xff08;&#xff1a;class&#xff09;2.通過類名數組綁定&#xff1a;3.通過類名對象進行綁定&#xff1a;2.內聯樣式綁定&#xff1…

LeeCode 39.組合總和

給你一個 無重復元素 的整數數組 candidates 和一個目標整數 target &#xff0c;找出 candidates 中可以使數字和為目標數 target 的 所有 不同組合 &#xff0c;并以列表形式返回。你可以按 任意順序 返回這些組合。candidates 中的 同一個 數字可以 無限制重復被選取 。如果…

基于Python3.10.6與jieba庫的中文分詞模型接口在Windows Server 2022上的實現與部署教程

該教程詳細闡述了在Windows Server 2022上基于Python3.10.6與jieba庫實現并部署中文分詞模型接口的完整流程&#xff0c;涵蓋技術棧&#xff08;Python3.10.6、jieba、Flask、Waitress、Nginx、NSSM等&#xff09;與環境準備&#xff08;Python安裝、虛擬環境配置、依賴包安裝及…

java基礎(九)sql基礎及索引

一、NoSQL 和 SQL 數據庫的區別1. 基本概念SQL 數據庫&#xff08;關系型數據庫&#xff09; 代表產品&#xff1a;SQL Server, Oracle, MySQL (開源), PostgreSQL (開源)。 存儲方式&#xff1a;結構化數據&#xff0c;邏輯上以二維表&#xff08;行 & 列&#xff09;形式…

ffmpeg-調整視頻分辨率

ffmpeg -i input.mp4 -vf scale1280:720 output_1280x720.mp4-i input.mp4: 指定輸入視頻文件。-vf scale1280:720: 使用 scale 視頻濾鏡&#xff0c;將視頻寬度設置為 1280 像素&#xff0c;高度設置為 720 像素。output_1280x720.mp4: 指定輸出視頻文件。 16&#xff1a;9 常…