Kettle 遠程mysql 表導入到 hadoop hive

kettle 遠程mysql 表導入到 hadoop hive

(教學用 )

在這里插入圖片描述

文章目錄

  • kettle 遠程mysql 表導入到 hadoop hive
  • 創建 對象 執行 SQL 語句 -mysql 導出 CSV格式
  • CSV 文件遠程上傳到 HDFS
    • 運行 SSH 命令
    • 遠程登錄 run SSH 并執行 hadoop fs -put
  • 建表和加載數據
  • 總結


創建 對象 執行 SQL 語句 -mysql 導出 CSV格式

在這里插入圖片描述

SELECT * 
INTO OUTFILE '/home/mysql-files/sakila_actor9.csv' 
FIELDS TERMINATED BY ',' 
ENCLOSED BY '' 
LINES TERMINATED BY '\n'
FROM sakila.actor;

CSV 文件遠程上傳到 HDFS

運行 SSH 命令

在這里插入圖片描述

遠程登錄 run SSH 并執行 hadoop fs -put

在這里插入圖片描述
在這里插入圖片描述

/opt/module/hadoop-3.3.0/bin/hadoop fs -put /home/mysql-files/sakila_actor9.csv /user/hive/warehouse/

建表和加載數據

在這里插入圖片描述

CREATE EXTERNAL TABLE IF NOT EXISTS sakiladb.actor9 
(actor_id STRING COMMENT 'from deserializer',first_name STRING COMMENT 'from deserializer',last_name STRING COMMENT 'from deserializer',last_update STRING COMMENT 'from deserializer'
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','  -- 列分隔符
STORED AS TEXTFILE;LOAD DATA INPATH '/user/hive/warehouse/sakila_actor9.csv' INTO TABLE actor9;

總結

通過 Kettle (Pentaho Data Integration),我們能夠輕松地將遠程 MySQL 數據庫中的數據導出到 CSV 文件,上傳到 HDFS,并最終將數據導入 Hive。這樣,我們可以利用 Hadoop 的強大計算能力來進行數據處理和分析。以下是整個過程的概覽:

導出 MySQL 數據為 CSV 格式:使用 Table Input 和 Text File Output 步驟。

上傳 CSV 文件到 HDFS:通過 SSH Connection 執行 hadoop fs -put 命令。

在 Hive 中創建表并加載數據:使用 CREATE TABLE 和 LOAD DATA 命令。

這個過程不僅適用于 MySQL 和 Hive,也可以根據需要適配其他數據源和目標系統。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/82532.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/82532.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/82532.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux輸出命令——echo解析

摘要 全面解析Linux echo命令核心功能,涵蓋文本輸出、變量解析、格式控制及高級技巧,助力提升Shell腳本開發與終端操作效率。 一、核心功能與定位 作為Shell腳本開發的基礎工具,echo命令承擔著信息輸出與數據傳遞的重要角色。其主要功能包…

Windows系統下 NVM 安裝 Node.js 及版本切換實戰指南

以下是 Windows 11 系統下使用 NVM 安裝 Node.js 并實現版本自由切換的詳細步驟: 一、安裝 NVM(Node Version Manager) 1. 卸載已有 Node.js 如果已安裝 Node.js,請先卸載: 控制面板 ? 程序與功能 ? 找到 Node.js…

【leetcode】977. 有序數組的平方

有序數組的平方 題目代碼1. 使用sorted2. 雙指針 題目 977. 有序數組的平方 給你一個按 非遞減順序 排序的整數數組 nums,返回 每個數字的平方 組成的新數組,要求也按 非遞減順序 排序。 示例 1: 輸入:nums [-4,-1,0,3,10] 輸…

Obsidian 數據可視化深度實踐:用 DataviewJS 與 Charts 插件構建智能日報系統

Obsidian 數據可視化深度實踐:用 DataviewJS 與 Charts 插件構建智能日報系統 一、核心架構解析 本系統基于 Obsidian 的 DataviewJS 和 Charts 插件,實現日報數據的自動采集、可視化分析及智能回溯功能(系統架構原理見)。其技術…

深入解析Spring Boot與Kafka集成:構建高效消息驅動應用

深入解析Spring Boot與Kafka集成:構建高效消息驅動應用 引言 在現代分布式系統中,消息隊列是實現異步通信和解耦的關鍵技術之一。Apache Kafka作為一款高性能、分布式的消息隊列系統,廣泛應用于大數據和實時數據處理場景。本文將詳細介紹如…

Rust 學習筆記:關于生命周期的練習題

Rust 學習筆記:關于生命周期的練習題 Rust 學習筆記:關于生命周期的練習題生命周期旨在防止哪種編程錯誤?以下代碼能否通過編譯?若能,輸出是?如果一個引用的生命周期是 static,這意味著什么&…

word解決不同文檔同樣的字體段落設置下看起來行距不同的問題

問題: 有時候我們照著模板修改文檔格式,明明字體和段落設置一模一樣,但是看起來行距不一樣。 解決辦法: 一般照著模板修改文檔內容,要注意以下幾點,如果以下幾點與模板設置相同時就可解決上述問題 1、紙…

Jenkins實踐(9):配置“構建歷史的顯示名稱,加上包名等信息“

Jenkins實踐(9):配置“構建歷史的顯示名稱,加上包名等信息“ 版本:Jenkins 4.262.2 需求:想要在構建歷史中展示,本次運行的是哪個版本或哪個包 操作步驟: 1、先安裝插件Build Name and Description Setter 2、Set Build Name 3、構建歷史處查看展示 插件特性說明 安裝依賴…

matIo庫及.mat數據格式介紹

一.概述 1..mat數據格式 (1).mat 是 MATLAB 軟件的標準二進制數據存儲格式,用于保存變量、矩陣、數組、結構體等數據類型。其名稱源于 “MATLAB Data” 的縮寫,最初設計為高效存儲和加載 MATLAB 環境中的數據,后來逐…

企業級調度器LVS (面試版)

1. 什么是 LVS?有什么作?? LVS ( Linux Virtual Server )是?個基于 Linux 內核實現的?性能、可擴展和可靠的負載均衡。它將多個服務器組成?個?可?、?性能和?可靠的虛擬服務器集群,通過將客戶端的請求轉發到不同的后端服務器,實現負載均衡和?可?性。 2.什么是 …

用python制作一個簡易的聊天室軟件

文章目錄 效果圖python源碼使用說明效果圖 只需要一百多行的python代碼,就能制作一個簡易的聊天室軟件。效果如下: 操作說明: 1、先運行server.py啟動服務器; 2、每運行一次client.py可以創建一個聊天用戶(需要輸入用戶昵稱); 3、輸入對方的昵稱即可與其聊天,輸入“a…

Android13 開機時間優化

前言 在實際應用場景中,特定領域對 Android 系統的啟動時間有著極為嚴苛的要求,車載領域便是典型代表。想象一下,當車輛已經行駛出數公里之遙,車內的信息娛樂系統(IVI)卻仍未完成啟動,這無疑會…

08SpringBoot高級--自動化配置

目錄 Spring Boot Starter 依賴管理解釋 一、核心概念 二、工作原理 依賴傳遞: 自動配置: 版本管理: 三、核心流程 四、常用 Starter 示例 五、自定義 Starter 步驟 創建配置類: 配置屬性: 注冊自動配置&a…

基于cornerstone3D的dicom影像瀏覽器 第二十四章 顯示方位、坐標系、vr輪廓線

系列文章目錄 文章目錄 系列文章目錄前言一、工具欄修改二、切片窗口顯示方位文字1. 修改mprvr.js,添加函數getOrientationMarkers2. 修改DisplayerArea3D.vue 三、vr窗口顯示坐標系1. 修改mprvr.js 添加OrientationMarkerTool2. view3d.vue中響應工具欄事件3. 修改…

【C/C++】線程局部存儲:原理與應用詳解

文章目錄 1 基礎概念1.1 定義1.2 初始化規則1.3 全局TLS vs 局部靜態TLS 2 內存布局2.1 實現機制2.2 典型內存結構2.3 性能特點 3 使用場景/用途3.1 場景3.2 用途 4 注意事項5 對比其他技術6 示例代碼7 建議7.1 調試7.2 優化 8 學習資料9 總結 在 C 多線程編程中,線…

【圖像大模型】IP-Adapter:圖像提示適配器的技術解析與實踐指南

IP-Adapter:圖像提示適配器的技術解析與實踐指南 一、項目背景與技術價值1.1 圖像生成中的個性化控制需求1.2 IP-Adapter的核心貢獻 二、技術原理深度解析2.1 整體架構設計2.2 圖像特征編碼器2.3 訓練策略 三、項目部署與實戰指南3.1 環境配置3.2 模型下載3.3 基礎生…

MySQL-5.7 修改密碼和連接訪問權限

一、MySQL-5.7 修改密碼和連接權限設置 修改密碼語法 注意:rootlocalhost 和 root192.168.56.% 是兩個不同的用戶。在修改密碼時,兩個用戶的密碼是各自分別保存,如果兩個用戶密碼設置不一樣則登陸時注意登陸密碼 GRANT ALL PRIVILEGES ON …

Linux基本指令篇 —— touch指令

touch是Linux和Unix系統中一個非常基礎但實用的命令,主要用于操作文件的時間戳和創建空文件。下面我將詳細介紹這個命令的用法和功能。 目錄 一、基本功能 1. 創建空文件 2. 同時創建多個文件 3. 創建帶有空格的文件名(需要使用引號) 二、…

mysql explain使用

文章目錄 type 訪問類型性能高到低多注意type: index 出現的場景 key 實際使用的索引Extra 額外信息其他字段 通過 EXPLAIN 你可以知道:如是否使用索引、掃描多少行、是否需要排序或臨時表 EXPLAIN 三板斧(type、key、Extra) 例子&#xff1…

JMeter-SSE響應數據自動化

結構圖 背景: 需要寫一個JMeter腳本來進行自動化測試,主要是通過接口調用一些東西,同時要對響應的數據進行處理,包括不限于錯誤信息的輸出。 1.SSE(摘錄) SSE(Server-Sent Events)是一種基于HTTP協議、允許…