大數據集群數據傳輸

簡單的服務器間的通信示例

netcat,簡寫為 nc,是 unix 系統下一個強大的命令行網絡通信工具,用于在兩臺主機之間建立 TCP 或者 UDP 連接,并提供豐富的命令進行數據通信。nc 在網絡參考模型屬于應用層。使用 nc 可以做很多事情:建立連接,發送數據包,監聽端口,掃描端口,處理 ip4 和 ip6,和 telnet 不同,nc 會區分錯誤輸出和標準輸出,telnet 則都是標準輸出。

啟動服務端 nc -l 端口號nc -l 6666啟動客戶端nc 服務端IP 6666

Kafka 類似,但更加強大,下面是一個Kafka 生產者生產數據到topic ,消費者(flink)在topic中消費到數據,將數據落地為文件的案例:

第一步:創建一個topic?

1、topic名稱帶有明顯來源和業務的單詞,例如:t_jif_tgcdr

2、topic備份數量小于等于kafka節點數;

3、topic分區數應是備份數的倍數關系;

4、檢查topic是否已經存在,如果存在,需另外起名

kafka-topics.sh  \
--bootstrap-server xxx.xxx.xxx.xxx:xxxx \
--create  \
--replication-factor 3 \
--partitions 3 \
--topic  kfk_big_data_study

也許會出現這個警告,就是建議topic 名稱

?

查看kafka是否創建成功
kafka-topics.sh --list --bootstrap-server?xxx.xxx.xxx.xxx:xxxx |grep study

二、對接表字段

1、對端一定要提供數據的結構;

2、對端要提供數據樣例;

3、通過樣例判斷是txt、json、還是混合數據格式

4、要確定數據是實時、增量、全量問題

5、在數據云調度上創建物理模型并落地hive

6、如需同步行云,需創建物理模型落地行云

這里面我們只介紹自己生產數據, 數據樣例:

結構如:

name|age|kungfu

例如

歐陽鋒|42|蛤蟆功

三、創建生產者

kafka-console-producer.sh --broker-list xxx.xxx.xxx.xxx:xxxx --topic kfk_big_data_study

四、測試消費

kafka-console-consumer.sh --bootstrap-server?xxx.xxx.xxx.xxx:xxxx ?--from-beginning --topic kfk_big_data_study

五、創建Flink來消費Topic中的數據

https://nightlies.apache.org/flink/flink-docs-release-1.16/zh/docs/connectors/table/kafka/

set setexecution.checkpointing.interval=30sec;
set parallelism.default=9;
set execution.target=yarn-per-job;
set yarn.application.name=yarn_kfk_big_data_study;
set yarn.application.queue=root|default|hadoop|user-defined;--創建Kafka表
drop table if EXISTS kafka_big_data_study;
CREATE TABLE IF NOT EXISTS kafka_big_data_study(
name string,
age string,
kungfu string
) WITH ('connector' = 'kafka','topic' = 'kfk_big_data_study','properties.group.id'='group_01','properties.bootstrap.servers' = 'xxx.xxx.xxx.xxx:xxxx','scan.startup.mode' = 'earliest-offset','format' = 'csv','csv.ignore-parse-errors' = 'true','csv.allow-comments' = 'true'
);--創建Sink表
drop table IF EXISTS t_big_data_study;
CREATE TABLE t_big_data_study(
name string,
age string,
kungfu string
) WITH ('connector' = 'filesystem','path' = 'hdfs://beh001/gsdx_data/spooldirtohive/study/t_big_data_study/','format' = 'csv','csv.field-delimiter' = '|'
);--從kafka表插入數據到Sink表
insert into t_big_data_study
select 
name ,
age ,
kungfu
from kafka_big_data_study;

將以上腳本保存在一個自定義的sql文件中,然后使用下面的命令調用
?

sql-client.sh -f study.sql?

看到這個情況說明flink job已經啟動;

接下來,生產一條消息看看是否會落地到hdfs目錄

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/34937.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/34937.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/34937.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

docker-compose 之 達夢數據庫(dm8-v202406版)

1、達夢官方沒有提供鏡像直接 pull 的方式,提供的是鏡像的 tar 包,所以需要先去官網下載tar包。 2、然后使用如下 docker load 命令導入鏡像到服務上: docker load -i dm8_20240422_x86_rh6_64_rq_std_8.1.3.100_pack2.tar導入完成后&#…

重磅丨上海容大推出“容聆”智能拾音工牌,賦能線下門店運營數字化

近日,繼豚音營業廳智能質檢終端之后,上海容大數字技術有限公司(簡稱“上海容大”)在線下面對面溝通場景下語音數據采集與智能分析領域取得了新突破,重磅推出AI智能語音工牌產品——“容聆”。 據悉,“容聆”…

mybatis x插件的使用教程(詳細)

MyBatisX 的主要功能 代碼生成: 自動生成 MyBatis 的 Mapper、XML 配置文件和實體類,大大減少手工編寫代碼的工作量。 智能代碼補全: 提供 SQL 語句和 MyBatis 配置的智能代碼補全功能,使開發者能夠更快地編寫代碼。 代碼導航&…

鈾的危害和應用,以及鈾的分離提純

鈾是一種錒系放射性元素,對人體存在一定的危害,如輻射損傷、呼吸系統損傷、神經系統損傷、免疫系統損傷等。 1、輻射損傷:鈾的放射性會對人體產生輻射損傷,長期接觸會增加患癌癥的風險。此外,還可能對人體正常細胞產生…

【網絡安全的神秘世界】解決dvwa靶場報錯:Illegal mix of collations for operation ‘UNION‘

🌝博客主頁:泥菩薩 💖專欄:Linux探索之旅 | 網絡安全的神秘世界 | 專接本 | 每天學會一個滲透測試工具 🚩問題描述 當嘗試執行如下 SQL 語句時: 1 union select schema_name,1 from information_schema.s…

如何挑選護眼燈?一分鐘帶你了解挑選護眼燈的六大準則!

小時候,對正確用眼知識一無所知,也不明白何種光線環境對眼睛最為友善,結果如今的近視度數已瀕臨千度大關。雖然早已習慣佩戴眼鏡的生活,但近視所帶來的諸多不便仍舊在日常生活中無處不在。因此,對于家中孩子的視力健康…

第六十七:iview的select組件在頁面上,下拉數據被遮擋

iview的select組件在頁面上,下拉數據被遮擋 加上**:transfer"true"** 代碼截圖: 官方解說截圖:因為默認值是false 所以要改成:transfer“true”

人工智能水平國際領先,科大訊飛再獲國家科學技術進步獎一等獎

科大訊飛在2023年6月24日榮獲國家科學技術進步獎一等獎,這是對其在多語種智能語音技術及產業化領域取得的突破性成果的高度認可。科大訊飛的這一成就,標志著其在人工智能領域的技術實力和創新能力已達到國際領先水平。 據「TMT星球」了解,科大…

WMV 視頻格式怎么轉換?WMV 視頻為什么不流行了?

目前有越來越多的視頻格式類型,如常見的 MP4、FLV、AVI 等等,而技術的演變也逐漸讓一些常見的視頻格式變的越來越少了。 今天我們一起來聊下 WMV 這個視頻格式,讓我們看看它的發展以及為什么現在越來越少人使用了。 什么是 WMV 視頻格式&…

Git 使用指南(附詳細解釋)

Git 是一個強大的版本控制系統,廣泛用于軟件開發中,用于跟蹤文件的更改、協作工作等。無論你是新手還是有經驗的開發者,掌握 Git 都是非常有益的。這篇博客將帶你了解 Git 的基本使用,希望能幫助你快速入門并有效使用 Git。 1. 創…

論文學習_Nebula: Self-Attention for Dynamic Malware Analysis

論文名稱發表時間發表期刊期刊等級研究單位Nebula: Self-Attention for Dynamic Malware Analysis2024年IEEE TIFSCCF A熱那亞大學1. 引言 研究背景與現存問題:動態惡意軟件分析是一項至關重要的任務,不僅對于檢測而且對于了解整個互聯網上廣泛傳播的威脅而言。 收集樣本后,…

【windows|011】TCP/IP5層模型常見協議及應用總結大全

🍁博主簡介: 🏅云計算領域優質創作者 🏅2022年CSDN新星計劃python賽道第一名 🏅2022年CSDN原力計劃優質作者 ? 🏅阿里云ACE認證高級工程師 ? 🏅阿里云開發者社區專家博主 💊交流社…

記一次面試

Linux查日志,怎么把最后1000行寫到另一個文件中 在Linux中,如果你想要查看日志文件的最后1000行并將其寫入到另一個文件中,你可以使用tail命令。tail命令默認用于輸出文件的最后幾行。 以下是如何使用tail命令將日志文件的最后1000行寫入到另…

java設計模式(二)工廠方法模式(pattern of factory method)

1、模式介紹: 工廠方法模式(pattern of factory method)是一種創建型設計模式,它定義了一個用于創建對象的接口,但將實際創建對象的工作延遲到子類中,這樣可以在不改變整體結構的情況下,通過子…

課時166:腳本發布_腳本技巧_技巧解讀

2.3.1 技巧解讀 學習目標 這一節,我們從 簡單腳本、復雜腳本、注意事項、小結 四個方面來學習 簡單腳本 簡介 1、手工執行的命令一定要可執行2、命令簡單羅列3、固定的內容變量化4、功能函數化復雜腳本 實踐 1、手工執行的命令一定要可執行2、根據發布流程編寫…

第二節課 6月13日 ssh密鑰登陸方式

centos和ubuntu openssh服務的初始安裝 一、實驗:ubuntu系統激活root用戶 ubuntu系統如何激活root用戶,允許root用戶ssh登陸? 1、ubuntu默認root用戶未設置密碼,未激活 激活root用戶,設置root密碼 sudo passwd roo…

vray燈光導致3dmax崩潰怎么解決?

啟動時崩潰 解決方法: 1、兼容模式重新打開 具體步驟:【選中會閃退3dmax版本】——【右鍵“兼容性疑難解答”】——【下一步】——【選擇Windows7/10】——【下一步】——【啟動程序】 啟動完成后,【下一步】——【為我保存這些設置】—完…

CI構建pipelines

目錄 構建代碼風格代碼覆蓋率靜態檢測 CI構建可以分為幾個部分:構建代碼(可以是多個平臺)——>UT用例 ——> 代碼覆蓋率 ——> 代碼靜態檢測 首先保證有可以CMakeLists.txt可以在本地正常編譯業務代碼和UT代碼 構建 首先需要有ci構…

強化學習專題:強化學習知識梳理(一)

2024/6/23: 前段時間有幸完成了大學期間的第一篇論文。在面試之前復盤一下關于自己論文中DQN的一些相關點。 淺談主要區別(在線 or 離線) 首先,一切的開始是強化學習中時序差分方程,這體現了強化學習方法的優化策略。在…

JAVAEE之網絡原理_傳輸控制協議(TCP)的滑動窗口、流量控制、擁塞控制、延遲應答、捎帶應答機制

前言 在前面幾節,我們講解了TCP協議的基本概念、報文格式。還介紹了確認應答機制、超時重傳、連接管理機制,在本節中 我們將會繼續介紹TCP協議的其他機制。 一、滑動窗口機制(效率機制) 在前面的章節中我們討論了確認應答策略&…