河北省大數據應用創新大賽樣題

**

河北省大數據應用創新大賽樣題

**
1. 在Linux下安裝Java并搭建完全分布式Hadoop集群。在Linux終端執行命令“initnetwork”,或雙擊桌面上名稱為“初始化網絡”的圖標,初始化實訓平臺網絡。
【數據獲取】
使用wget命令獲取JDK安裝包:
“wget -P /data http://house.tipdm.com/SZ-Competition/jdk-8u281-linux-x64.rpm”
使用wget命令獲取Hadoop安裝包:
“wget -P /data http://house.tipdm.com/SZ-Competition/hadoop-3.1.4.tar.gz”
使用wget命令獲取yarn-site.xml:
“wget -P /data http://house.tipdm.com/SZ-Competition/yarn-site.xml”
(運行引號中的所有代碼可將數據上傳到實訓平臺)
【文件讀取路徑】
“/data/jdk-8u281-linux-x64.rpm”
“/data/hadoop-3.1.4.tar.gz”
“/data/yarn-site.xml”
【答案提交】
根據賽題提供的“問題1答案報告(模擬試題).docx”文檔,將最終答案的實現命令、運行截圖整理入文檔,并以“手機號+問題1”命名進行提交,如“XXX+問題1”文件名。31分
(1)在master節點下,執行命令安裝JDK1.8。對安裝進度100%的結果進行截圖。1分
(2)編輯“/etc/profile”文件,添加Java的環境變量,并且使配置生效。對添加至“/etc/profile”文件的內容進行截圖。1分
(3)將JDK安裝包發送至slave1與slave2節點,在slave1與slave2節點下安裝JDK并且配置Java的環境變量并使配置生效。對slave1與slave2節點下添加至“/etc/profile”文件的內容進行截圖。2分
(4)在master、slave1和slave2三個節點分別執行“java -version”,驗證JDK安裝成功并對master、slave1和slave2三個節點的輸出結果進行截圖。1分
(5)在master節點下,解壓Hadoop安裝包至“/usr/local”目錄。解壓后使用命令“ll /usr/local/”并對命令運行結果進行截圖。1分
(6)在master節點下,進入“/usr/local/hadoop-3.1.4/etc/hadoop/”路徑,修改Hadoop配置文件“core-site.xml”,設置HDFS的默認地址與端口(fs.defaultFS),設置HDFS的臨時路徑(hadoop.tmp.dir),對配置完成后的“core-site.xml”文件內容進行截圖。2分
(7)在master節點下,修改Hadoop運行環境配置文件“hadoop-env.sh”以及YARN框架運行環境配置文件“yarn-env.sh”,添加Java的環境變量,并設置使用HDFS以及YARN框架的用戶為root。分別對配置完成后的“hadoop-env.sh”和“yarn-env.sh”文件的內容進行截圖。2分
(8)在master節點下,修改HDFS配置文件“hdfs-site.xml”,設置Namenode數據存儲的路徑(dfs.namenode.name.dir)以及Datanode數據存儲的路徑(dfs.datanode.data.dir),設置HDFS文件塊的副本數(dfs.replication)為2。對配置完成后的“hdfs-site.xml”文件內容進行截圖。3分
(9)在master節點下,修改MapReduce配置文件“mapred-site.xml”,設置執行MapReduce作業的框架(mapreduce.framework.name)為YARN,設置MR App Master的環境變量(yarn.app.mapreduce.am.env、mapreduce.map.env和mapreduce.reduce.env),以及設置MapReduce作業所需的類路徑CLASSPATH(mapreduce.application.classpath)。對配置完成后的“mapred-site.xml”文件內容進行截圖。5分
(10)在master節點下,獲取已完整配置的“yarn-site.xml”,復制到Hadoop對應的配置文件目錄并替換。替換完成后打開“yarn-site.xml”對文件內容進行截圖。1分
(11)在master節點下,修改workers文件,設置為slave1與slave2。對workers的文件內容進行截圖。2分
(12)發送master中的Hadoop至slave1與slave2節點。發送成功后分別在slave1與slave2節點上執行“ll /usr/local/”,并對命令的運行結果進行截圖。2分
(13)在三個節點的“/etc/profile”添加Hadoop路徑(HADOOP_HOME),并且使配置生效。對master、slave1、slave2三個節點添加至“/etc/profile”的內容進行截圖。1分
(14)格式化NameNode并啟動Hadoop集群(包括HDFS、YARN和historyserver)。對格式化NameNode的結果進行截圖(即顯示“successfully formatted”字樣),并且對啟動Hadoop集群的命令執行結果進行截圖。3分
(15)在master、slave1和slave2三個節點分別執行“jps”,驗證Hadoop集群啟動成功并且對master、slave1和slave2三個節點的輸出結果進行截圖。3分
附件 問題1答案報告(模擬試題).docx
進入實訓環境
你的答案:
上傳答案附件
2.請依據題目要求運用Python語言采集二手房網址的房源信息,其網址為“http://house.tipdm.com/spider/fyxx/index.html”。
【答案提交】
提交代碼文件(.ipynb格式文件)和采集數據(result2_1.xlsx和result2_2.xlsx)。文件使用壓縮包的形式上傳,并以“手機號+問題2”命名,如“XXX+問題2”文件名。
注:為確保拿到相應分數,請務必提交采集數據result2_1.xlsx和result2_2.xlsx。20分
(1)解析二手房網址,采集前15頁(包含第15頁)二手房具體房源信息網址,并將采集結果存于Excel文件,保存路徑設定為“/data/result2_1.xlsx”,編碼格式為“utf-8”。
6分
(2)采集二手房信息的標題、戶型、朝向、樓層、區域、單價和總價,其中單價和總價不含價格單位,如總價信息為“45”,并將采集數據整理為DataFrame數據框形式。
12分
(3)將數據以“[‘標題’,‘戶型’,‘朝向’,‘樓層’,‘區域’, ‘單價’,‘總價’]”中文名稱設定列名,最終將數據保存為Excel文件,保存路徑設定為“/data/result2_2.xlsx”,編碼格式為“utf-8”。2分
進入實訓環境
你的答案:
上傳答案附件
3.基于二手房房價數據,根據題目要求運用Python語言的數據分析知識對數據進行清洗與挖掘。(文件名及路徑為“/data/SecondhandHouseV3.csv”)
【數據獲取】
①使用wget命令獲取SecondhandHouseV3.csv:
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouseV3.csv”
(運行引號中的所有代碼可將數據上傳到實訓平臺)
方法②下載題目附件中的數據,上傳到實訓平臺中
【文件讀取路徑】
“/data/SecondhandHouseV3.csv”
【答案提交】
提交代碼文件(.ipynb格式文件)和處理后的二手房屋數據(result3.csv)。文件使用壓縮包的形式上傳,并以“手機號+問題3”命名,如“XXX+問題3”文件名。
注:為確保拿到相應分數,請務必提交處理后的二手房屋數據result3.csv。20分
(1)刪除數據中含有“暫無”字符與缺失值(NAN)的行數據。4分
(2)對完全重復的行數據進行刪除,只保留第一次出現的重復行數據。3分
(3)刪除“總價”列的價格單位“萬”,僅保留數值,并將其數據類型轉換為浮點型。4分
(4)刪除“總價”列數值大于200的行數據。2分
(5)將“區域”列中的“城關區”改為“城關”。2分
(6)刪除“戶型”、“建筑年代”和“住宅類別”列。3分
(7)完成上述步驟后,將處理后的二手房屋數據保存為CSV文件,保存路徑設定為“/data/result3.csv”,編碼格式為“utf-8”。2分
附件 SecondhandHouseV3.csv
進入實訓環境
你的答案:
上傳答案附件
4.基于二手房房價數據,根據題目要求運用數據挖掘與可視化知識對數據進行統計與基本圖形繪制。(文件名及路徑為“/data/SecondhandHouse_view.csv”)
【數據獲取】
方法①使用wget代碼獲取數據:
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_view.csv”
(運行引號中的所有代碼可將數據上傳到實訓平臺)
方法②下載題目附件中的數據,上傳到實訓平臺中
【文件讀取路徑】
“/data/SecondhandHouse_view.csv”
【答案提交】
根據賽題提供的“問題4答案報告(模擬試題).docx”文檔,將最終答案的結果圖(統計結果+可視化繪圖結果)整理入文檔,以“手機號+問題4”命名,如“XXX+問題4”文件名,并提交代碼文件(.ipynb格式文件),文件使用壓縮包的形式上傳,并以“手機號+問題4”命名,如“XXX+問題4”文件名15分
(1)繪制不同裝修程度的二手房存量分布環形圖:統計不同裝修程度的二手房數量;根據統計數據,設定環形圖展示百分比(autopct),其中百分比保留小數點后1位(如12.3%);展示環形圖的圖例,指定圖例位于左上角。4分
(2)根據“單價=總價/建筑面積”公式,計算二手房單價,運用分組聚合操作,對“房齡”進行分組,統計各分組“總價”列和二手房單價的平均值,并按照房齡進行排序(從小到大),展示前3行,對展示結果進行截圖。3分
(3)根據題(2)統計結果,繪制二手房不同房齡的平均房價和單價折線圖:將畫布分成2行1列的2個子圖,子圖1繪制不同房齡的平均房價折線圖,子圖2繪制不同房齡的平均單價折線圖;設定x軸和y軸標題;設定x軸刻度標簽(xticks)為具體的房齡數值區間。8分
附件 問題四數據及提交模板.zip
進入實訓環境
你的答案:
上傳答案附件
5.基于二手房房價數據,根據題目要求運用機器學習知識實現數據建模與評估。
(文件名及路徑為“/data/SecondhandHouse_train.csv”)

【數據獲取】
方法①使用wget代碼獲取數據:
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_train.csv”
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_test.csv”
(運行引號中的所有代碼可將數據上傳到實訓平臺)
方法②下載題目附件中的數據,上傳到實訓平臺中
【文件讀取路徑】
“/data/SecondhandHouse_train.csv”
“/data/SecondhandHouse_test.csv”
【答案提交】
最終答案需提交代碼文件(.ipynb格式文件)和結果數據(result5_1.csv和result5_2.csv),文件使用壓縮包的形式上傳,并以“手機號+問題5”命名,如“XXX+問題5”文件名。15分
(1)特征編碼:將“SecondhandHouse_train.csv”數據的“朝向”、“樓層”、“裝修”、“電梯”、“產權性質”、“建筑結構”、“建筑類別”、“區域”和“學校”9列數據的類型由字符型轉化為數值型,如“電梯”列,原{‘有’,‘無’}轉化為{1,0}。特征編碼后的數據保存為CSV文件,保存路徑設定為“/data/result5_1.csv”,編碼格式為“utf-8”。9分
(2)模型訓練與評估:使用sklearn估計器構建回歸模型,使用最優模型預測“SecondhandHouse_test.csv”數據總價,提取“id”列和預測的“總價”列,并將提取結果保存為CSV文件,保存路徑設定為“/data/result5_2.csv”,編碼格式為“utf-8”。6分
附件 問題五數據.zip
進入實訓環境
你的答案:
上傳答案附件

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/80466.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/80466.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/80466.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【數據可視化-21】水質安全數據可視化:探索化學物質與水質安全的關聯

🧑 博主簡介:曾任某智慧城市類企業算法總監,目前在美國市場的物流公司從事高級算法工程師一職,深耕人工智能領域,精通python數據挖掘、可視化、機器學習等,發表過AI相關的專利并多次在AI類比賽中獲獎。CSDN…

DC-2尋找Flag1、2、3、4、5,wpscan爆破、git提權

一、信息收集 1、主機探測 arp-scan -l 探測同網段2、端口掃描 nmap -sS -sV 192.168.66.136 80/tcp open http Apache httpd 2.4.10 ((Debian)) 7744/tcp open ssh OpenSSH 6.7p1 Debian 5deb8u7 (protocol 2.0)這里是掃描出來兩個端口,80和ssh&…

SQLMesh 表格對比指南:深入理解 table_diff 工具的實際應用

在數據集成和轉換過程中,確保數據模型的一致性和準確性至關重要。SQLMesh 提供了一個強大的 table_diff 工具,可以幫助用戶比較 SQLMesh 模型或數據庫表/視圖的架構和數據。本文將通過具體示例詳細說明如何使用 table_diff 工具進行跨環境比較和直接比較…

重構智能場景:艾博連攜手智譜,共拓智能座艙AI應用新范式

2025年4月24日,智能座艙領域創新企業艾博連科技與國產大模型獨角獸智譜,在上海國際車展艾博連會客廳簽署合作協議。雙方宣布將深度整合智譜在AI大模型領域的技術積淀與艾博連在汽車智能座艙場景的落地經驗,共同推進下一代"有溫度、懂需求…

vscode flutter 插件, vscode運行安卓項目,.gradle 路徑配置

Flutter Flutter Widget Snippets Awesome Flutter Snippets i dart-import Dart Data Class Generator Json to Dart Model Dart Getters And Setter GetX Snippets GetX Generator GetX Generator for Flutter flutter-img-syncvscode運行安卓項目,.gradle 路徑配…

Parasoft C++Test軟件單元測試_對函數打樁的詳細介紹

系列文章目錄 Parasoft C++Test軟件靜態分析:操作指南(編碼規范、質量度量)、常見問題及處理 Parasoft C++Test軟件單元測試:操作指南、實例講解、常見問題及處理 Parasoft C++Test軟件集成測試:操作指南、實例講解、常見問題及處理 進階擴展:自動生成靜態分析文檔、自動…

c# TI BQFS文件格式詳解及C#轉換

FlashStream文件格式詳解及C#轉換 一、FlashStream文件格式詳細解讀 文件概述 FlashStream文件是TI用于配置電池電量計的文本文件格式,主要特點: ? 純文本格式,使用ASCII字符? 每行一條指令 ? 分號(;)開頭的行為注釋 ? 主要包含三種指令類型:寫命令、比較命令和延時…

k8s中pod報錯 FailedCreatePodSandBox

問題現象: 創建容器時出現一下情況 而且刪掉控制器的時候pod還會卡住 解決: 將calico的pod重新刪掉。其中有1個控制器pod以及3個node pod 刪掉后,大概10來秒就重新創建完成了。 然后現在在使用kubectl apply -f 文件.yaml 就可以正常創…

分布式事務 兩階段提交協議(2PC的原理、挑戰)

引言:分布式事務的挑戰 在分布式系統中,數據和服務往往分布在多個節點上。例如,一個電商下單操作可能涉及訂單服務、庫存服務和支付服務,這三個服務需要協同完成一個事務:要么全部成功,要么全部失敗。這種…

Jenkins Pipeline 構建 CI/CD 流程

文章目錄 jenkins 安裝jenkins 配置jenkins 快速上手在 jenkins 中創建一個新的 Pipeline 作業配置Pipeline運行 Pipeline 作業 Pipeline概述Declarative PipelineScripted Pipeline jenkins 安裝 安裝環境: Linux CentOS 10:Linux CentOS9安裝配置Jav…

【CF】Day43——Codeforces Round 906 (Div. 2) E1

E1. Doremys Drying Plan (Easy Version) 題目: 思路: very好題,加深對掃描線的應用,值得深思 由于k 2,那我們就可以使用簡單一點的方法來寫 題目可以轉化為:給定n個線段,現在讓你刪去2條線段…

電子設備的“記憶大腦”:NAND、NOR、EEPROM誰在掌控你的數據?

大家好,我是硅言。存儲芯片是電子設備的“記憶大腦”,未進入存儲行業工作之前,一聽到NAND、NOR、EEPROM這些專業名詞就頭大。本文用通俗的語言,帶大家了解這三種常見存儲芯片的核心區別和應用場景。 一、存儲芯片的“門派”&#…

可視化程序設計|| 實驗三:C#面向對象編程(二)

一、實驗目的 1.加深理解面向對象編程的概念,如類、對象、實例化等。 2.熟練掌握類的封裝、繼承和多態機制。 3.掌握編程常用的幾種排序算法。 4.理解異常的產生過程和異常處理的概念,掌握C#異常處理的方法。 5.能夠將面向對象思想應用與編程實踐&a…

STM32MPU開發之旅:從零開始構建嵌入式Linux鏡像

前言 在工業4.0與邊緣計算深度融合的今天,STM32MP257F作為意法半導體第二代工業級64位微處理器的旗艦產品,憑借異構計算架構、1.35 TOPS邊緣AI算力和軍工級安全特性,已成為工業自動化、機器視覺和新能源控制等領域的標桿方案。 性能躍遷的異…

大模型應用開發(PAFR)

Prompt問答 特征:利用大模型推理能力完成應用的核心功能 應用場景: 文本摘要分析 輿情分析 坐席檢查 AI對話 AgentFunction Calling 特征:將應用端業務能力與AI大模型推理能力結合,簡化復雜業務功能開發 應用場景: 旅行指南 數據…

SpringClound 微服務分布式Nacos學習筆記

一、基本概述 在實際項目中,選擇哪種架構需要根據具體的需求、團隊能力和技術棧等因素綜合考慮。 單體架構(Monolithic Architecture) 單體架構是一種傳統的軟件架構風格,將整個應用程序構建為一個單一的、不可分割的單元。在這…

WebRTC服務器Coturn服務器用戶管理和安全性

1、概述 Coturn服務器對用戶管理和安全方面也做了很多的措施,以下會介紹到用戶方面的設置 1.1、相關術語 1.1.1 realm 在 coturn 服務器中,域(realm)是一種邏輯上的分組概念,用于對不同的用戶群體、應用或者服務進行區…

基于opencv和PaddleOCR識別身份證信息

1、安裝組件 pip install --upgrade paddlepaddle paddleocr 2、完整code import cv2 import numpy as np from paddleocr import PaddleOCR# 初始化 PaddleOCR use_angle_clsTrue, lang"ch", det_db_thresh0.1, det_db_box_thresh0.5)def preprocess_image(image…

【6】GD32 高級通信外設 CAN、USBD

高級通信外設:CAN、USBD CAN CAN簡介、主要功能與相關API回環模式收發發送特定ID的數據幀實驗CAN數據幀的接收實驗使用過濾器接收特定的數據幀 USBD USB通信簡介USBD設備固件庫架構、分層文件與庫函數說明USBD模擬鍵盤應用USBD虛擬串口應用USBD模擬U盤應用

【LLM+Code】Windsurf Agent 模式PromptTools詳細解讀

一、前言 https://windsurf.com/ https://windsurf.com/blog/why-we-built-windsurf https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools/tree/main/Windsurf 二、System Prompt 相比于cursor和claude code, windsurf的system prompt非常長&am…