業務相關

目錄

一、Spark

1.spark主要用來計算什么? 隨便說段代碼

2.spark 運行命令說一個,平常用哪些參數,怎么考慮的

3.spark shuffle的代碼有哪些,平日哪些操作涉及到shuffle了

4.計算中遇到最難解決的是什么?

5.Spark 調過哪些參數

二、Hive

1.壓縮格式比較

2.動態分區和指定分區的對比

3.計算最復雜的業務邏輯是什么

4.小文件治理怎么搞

5.再平衡怎么搞

6.開窗函數有哪些,用于哪里

7.關于數組的函數

8.hdfs block塊大小默認是多少,調過嗎?什么情況下調整?

三、數據倉庫

1.有多少表,表的數據量是多少

2.模型設計怎么做的(數據分層怎么做的)

3.高頻數據怎么做的

4.有哪些主題域 有哪些實體 有哪些維度

5.每日增量數據有多少

6.緩慢變化維的應用

7.拉鏈表的應用,拉鏈表的增量/全量統計

8.sqoop的同步效率

9.sqoop的數據傾斜

四、Python

1.pandas如何處理大規模數據

2.如何提高高并發

3.協程 進程 線程?

4.Fast Api 和 Flask

5.增量同步怎么做 全量同步怎么做?

6.Python 深拷貝 淺拷貝的使用場景


一、Spark

1.spark主要用來計算什么? 隨便說段代碼

2.spark 運行命令說一個,平常用哪些參數,怎么考慮的

3.spark shuffle的代碼有哪些,平日哪些操作涉及到shuffle了

4.計算中遇到最難解決的是什么?

Impala連接打滿

5.Spark 調過哪些參數

二、Hive

1.壓縮格式比較

2.動態分區和指定分區的對比

3.計算最復雜的業務邏輯是什么

4.小文件治理怎么搞

5.再平衡怎么搞

6.開窗函數有哪些,用于哪里

7.關于數組的函數

8.hdfs block塊大小默認是多少,調過嗎?什么情況下調整?

  • 默認128M 可調?
  • 小文件處理:若存儲大量小文件(如日志),調小塊大小(如64MB)可減少存儲浪費,但會增加NameNode元數據壓力。
  • ?大文件處理:對TB/PB級文件,調大塊(如256MB或512MB)可減少分塊數量,降低元數據開銷

三、數據倉庫

1.有多少表,表的數據量是多少


每日 zm_fund.fundperformance 135W條數據
假設7年 ZM_DW_ES.FUNDROLLSTATIS_JIXIAO 18億數據


基金數量統計: 正常 公募+私募+盡調 = 3+3+1 = 7W +投后1W +模擬10W =總共18W ?

? ? ? ? ? ? ? ? ? ? ? ? ? 實際 18W+模擬無效34W = 52W ,

fundid層100W
投后一萬只基金
朝陽43 W ?--> 朝陽庫有誤,現在只有兩三萬
聚源3W(2.9W)
盡調1W
脫敏模擬44W,有效10W
-----------------------------------------------
fundid層共100W
原始凈值數據 2.5億
插補凈值日頻 4億
插補凈值周頻 1億
----------------------------------------------
股:債:CTA:市場中性 12:4:2:1

2.模型設計怎么做的(數據分層怎么做的)

基于對外輸出標尺庫的數據,每類的評分數據 400w,

需要 有池子分類數據,基金凈值數據,實體主要就是基金,維度有策略分類和賽道分類

初始ODS層進行數據同步fundinitcode

然后 dwd層進行 基金每日績效統計 和 基金時序的績效統計

然后DWS 基金在股票型池子的時序績效評分?

然后 ADS 基金在股票型池子的時序的近系列的績效評分(多行) 到 最終的大寬表(多列)

ADS:股票多頭總分評分表,績效質量評分表,資產配置能力評分表,場景應對能力評分表 alpha獲取能力評分表

TiDB 查詢,對外api服務,sqoop 增量同步。?

ZM_DW_RANK.DW_FUND_SCORE_DAY_NORM_LONG  基金在股票型池子的時序的績效評分
ZM_DW_RANK.DW_FUND_SCORE_DAY_NORM_STATISPERIOD_LONG  基金在股票型池子的時序的近系列績效評分   hera985   a.statistic_date,a.statistic_period,a.rankconfigid,a.frequency,a.fund_id,a.zm_fund_id
zm_dw_rank.t_fund_stock_performance hera1015 近系列績效多行轉多列 max(case  a.statistic_date when 1 then a,daywinrate else NULL END)  AS total_daywinrate ,--成立以來_對比基準勝率zm_dw_rank.t_fund_stock_performance tidb 分區同步set hive.exec.dynamic.partition=true;  
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.dynamic.partitions=2000;
set hive.exec.max.dynamic.partitions.pernode=400;
set hive.optimize.sort.dynamic.partition=true;
--SET hive.map.memory.mb=10240;  -- 設置Map任務的內存為2GB
--SET hive.reduce.memory.mb=20480; -- 設置Reduce任務的內存為2GB
--SET hive.exec.reducers.bytes.per.reducer=314572800 ;-- 300M 設置每個Reducer處理的數據量。雖然這是控制Reducer數量的參數,
--但是通過調整它,可以間接影響Map任務的數量,因為Map和Reduce任務的數量通常是成比例的。INSERT OVERWRITE TABLE zm_dw_rank.t_fund_stock_performance PARTITION(statistic_date)select fund_id,zm_fund_id,a.rankconfigid AS category_id,b.rankconfigname AS category_name,
max(case  a.statistic_period when 74 then  a.daywinrate   else NULL END)            AS y5_daywinrate ,--近5年_對比基準勝率
max(case  a.statistic_period when 2 then   a.daywinrate    else NULL END)           AS year_daywinrate ,--今年以來_對比基準勝率
max(case  a.statistic_period when 1 then   a.daywinrate    else NULL END)           AS total_daywinrate ,--成立以來_對比基準勝率1 is_valid ,--是否有效
current_date() create_time, --創建時間
a.statistic_dateFROMzm_dw_rank.dw_fund_score_day_norm_statisperiod_long aLEFT JOIN  zm_ods_flare_fund.ods_FundRankConfig b on a.rankconfigid = b.rankconfigid
WHERE statistic_period IN (1, 2, 3, 5, 6, 7, 8, 9, 74)and a.rankconfigid  in (1660,1661,1662,1663,1664,1673)
--  and a.zm_fund_id = 1322647
--  and a.statistic_date = '2024-12-22'GROUP BY A.fund_id,A.zm_fund_id,A.rankconfigid,b.rankconfigname,a.statistic_date ,1,current_date();

基于什么需求,做了什么業務,有哪些表/字段,ODS層數據從哪兒來,DWD層數據怎么處理,ADS層什么數據,支撐哪些查詢 (建模方法論)

3.高頻數據怎么做的

4.有哪些主題域 有哪些實體 有哪些維度

5.每日增量數據有多少

6.緩慢變化維的應用

7.拉鏈表的應用,拉鏈表的增量/全量統計

8.sqoop的同步效率

9.sqoop的數據傾斜

四、Python

1.pandas如何處理大規模數據

2.如何提高高并發

3.協程 進程 線程?

4.Fast Api 和 Flask

每日并發量4000

5.增量同步怎么做 全量同步怎么做?

6.Python 深拷貝 淺拷貝的使用場景

7.Python瓶頸如何定位

--------------------------------------------------------------pyinstrument
from pyinstrument import Profiler

? ? profiler = Profiler()
? ? profiler.start()
? ? ErrorCode,message = service.get_updated_calculation(oldfundsyscode=121739,fundsyscode=10000063521,fundid=10000072227,familytype=2)
? ? profiler.stop()
? ? print(profiler.output_text(unicode=True, color=True))

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/73784.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/73784.shtml
英文地址,請注明出處:http://en.pswp.cn/web/73784.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LLM之RAG實戰(五十二)| 如何使用混合搜索優化RAG 檢索

在RAG項目中,大模型生成的參考內容(專業術語稱為塊)來自前一步的檢索,檢索的內容在很大程度上直接決定了生成的效果,因此檢索對于RAG項目至關重要,最常用的檢索方法是關鍵字搜索和語義搜索。本文將分別介紹…

[學成在線]07-視頻轉碼

視頻轉碼 視頻上傳成功后需要對視頻進行轉碼處理。 首先我們要分清文件格式和編碼格式: 文件格式:是指.mp4、.avi、.rmvb等這些不同擴展名的視頻文件的文件格式 ,視頻文件的內容主要包括視頻和音頻,其文件格式是按照一定的編碼…

Leetcode算法方法總結

1. 雙指針法解決鏈表/數組題目 只要數組有序,就要想到雙指針做法。還有二分法 回文串一般也會用到雙指針,回文串的長度由于可能是奇數也可能是偶數,所以在尋找時,既需要尋找奇數長度的回文串,也需要尋找偶數長度的回文…

一周掌握Flutter開發--9. 與原生交互(上)

文章目錄 9. 與原生交互核心場景9.1 調用平臺功能:MethodChannel9.1.1 Flutter 端實現9.1.2 Android 端實現9.1.3 iOS 端實現9.1.4 使用場景 9.2 使用社區插件9.2.1 常用插件9.2.2 插件的優勢 總結 9. 與原生交互 Flutter 提供了強大的跨平臺開發能力,但…

基于Flask的通用登錄注冊模塊,并代理跳轉到目標網址

實現了用戶密碼的加密,代理跳轉到目標網址,不會暴露目標路徑,未登錄的情況下訪問proxy則自動跳轉到登錄頁,使用時需要修改配置項config,登錄注冊頁面背景快速修改,可以實現登錄注冊模塊的快速復用。 1.app…

Java課程設計(雙人對戰游戲)持續更新......

少廢話,當然借助了ai,就這么個實力,后續會逐漸完善...... 考慮添加以下功能: 選將,選圖,技能,天賦,道具,防反,反重力,物理反彈,擊落…

Ai工作流工具有那些如Dify、coze扣子等以及他們是否開源

Dify (https://difycloud.com/) 核心定位:專業級 LLM 應用開發平臺,支持復雜 AI 工作流構建與企業級管理。典型場景:企業智能客服、數據分析系統、復雜自動化流程構建等。適合需要深度定制、企業級管理和復雜 AI 邏輯…

Debezium系列之:使用Debezium和Apache Iceberg構建數據湖

Debezium系列之:使用Debezium和Apache Iceberg構建數據湖 Debezium Server Iceberg“Debezium Server Iceberg” 消費者設置數據復制Upsert 模式保留已刪除的記錄使用Upsert模式追加模式優化批處理大小在數據分析的世界中,數據湖是存儲和管理大量數據以滿足數據分析、報告或機…

docker run -p 5000:5000 my-flask-app

docker run -p 5000:5000 my-flask-app代碼的意思是: 運行 my-flask-app 容器,并把 Flask 服務器的 5000 端口映射到本機的 5000 端口。 拆解解釋 docker run -p 5000:5000 my-flask-app? docker run → 運行一個 Docker 容器 ? -p 5000:5000 → 端口…

高光譜工業相機+LED光源系統助力材料分類和異物檢測、實現高速在線檢測

檢測光源包括可見光,如紅光、藍光和綠光以及其他波長的光,如紫外和紅外波長,可以選擇與檢測對象物相應的波長。但由于能夠照射的波長較窄,例如受到同色異物混入或多個素材的材質分類等,可能需要使用可照射多種波長的光…

Spring 攔截器(Interceptor)與過濾器(Filter)對比

Spring 攔截器(Interceptor)與過濾器(Filter)對比 核心對比表格 對比維度攔截器(Interceptor)過濾器(Filter)定義Spring MVC 提供的組件,集成于 Spring 處理器鏈。Servl…

VulnHub-FALL通關攻略

第一步:確定靶機IP為192.168.40.129 第二步:掃描后臺及開放端口 #開放端口 22 --- ssh 25 --- SMTP簡單郵件傳輸協議 80 --- HTTP萬維網傳輸信息協議 110 --- POP3郵件協議3 139 --- NetBIOS服務 443 --- https服務 445 --- SMB協議 3306 --- Mysql 808…

Qt 線程和 QObjects

線程和 QObjects QThread 繼承于 QObject。 它發出信號來指示線程開始或結束執行,并提供一些插槽。 更有趣的是,QObjects 可以在多個線程中使用,發出信號以調用其他線程中的插槽,并向 "生活 "在其他線程中的對象發布事件…

華為、浪潮、華三鏈路聚合概述

1、華為 鏈路聚合可以提高鏈路帶寬和鏈路冗余性。有三種類型,分別是手工鏈路聚合,靜態lacp鏈路聚合,動態lacp鏈路聚合。 手工鏈路模式:也稱負載分擔模式,需手動指定鏈路,各鏈路之間平均分擔流量。靜態LAC…

HarmonyOS NEXT 鴻蒙中關系型數據庫@ohos.data.relationalStore API 9+

核心API ohos.data.relationalStore API 9 數據庫 數據庫是存儲和管理數據的系統 數據庫(Database)是一個以特定方式組織、存儲和管理數據的集合,通常用于支持各種應用程序和系統的運行。它不僅是存放數據的倉庫,還通過一定的…

步進電機 cia402協議 報文自己的理解 (筆記)

1. cai402 協議是什么 CiA 402 協議(CAN in Automation 402),它是工業自動化領域中的一種通信協議,主要用于運動控制(如伺服驅動器、步進電機等)( )所屬標準 CiA 402 是 CANopen 應用…

鴻蒙攝像機,一場智能安防的“平權革命”

2025的春天,全國各行各業都感受到了普惠AI的魅力。大模型帶來的技術平權,讓每一個人都能輕松用上AI。 這時候,企業想知道,每時每刻離不開的攝像機,究竟什么時候才能迎來智能技術的平權與普惠。 博思數據研究中心的一份…

解決HuggingFaceEmbeddings模型加載報錯:缺少sentence-transformers依賴包

遇到報錯 報錯信息: Error loading model: Could not import sentence_transformers python package. Please install it with pip install sentence-transformers. 裝包信息: pip install modelscope langchain sentence_transformers langchain-huggingface on…

從泛讀到精讀:合合信息文檔解析如何讓大模型更懂復雜文檔

從泛讀到精讀:合合信息文檔解析如何讓大模型更懂復雜文檔 一、引言:破解文檔“理解力”瓶頸二、核心功能:合合信息的“破局”亮點功能亮點1:復雜圖表的高精度解析圖表解析:為大模型裝上精準“標尺”表格數據精準還原 功…

Python+requests實現接口自動化測試框架

為什么要做接口自動化框架 1、業務與配置的分離 2、數據與程序的分離;數據的變更不影響程序 3、有日志功能,實現無人值守 4、自動發送測試報告 5、不懂編程的測試人員也可以進行測試 正常接口測試的流程是什么? 確定接口測試使用的工具…