R語言探索與分析17-股票題目

Value at Risk（VaR）是一種統計技術，用于量化投資組合在正常市場條件下可能遭受的最大潛在損失。它是風險管理和金融領域中一個非常重要的概念。VaR通常以貨幣單位表示，用于估計在給定的置信水平和特定時間范圍內，投資組合可能遭受的最大損失。例如，一個1%的一日VaR為$1百萬意味著在任何給定的日子里，只有1%的概率投資組合的損失會超過100萬美元。

VaR的主要特點和考慮因素包括：

置信水平：這是VaR計算中的一個關鍵參數，表示損失不會超過VaR估計的概率。常見的置信水平有95%、99%等。

時間范圍：VaR估計的另一個關鍵方面是時間范圍，比如一天、一周或一個月。時間范圍越長，潛在損失的估計通常越大。

損失的估計：VaR提供了一個損失估計，但并不預測損失會發生的確切時間點。

方法論：計算VaR的方法有多種，包括歷史模擬法、方差-協方差法和蒙特卡洛模擬法。每種方法都有其優缺點，適用于不同類型的投資組合。

局限性：雖然VaR是一個有用的風險度量工具，但它也有局限性。它不考慮超過VaR估計值的極端損失，且對于非線性和復雜的金融工具可能不夠精確。

VaR在金融領域廣泛應用，特別是在風險管理、資產管理和資本要求計算方面。銀行、投資公司和其他金融機構使用VaR來監控和管理其暴露在市場、信用和其他風險中的資產組合。盡管它是一個有力的工具，但專業人士和監管機構都認識到，依賴單一風險度量標準是不足夠的，需要結合其他風險管理技術和工具。

這里我選取的是googel的股票，使用dailyReturn函數算出它的收益率，前五行如下：

# 計算股票的日度收益率  # 計算對數收益率
returns <- dailyReturn(GOOGL)
returns
# 繪制收益率時序圖
plot(returns, main = "Daily Returns of Alphabet (GOOGL) in the Last Year", ylab = "Daily Returns")# 計算收益率的均值、方差和標準差
mean_return <- mean(returns, na.rm = TRUE)
variance <- var(returns, na.rm = TRUE)
std_deviation <- sd(returns, na.rm = TRUE)# 輸出均值、方差和標準差
print(paste("Mean of returns:", mean_return))
print(paste("Variance of returns:", variance))
print(paste("Standard deviation of returns:", std_deviation))

???????????daily.returns

2023-08-15 -0.0100686499

2023-08-16 -0.0083217753

2023-08-17 ?0.0094794095

2023-08-18 -0.0189347291

2023-08-21 ?0.0071394947

接下來可視化：

接下來分別使用mean，var，sd函數進行算出結果：

Mean of returns: 0.000487064370016916

Variance of returns: 0.000277345687220339

Standard deviation of returns: 0.0166536989050583

對該股票采用Weibul1分布法估計其180天周期90%置信水平的VaR序列(用前180天歷史數據預測未來180天的日度VaR,并畫出Va 時序圖

# 自定義 Weibull 分布的估計函數
weibull_func <- function(data) {fit <- suppressWarnings(tryCatch(fitdistr(data, densfun = "weibull",start = list(shape = 1, scale = 1),  # 自定義合適的初始參數值method = "BFGS"),  # 自定義擬合方法error = function(e) NULL))return(fit)
}# 進行 Weibull 分布的擬合
fit_weibull <- weibull_func(positive_returns)# 使用擬合的 Weibull 分布計算 VaR
confidence_level <- 0.9
VaR_90 <- qweibull(1 - confidence_level, shape = fit_weibull$estimate[1], scale = fit_weibull$estimate[2])

90% 置信水平的 VaR： 0.0023112336283049

計算所有日期的 VaR并畫圖

另選一只股票，采用排序法計算其一年期 70%置信度的日度 VaR，若回測時次日跌幅超過 VaR 預測的闖值，則判定為一次“違約’。采用交易量、拆幅(最高價減最低價)和收益率MACDKDJOBVCCI等來預測違約估計 logit 模型，然后評價你的模型效果 (NP、ROC、CAP)，并提出些可行改進方案。

這里選取的是APPLE的股票數據，設置API接口獲取：

同樣也是計算日度收益率，前5行如下：

???????????daily.returns

2023-08-15 ?0.0000000000

2023-08-16 -0.0049591434

2023-08-17 -0.0145551339

2023-08-18 ?0.0028160920

2023-08-21 ?0.0077368331

計算采用排序法計算其一年期 70%置信度的日度 VaR，若回測時次日跌幅超過 VaR 預測的闖值，則判定為一次“違約’。寫成相應的代碼：

var_70 <- quantile(returns, 0.3) ?# 70%分位數即為VaR

default_event <- ifelse(returns < var_70, 1, 0)

default_event

default_event輸出示例如下：

???????????daily.returns

2023-08-15 ????????????0

2023-08-16 ????????????0

2023-08-17 ????????????1

2023-08-18 ????????????0

2023-08-21 ????????????0

接下來分別計算各個特征并且最終合并文件：

# 計算日度收益率
returns <- dailyReturn(AAPL$AAPL.Close)
returns
# 計算VaR
var_70 <- quantile(returns, 0.3)  # 70%分位數即為VaR
default_event <- ifelse(returns < var_70, 1, 0)
default_event# 計算交易量
volume <- AAPL$AAPL.Volume
volume
# 計算拆幅
range <- AAPL$AAPL.High - AAPL$AAPL.Low
range
# 計算收益率
returns <- dailyReturn(AAPL$AAPL.Close)
returns
# 計算技術指標
# 計算MACD指標
macd_data <- MACD(AAPL$AAPL.Close)
macd_data
# 計算KDJ指標
Hi <- AAPL$AAPL.High
Lo <- AAPL$AAPL.Low
Cl <- AAPL$AAPL.Close
# 假設N=9天
N <- 9# 計算RSV值
RSV <- (Cl - rollapplyr(Lo, width = N, min, align = "right")) / (rollapplyr(Hi, width = N, max, align = "right") - rollapplyr(Lo, width = N, min, align = "right")) * 100# 計算K值、D值和J值
K <- D <- J <- rep(NA, length(Cl))
for (i in N:length(Cl)) {if (i == N) {K[i] <- 50  # 初始K值為50D[i] <- 50  # 初始D值為50} else {K[i] <- (RSV[i] + (N - 1) * K[i - 1]) / ND[i] <- (K[i] + (N - 1) * D[i - 1]) / N}J[i] <- 3 * K[i] - 2 * D[i]
}# 將計算結果添加到數據框中
KDJ_data <- data.frame(Date = index(AAPL), K = K, D = D, J = J)
KDJ_data

最終數據合并如下：

	macd	signal	K	D	J	OBV
2023-08-15	0.502	0.607	56.791	56.537	57.299	43622593
2023-08-16	0.502	0.607	56.791	56.537	57.299	-3342264
2023-08-17	0.502	0.607	56.791	56.537	57.299	-69405146
2023-08-18	0.502	0.607	56.791	56.537	57.299	-8232996
2023-08-21	0.502	0.607	56.791	56.537	57.299	38078883
2023-08-22	0.502	0.607	56.791	56.537	57.299	80163128

	CCI	Returns	macd.1	macd_data	Volume	default_event
2023-08-15	15.587	0.000	0.502	0.607	43622593	0
2023-08-16	15.587	-0.005	0.502	0.607	46964857	0
2023-08-17	15.587	-0.015	0.502	0.607	66062882	1
2023-08-18	15.587	0.003	0.502	0.607	61172150	0
2023-08-21	15.587	0.008	0.502	0.607	46311879	0
2023-08-22	15.587	0.008	0.502	0.607	42084245	0

# 建立邏輯回歸模型

# 建立 Logit 模型
model <- glm(default_event ~ ., data = train, family = binomial)
model
# 在測試集上進行預測
predicted <- predict(model, newdata = test, type = "response")
predicted

理想情況下，ROC 曲線會向左上角彎曲，靠近左上角的（0,1）點，這表明模型具有很高的真正例率和很低的假正例率。在這張圖中，曲線開始時沿著 y 軸急劇上升，表明在低假正例率下模型能夠實現相對較高的真正例率。總體而言，這個 ROC 曲線表明模型在某些閾值設置下對正類的預測有一定的準確性。

Area under the curve: 0.9074

曲線下面積（AUC）為 0.9074 表示模型具有很高的區分能力。

# 繪制 CAP 曲線
cap_curve <- function(actual, predicted) {total <- length(actual)num_positive <- sum(actual == 1)# 確保排序后的實際值和預測值長度一致actual_sorted <- actual[order(predicted, decreasing = TRUE)]# 計算累積正例的比例cum_positive <- cumsum(actual_sorted == 1) / num_positive# 生成 x 和 y 值x_values <- c(0, (1:total) / total)y_values <- c(0, cum_positive)# 確保 x_values 和 y_values 長度一致if (length(x_values) != length(y_values)) {stop("Lengths of x_values and y_values are not equal.")}# 繪制 CAP 曲線plot(x_values, y_values, type = "l", col = "red", xlab = "Population", ylab = "Positive", main = "CAP Curve")abline(0, 1, col = "blue") # 隨機預測線lines(c(0, sum(actual == 1) / total, 1), c(0, 1, 1), col = "green") # 理想曲線
}# 調用函數繪制 CAP 曲線
cap_curve(test_data$default_event, predictions)

基于這些指標，以下是一些改進模型性能的策略：

數據重新采樣：如果數據集不平衡，即違約和非違約的案例數量有很大差異，可以嘗試過采樣少數類別或欠采樣多數類別。也可以使用合成數據生成技術，如 SMOTE，來合成新的正例。

特征工程：檢查是否有可能從現有數據中創建更有信息量的特征。評估并可能移除對預測不具有統計顯著性的特征。使用特征選擇技術來識別和保留最重要的特征。

模型調整：調整模型超參數，使用網格搜索或隨機搜索確定最佳參數。嘗試不同的模型算法，比如隨機森林、支持向量機或梯度提升機，并與當前的邏輯回歸模型比較。

閾值調整：改變分類的決策閾值，可能會提高正類別的預測準確性。

使用成本敏感學習，并為錯誤分類的類別分配不同的權重。

模型集成：使用集成方法如 Bagging 或 Boosting，這些方法可以提高模型的穩定性和性能。

考慮堆疊不同的模型來利用各自的優勢。

評估指標選擇：依據業務目標，選擇更合適的評估指標，例如利潤曲線，以確保模型優化方向與業務目標一致。

題目和代碼和數據

創作不易，希望大家多多點贊收藏和評論！