pROCパッケージの使い方
まず、pROCパッケージを使用してROC曲線を作成し、AUCを計算する例を示します。
# パッケージのインストールと読み込み
install.packages("pROC")
library(pROC)
# サンプルデータの読み込み
data(aSAH)
# 散布図の作成 データの外観を確認する
ggplot(aSAH, aes(x=wfns, y=s100b, color=outcome)) +
geom_point() +
labs(title="aSAH Data: wfns vs s100b",
x="wfns value",
y="s100b value")+
scale_y_continuous(limits = c(0, 1))
# ROC曲線の作成 s100b血清値でSAHの予後予測する設定
roc_obj <- roc(aSAH$outcome, aSAH$s100b)
# ROC曲線のプロット
plot(roc_obj, main="ROC Curve predicting outcome of SAH using s100b value")
# AUCの計算
auc_value <- auc(roc_obj)
print(paste("AUC:", auc_value))
# 感度、特異度、陽性的中率、陰性的中率を計算
coords_obj <- coords(roc_obj, x="best", ret=c("sensitivity", "specificity", "ppv", "npv"))
# 結果を出力
print(paste("感度:", coords_obj["sensitivity"]))
print(paste("特異度:", coords_obj["specificity"]))
print(paste("陽性的中率:", coords_obj["ppv"]))
print(paste("陰性的中率:", coords_obj["npv"]))
# 尤度比を算出、その前に改めて感度と特異度を取得
coords_obj <- coords(roc_obj, x="best", ret=c("sensitivity", "specificity"))
sensitivity <- coords_obj["sensitivity"]
specificity <- coords_obj["specificity"]
# 陽性尤度比 (LR+) と 陰性尤度比 (LR-) を計算
positive_likelihood_ratio <- sensitivity / (1 - specificity)
negative_likelihood_ratio <- (1 - sensitivity) / specificity
# 結果を出力
print(paste("陽性尤度比 (LR+):", positive_likelihood_ratio))
print(paste("陰性尤度比 (LR-):", negative_likelihood_ratio))
aSAHデータ(一部)
data:image/s3,"s3://crabby-images/585c4/585c4b09d9068b4f73573d2baf4e6aaf1b3fea03" alt=""
データの概観
data:image/s3,"s3://crabby-images/6577e/6577e3f75abfa315840fc97190fd6f6e48db9529" alt=""
plot出力
data:image/s3,"s3://crabby-images/854f7/854f77be514f64ba1842be8f5ee5827193c99e9b" alt=""
AUCの計算
s100bでoutcomeを予測する予後予測の性能としての計算
data:image/s3,"s3://crabby-images/e83e8/e83e8678597536622806a5910ca7d6d5ace99580" alt=""
感度・特異度・陽性的中率・陰性的中率
data:image/s3,"s3://crabby-images/f1cf0/f1cf0c9e8647b157ce8b3c2a3768988342d376db" alt=""
陽性尤度比・陰性尤度比
data:image/s3,"s3://crabby-images/045bc/045bc4043659b3790cc1ebce5dcf07c2c136e480" alt=""
小技
このパッケージ、パイプを使うと、だいぶシンプルで見やすくなります
ここでは予測に上述のs100bの代わりにwfnsを使用してみました
data(aSAH)
library(dplyr) #パイプを使用するためにパッケージを使用
roc2.1 <- aSAH %>% roc(outcome, wfns)
ggroc(roc2.1)
data:image/s3,"s3://crabby-images/13589/13589904058f67e066e183b5bbb0b0c22e37568c" alt=""
RのpROCパッケージの主な関数
関数名 | 説明 | 使用例 |
---|---|---|
roc() | ROC曲線を作成 | roc(response, predictor) |
plot() | ROC曲線を描画 | plot(roc_object) |
auc() | ROC曲線のAUCを計算 | auc(roc_object) |
ci() | ROC曲線の信頼区間を計算 | ci(roc_object) |
coords() | ROC曲線上の特定の点の座標を取得 | coords(roc_object, "best") |
ggroc() | ggplot2を使用してROC曲線を描画 | ggroc(roc_object) |
roc.test() | ROC曲線の統計的な比較 | roc.test(roc_object1, roc_object2) |
smooth() | ROC曲線を平滑化 | smooth(roc_object) |
var() | ROC曲線のAUCの分散を計算 | var(roc_object) |
ROCRパッケージの使い方
次に、ROCRパッケージを使用してROC曲線を作成し、パフォーマンスを評価する例を示します。
その前にiris データをプロット。ここではPetalLengthが5以上でvirginicaと判断する予測方法のパフォーマンスを調べるようにします
# 基本パッケージの読み込み
library(ggplot2)
# irisデータセットの読み込み
data(iris)
# 散布図の作成
ggplot(iris, aes(x=Petal.Length, y=Petal.Width, color=Species)) +
geom_point() +
labs(title="Iris Data: Petal Length vs Petal Width",
x="Petal Length",
y="Petal Width")
data:image/s3,"s3://crabby-images/78b0f/78b0f30e44207f2fc97b32e35f1343db0b8b356a" alt=""
# パッケージのインストールと読み込み
# install.packages("ROCR")
library(ROCR)
# irisデータセットの読み込み
data(iris)
# 二値分類のためのデータ準備
iris_binary <- iris
iris_binary$Species <- ifelse(iris$Species == "virginica", 1, 0)
# 予測値としてPetal.Lengthを使用し、閾値5で二値化
predictions <- ifelse(iris_binary$Petal.Length >= 5, TRUE, FALSE)
labels <- iris_binary$Species
# Predictionオブジェクトの作成
pred <- prediction(as.numeric(predictions), labels)
# パフォーマンスオブジェクトの作成
perf <- performance(pred, measure = "tpr", x.measure = "fpr")
# ROC曲線のプロット
plot(perf, main="ROC Curve with Petal Width Threshold")
# AUCの計算
auc_value <- performance(pred, measure = "auc")
auc_value <- auc_value@y.values[[1]]
print(paste("AUC:", auc_value))
結果のプロット
data:image/s3,"s3://crabby-images/1680b/1680bf1ae24c0a0a1f06c42b0cd838c021588dc2" alt=""
data:image/s3,"s3://crabby-images/eba4d/eba4d1d7b304ba5a5f319fca4d13c6b7ad2cf2f5" alt=""
結果が奇麗すぎ(データのプロット見たらわかるように、一つの変数で種をきれいに分離できますからね)