이진 분류기에 관한 ROC 곡선 기반 최적 분류 절단치 결정
Determining the Optimal Cut-off Value based on ROC Curve for Binary Classifier
- 주제(키워드) 도움말 이진 분류기 , 혼동행렬 , 수신자 응답 특성 , 진양성율 , 위양성율 , 성능평가 측도 , 최적 절단치
- 발행기관 국립강릉원주대학교 산업대학원
- 지도교수 도움말 이상운
- 발행년도 2025
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 도움말 산업대학원 멀티미디어공학과
- 세부분야 해당없음
- 실제URI http://www.dcollection.net/handler/kangnung/000000012251
- UCI I804:42001-000000012251
- 본문언어 한국어
초록/요약 도움말
국문초록 이진 분류기에 관한 ROC 곡선 기반 최적 분류 절단치 결정 박 한 준 강릉원주대학교 산업대학원 멀티미디어공학과 이진분류기(binary classifier)의 성능 평가 측도(evaluation metric)로는 일반적으로 정확도(accuracy, Acc)를 적용한다. 그러나 정확도는 일반적으로 동등한 비율로 구성된 데이터 집합(balanced dataset)에 적합하며, 불균형 데이터(imbalanced dataset)인 경우 편향된 결과를 나타낸다. 따라서 정확도 대안으로 ROC 곡선(receiver operating characteristic curve)이나 P-R 곡선(precision-recall curve)을 활용한다. ROC 곡선은 소수와 다수 집단이 동등한 중요도인 경우, P-R 곡선은 소수집단이 보다 중요도를 갖는 경우에 활용된다. ROC 곡선은 개 데이터 각각에 대해 혼동행렬(confusion matrix)의 진 양성(true positive, TP), 위 양성(false positive, FP), 위 음성(false negative, FN)과 진 음성(true negative, TN)을 집계하여 실제 정답(actual true label, T)이 정상(N)인 들 중에서 위 양성 율(false positive rate, FPR)과 실제 환자(P)들 중에서 진 양성 율(true positive rate, TPR)을 계산한 (, ) 좌표 값을 연결한 곡선을 뜻한다. 이 과정은 수행 복잡도가 요구된다. 왜냐하면 개 데이터 각각의 절단치(cut-off value, C)를 기준으로 예측을 P와 N으로 설정하였을 때 TP, FP, FN, TN을 집계(count)해야 하기 때문이다. ROC 곡선의 아래쪽 면적(area under curve, AUC)을 해당 모델의 성능 평가 목적으로 사용하기도 한다. 그러나 ROC 곡선을 작도하는 최종 목적은 이진 분류기 모델이 어떤 절단치(C)를 기준으로 C 이상의 값(또는 확률)이면 예측을 양성(positive, P)로, C 이하이면 음성(negative, N)으로 할 것인가의 결정경계(threshold)를 결정하여 모델의 정확도를 확정하는 것이다. 개 데이터의 C들 중에서 최적의 절단 치(optimal cut-off value, )를 결정하는 가장 잘 알려진 방법으로는 Youden Index(Youden’s J statistic, J)=(TPR-TNR+1)로 평가한다. 본 논문은 최적 절단 치()를 결정하는 방법으로 CM의 TP, FP, FN, TN 집계없이 ROC 곡선 작도와, AUC 계산과 J를 쉽고 빠르게 결정하는 수행 복잡도의 ROC 그래프 방법(ROC graph method, ROC-GM)과 ROC 곡선 작도 없이 간략화된 CM 표(CM Table, CMT) 상에서 바로 를 결정하는 CM 표 방법(CM table method, CM-TM)을 제안한다. ROC 그래프 방법(ROC-GM)은 ROC 곡선을 작도하는데 있어 사전에 실제 정답(T)=P인 개수를 로, T=N인 개수를 으로 하여 FPR(X축)=개 눈금으로, TPR(Y축)=개 눈금으로 분할한 눈금 선을 가진 그래프를 사용한다. 이 그래프에서 T=P이면 위로, T=N이면 우측으로 한 눈금씩 이동하는 방법을 적용하였다. 또한 개 데이터 TPR 중에서 (0,0)과 (1,1)을 연결한 대각선(TNR+FPR=1, 50% 확률)의 아래 쪽 길이(FPR)를 뺀 대각선 위쪽 길이가 최대인 max(TPR-FPR)을 최적의 절단 치()로 결정하였다. CM-TM은 TP와 FP에 한해 T=P이면 TP를 +1(), T=N이면 FP를 +1()로 증가시키고, T=P에 대해서만 을 계산하여 max(TPR-FPR)을 최적 절단 치()로 결정하였다. 제안된 방법은 기존의 ROC 곡선에서의 (FPR, TPR) 좌표 계산법과 동일한 결과를 보였으며, 최적 절단치()도 쉽게 결정할 수 있음을 보였다.
more목차 도움말
제1장 서론 1
제2장 관련 연구와 문제점 5
2.1 혼동행렬과 ROC 곡선 5
2.2 최적 절단치 결정 8
2.3 ROC 곡선 작도법 9
2.4 ROC 곡선 법 문제점 17
제3장 이진분류기의 최적 분류경계 결정 방법 19
3.1 맨해튼 거리 탐색 ROC 곡선 작도법(그래프 방법) 19
3.2 CM 표 활용 방법(표 방법) 25
제4장 적용 및 결과 분석 29
4.1 벤치마킹 데이터 특성 분석 29
4.2 제안 모델 적용 33
4.3 적용 결과 및 분석 45
제5장 결론 및 향후 연구과제 48
참고문헌 50

