교차 검증이란?

Cross-validation은 아직 훈련하지 않은 새로운 데이터셋에 대한 머신러닝 알고리즘의 예측 성능을 평가하는 데 사용되는 모델 평가 기법입니다. 기존의 데이터셋을 분할하여, 이중 일부를 사용하여 알고리즘을 훈련시키고 나머지 데이터를 테스트에 사용합니다.

각각의 cross-validation 라운드에서 기존의 데이터셋을 훈련 세트와 테스트 세트로 임의 분할하게 됩니다. 이어서 훈련 세트를 사용하여 지도 학습 알고리즘을 훈련시키고 테스트 세트를 사용하여 성능을 평가합니다. 이 과정을 몇 차례 반복하고, 평균 cross-validation 오차가 성능 지표로 사용됩니다.

왜 Cross-Validation이 중요할까요?

모델을 훈련시킬 때, 너무 복잡하거나 너무 단순한 알고리즘으로 과적합하거나 과소적합하지 않는 것이 중요합니다. 훈련 세트와 테스트 세트를 적절히 선택해야 이러한 위험을 줄일 수 있습니다. 그러나 학습 결과와 테스트 유효성 결과를 모두 극대화하도록 데이터셋을 분할하기는 어렵습니다. 그래서 cross-validation을 활용하는 것입니다. Cross-Validation은 모델에 맞는 최적의 알고리즘을 찾을 수 있도록 데이터를 다양하게 분할하는 여러 가지 기법을 제공합니다.

또한 cross-validation은 아직 훈련에 사용하지 않은 테스트 데이터셋을 사용하여 오차를 계산함으로써 가장 성능이 우수한 모델을 선택하도록 해줍니다. 테스트 데이터셋은 모델의 정확도를 계산하고, 모델이 앞으로 데이터를 어떻게 일반화할지 계산하는 데 도움을 줍니다.

널리 쓰이는 Cross-Validation 기법

Cross-validation에 사용할 수 있는 기법은 많습니다. 그중 다음과 같은 기법들이 가장 널리 쓰이고 있습니다.

k-겹: 데이터를 대략 같은 크기로 임의 선정된 k개의 등분(또는 겹으로도 불림)으로 분할합니다. 이중 한 등분을 제외한 나머지 등분으로 모델을 훈련시키고, 훈련에 사용되지 않은 남은 한 등분을 사용하여 모델을 검증합니다. 각각의 등분이 정확히 한 번씩 검증에 사용되도록 이 과정을 k회 반복합니다. 전체 k개의 분할에 대한 평균 오차는 ε로 나타냅니다. 이는 Cross-Validation에 가장 널리 활용되는 기법이지만, 모델을 반복적으로 훈련시켜야 되므로 실행 시간이 오래 걸릴 수 있습니다. 아래 이미지에서 이 과정을 보여줍니다.

홀드아웃: 지정된 훈련 비율과 검증 비율을 사용해 데이터를 정확히 2개로 임의 분할합니다. 이 방법은 훈련과 테스트를 단 한 번만 하여, 큰 데이터셋에 대한 실행 시간을 줄여주지만, 작은 데이터셋에 대해 보고된 오차를 해석할 때에는 주의해야 합니다.
리브아웃: k-겹 접근 방법으로 데이터를 분할하되, 이때 k는 데이터 내 전체 관측값의 개수와 같게 하고 모든 데이터는 테스트 세트로 한 번 사용되게 합니다. LOOCV(leave-one-out cross validation)라고도 부릅니다.
반복 임의 부표본추출: 몬테카를로 방법을 사용하여 다수의 임의 데이터 분할을 생성하여 훈련 세트와 테스트 세트로 사용하고 모든 실행 결과를 집계합니다. 이 기법은 k-겹과 유사한 방식이지만 각각의 테스트 세트는 독립적으로 선택됩니다. 그래서 일부 데이터 포인트는 한 번 이상 테스트에 사용될 수 있습니다.
층화: 훈련 및 테스트 세트가 응답 변수와 목표 변수에 대략적으로 동일한 클래스 비율을 갖도록 데이터를 분할합니다.
재대입: 데이터를 분할하지 않고 모든 데이터를 모델 훈련에 사용합니다. 결과와 실제 값을 비교함으로써 오차를 평가합니다. 이 접근 방식은 성능에 대한 지나치게 낙관적인 추정을 낳는 경우가 많기 때문에 데이터가 충분하다면 사용하지 않는 게 좋습니다.

Cross-Validation은 훈련과 검증이 수 차례 이루어지기 때문에 계산 집약적인 작업이 될 수 있습니다. 그러나 모델을 과적합하거나 과소적합할 위험을 감소시키기 위해 모델 개발에서 아주 중요한 단계입니다. 모든 분할 세트가 독립적이기 때문에 이 분석을 병렬로 수행하여 과정의 속도를 높일 수 있습니다. 데이터셋이 클 경우, 홀드아웃 또는 재대입 기법을 사용하는 것이 좋고, k-겹 및 반복 임의 부표본추출과 같은 기법은 작은 데이터셋에 더 적합합니다.