적합도 평가하기

적합도를 평가하는 방법

하나 이상의 모델로 데이터를 피팅한 후에는 적합도를 평가해야 합니다. 첫 번째 단계로는 곡선 피팅기 앱에 표시된 피팅된 곡선을 살펴봐야 합니다. 이 외에도 툴박스는 선형 및 비선형 모수적 피팅에 대한 적합도를 평가할 수 있도록 다음과 같은 방법을 제공합니다.

통계 문헌에서 흔히 그렇듯이, 적합도라는 용어는 여기에서 몇 가지 의미로 사용됩니다. “적합한 피팅”이란 다음과 같은 모델일 수 있습니다.

최소제곱 피팅의 가정이 주어졌을 때, 데이터가 해당 모델로부터 도출되었다고 합리적으로 생각할 수 있을 만한 모델
적은 불확실성으로 모델 계수를 추정할 수 있는 모델
데이터에 있는 높은 변동성 비율을 설명할 수 있으며 높은 확실성으로 새로운 관측값을 예측할 수 있는 모델

나아가 용이하게 해석 가능한 단순한 모델의 경우처럼, 특정 응용 사례라는 점이 적합한 피팅을 얻는 데 있어 중요시되는 모델 피팅의 기타 여러 측면을 좌우할 수 있습니다. 여기에서 설명하는 방법은 이러한 모든 측면에서 적합도를 판단할 수 있도록 도와줍니다.

이러한 방법은 시각적 방법과 수치적 방법의 두 종류로 나뉩니다. 잔차와 예측한계를 플로팅하는 것은 그래픽을 이용해 육안으로 해석할 수 있도록 도와주는 시각적 방법이고, 적합도 통계량과 신뢰한계를 계산하는 것은 통계적 추론을 도와주는 수치적 방법입니다.

일반적으로, 시각적 방법은 전체 데이터 세트를 한 번에 볼 수 있고 모델과 데이터 사이의 다양한 관계를 손쉽게 표시해 주므로 수치적 방법보다 장점이 더 많습니다. 수치적 방법은 이보다 좁게 데이터의 특정 측면에 초점을 맞추며 해당 정보를 하나의 숫자로 압축하려는 경향이 있습니다. 실전에서는 데이터와 분석 요구 사항에 따라 두 가지 유형을 모두 사용하여 최적의 피팅을 정해야 할 수 있습니다.

이러한 방법을 사용했을 때 어떠한 피팅도 데이터에 대한 적합한 피팅이 아니라고 간주될 수도 있습니다. 이 경우에는 다른 모델을 선택해야 할 수 있습니다. 또한, 모든 적합도 측도가 특정 피팅이 적합함을 나타낼 수도 있습니다. 그러나 물리적 의미를 갖는 피팅된 계수를 추출하는 것이 목표인데 모델이 데이터의 물리성을 반영하지 않는다면 결과로 생성되는 계수는 쓸모가 없어집니다. 이 경우에는 데이터가 무엇을 나타내고 어떻게 측정되었는지를 이해하는 것이 적합도를 평가하는 것만큼 중요합니다.

적합도 통계량

시각적 방법을 사용하여 적합도를 평가한 후에는 적합도 통계량을 검토해야 합니다. Curve Fitting Toolbox™는 모수적 모델에 대해 다음과 같은 적합도 통계량을 지원합니다.

오차제곱합(SSE)
결정계수
오차에 대한 자유도(DFE)
수정된 결정계수
RMSE(RMS 오차)

현재 피팅에 대한 이러한 통계량은 곡선 피팅기 앱의 결과 창에 표시됩니다. 현재 곡선 피팅 세션의 모든 피팅에 대해 피팅 테이블 창에서 적합도 통계량을 비교할 수 있습니다.

명령줄에서 적합도 통계량을 검토하려면 다음 중 하나를 수행하십시오.

곡선 피팅기 앱에서 피팅과 적합도를 작업 공간으로 내보냅니다. 곡선 피팅기 탭의 내보내기 섹션에서 내보내기를 클릭하고 작업 공간으로 내보내기를 선택합니다.
fit 함수에 gof 출력 인수를 지정합니다.

오차제곱합

이 통계량은 응답 변수 값에 대한 피팅의 총 응답 변수 값 편차를 측정합니다. 잔차의 제곱합이라고도 하며, 보통 SSE라고 표시합니다.

$S S E = \sum_{i = 1}^{n} w_{i} {(y_{i} - {\hat{y}}_{i})}^{2}$

값이 0에 가까우면 모델의 랜덤 오차 성분이 작고 피팅이 예측에 더 유용할 것임을 나타냅니다.

결정계수

이 통계량은 피팅이 데이터의 변동성을 얼마나 잘 설명하는지 측정합니다. 달리 말하면, 결정계수는 응답 값과 예측된 응답 값 간 상관의 제곱입니다. 이는 다중 상관 계수의 제곱이라고도 하며 다중 결정계수라고도 합니다.

결정계수는 회귀의 제곱합(SSR)과 총 제곱합(SST)의 비율로 정의됩니다. SSR은 다음과 같이 정의됩니다.

$S S R = \sum_{i = 1}^{n} w_{i} {({\hat{y}}_{i} - \bar{y})}^{2}$

SST는 평균을 기준으로 하는 제곱합이라고도 하며, 다음과 같이 정의됩니다.

$S S T = \sum_{i = 1}^{n} w_{i} {(y_{i} - \bar{y})}^{2}$

여기서 SST = SSR + SSE입니다. 이러한 정의를 바탕으로 결정계수는 다음과 같이 표현됩니다.

$R-square = \frac{S S R}{S S T} = 1 - \frac{S S E}{S S T}$

결정계수는 0과 1 사이의 임의의 값을 가질 수 있습니다. 값이 1에 가까울수록 해당 모델에 의해 보다 많은 비율의 분산이 설명됨을 나타냅니다. 예를 들어, 결정계수 값이 0.8234라는 것은 피팅이 평균 근처에서 데이터의 총 변동 중 82.34%를 설명한다는 것을 의미합니다.

모델에서 피팅된 계수의 개수를 늘리면, 실질적인 의미에서 피팅이 개선되지는 않을지라도 결정계수는 커집니다. 이 상황을 방지하려면 아래에서 설명하는 자유도가 수정된 결정계수 통계량을 사용해야 합니다.

상수항을 포함하지 않는 방정식에 대해서 음수인 결정계수를 얻게 될 수 있습니다. 결정계수는 피팅에 의해 설명되는 분산의 비율로 정의되므로, 피팅이 실제로 단지 가로선을 피팅하는 것보다 나쁘다면 결정계수는 음수가 됩니다. 이 경우 결정계수는 상관의 제곱이라고 해석할 수 없습니다. 이러한 상황은 모델에 상수항을 추가해야 함을 나타냅니다.

자유도가 수정된 결정계수

이 통계량은 위에서 정의한 결정계수 통계량을 사용하며, 이를 잔차 자유도를 기준으로 수정합니다. 잔차 자유도는 응답 변수 값의 개수 n에서 응답 변수 값으로부터 추정한 피팅된 계수의 개수 m을 뺀 값으로 정의됩니다.

v = n – m

v는 제곱합을 계산하는 데 필요한 n개의 데이터 점과 관련된 독립적인 정보 조각의 개수를 나타냅니다. 파라미터가 유계이고 하나 이상의 추정값이 경계에 위치할 경우 해당 추정값은 고정된 것으로 간주됩니다. 자유도는 이러한 파라미터의 개수만큼 증가합니다.

수정된 결정계수 통계량은 중첩된 모델(각 모델이 직전 모델에 추가적인 계수를 더하는 일련의 모델) 두 개를 비교할 때 일반적으로 피팅 품질을 가장 잘 나타내는 지표입니다.

$adjusted R-square = 1 - \frac{S S E (n - 1)}{S S T (v)}$

수정된 결정계수 통계량은 1보다 작거나 같은 임의의 값을 가질 수 있습니다. 값이 1에 가까울수록 더 적합한 피팅임을 나타냅니다. 모델에 응답 변수를 예측하는 데 도움이 되지 않는 항이 포함된 경우 음수 값이 발생할 수 있습니다.

RMS 오차

이 통계량은 피팅 표준 오차 및 회귀 표준 오차라고도 합니다. 이 통계량은 데이터에 있는 확률적 성분의 표준편차 추정값이며, 다음과 같이 정의됩니다.

$R M S E = s = \sqrt{M S E}$

여기서 MSE는 다음과 같은 평균제곱오차 또는 잔차평균제곱입니다.

$M S E = \frac{S S E}{v}$

SSE와 마찬가지로, MSE 값이 0에 가까울수록 예측에 보다 유용한 피팅임을 나타냅니다.

참고 항목

fit