Statistics Toolbox

회귀 및 ANOVA

회귀

회귀를 사용하면 하나 이상의 예측자를 가진 함수로서 연속적인 응답 변수를 모델링할 수 있습니다. Statistics Toolbox는 선형 회귀, 일반화된 선형 모델, 비선형 회귀 및 mixed-effects 모델을 포함한 다양한 회귀 알고리즘을 제공합니다.

선형 회귀

선형 회귀는 하나 이상의 예측 변수를 가진 함수로서 연속적인 응답 변수를 설명하는 데 사용되는 통계적 모델링 기술입니다. 이는 복잡한 시스템의 동작을 이해하고 예측하거나 실험 데이터, 금융 데이터 또는 생물학 데이터를 분석하도록 돕습니다.

이 툴박스는 다음을 포함한 몇 가지 선형 회귀 모델 및 피팅 메서드를 제공합니다.

  • 단순: 하나의 예측자로 모델링
  • 다중: 여러 예측자로 모델링
  • 다변량: 여러 응답 변수로 모델링
  • 안정성: 이상값이 있는 모델링
  • 단계적: 자동 변수 선택으로 모델링
  • Regularized: 중복 예측자를 처리할 수 있고 ridge, lasso 및 elastic net 알고리즘을 사용하여 오버피팅을 방지할 수 있는 모델

계산 통계학: MATLAB을 사용한 특징 선택(feature selection), 정규화(regularization) 및 축소 36:51
상호 연관된 데이터가 있을 때 정확한 모델을 개발하는 방법을 알아봅니다.

비선형 회귀

비선형 회귀는 실험 데이터의 비선형 관계를 설명하는 데 도움이 되는 통계적 모델링 기술입니다. 비선형 회귀 모델은 보통 모델이 비선형 방정식으로 설명되는 모수적 모델로 간주됩니다. 일반적으로 비모수적 회귀에는 기계 학습 메서드가 사용됩니다.

이 툴박스는 또한 데이터의 이상값을 처리하기 위한 신뢰할 수 있는 비선형 피팅을 제공합니다.

MATLAB을 사용한 피팅: 통계, 최적화 및 Curve Fitting 38:37
MATLAB을 통해 회귀 알고리즘을 적용합니다.

일반화된 선형 모델

일반화된 선형 모델은 선형 메서드를 사용하는 특별한 경우의 비선형 모델입니다. 이 모델은 응답 변수가 응답의 예상되는 값이 선형 예측자와 어떻게 관련되어 있는지 설명하는 연결 함수와 비정규분포를 갖도록 허용합니다.

Statistics Toolbox는 일반화된 선형 모델을 다음의 응답 분포로 피팅하는 것을 지원합니다.

  • 보통(프로빗 회귀)
  • Binomial(로지스틱 회귀)
  • 포아송
  • 감마
  • 역 Gaussian
일반화된 선형 모델을 통한 데이터 피팅(예)
glmfitglmval을(를) 이용하여일반화된 선형모델을 피팅하고실행하는 방법.

Mixed-Effects 모델

선형 및 비선형 mixed-effects 모델은 그룹으로 수집 및 요약되는 데이터를 위한 선형 및 비선형 모델의 일반화입니다. 이러한 모델은 응답 변수와 독립 변수 사이의 관계를 하나 이상의 그룹화 변수에 따라 변화할 수 있는 계수를 통해 설명합니다.

Statistics Toolbox는 다음을 포함하여 다양한 연구 수행에 사용될 수 있는 중첩 및/또는 교차 임의 효과를 통한 다중 수준 또는 계층적 모델 피팅을 지원합니다.

  • 경시적 분석/패널 분석
  • 반복 측정 모델링
  • 성장 모델링
Graphique comparant le produit intérieur brut de trois états et ajusté à l’aide d’un modèle à effets mixtes multi-niveaux (gauche) et de la méthode des moindres carrés ordinaire (droite). La fonction fitlme de la Statistics Toolbox permet d’améliorer l’exactitude prédictive des modèles lorsque les données sont collectées et classées par groupe.
다중 수준 mixed-effects 모델(왼쪽)과 일반 최소제곱법(오른쪽)을 사용하여 피팅한 3가지 상태에 대한 Gross State Product를 비교하는 플롯. Statistics Toolbox의 fitlme 기능은 데이터를 그룹으로 수집하고 요약할 때 더 높은 예측 정확도로 모델을 생성할 수 있습니다.

모델 평가

Statistics Toolbox를 사용하면 다음과 같은 통계적 중요성과 goodness-of-fit 측정을 위한 테스트를 이용하여 회귀 알고리즘 모델 평가를 수행할 수 있습니다.

  • F-statistic 및 t-statistic
  • R2 및 adjusted R2
  • 평균 제곱 오류의 교차 검증(Cross-Validate)
  • AIC(Akaike information criterion) 및 BIC(Bayesian information criterion)

회귀 계수와 예측값 모두의 신뢰 구간을 계산할 수 있습니다.

비모수적 회귀

또한 Statistics Toolbox는 예측자와 응답 사이의 관계를 설명하는 모델을 지정하지 않고 가장 적합한 모델을 개발하기 위한 비모수적 회귀 기술을 지원합니다. 비모수식 회귀 기법은 회귀에 대한 관리식 기계 학습 아래에 보다 포괄적으로 분류될 수 있으며 의사 결정 트리와 boosted 및 bagged 회귀 트리를 포함합니다.

비모수적(Nonparametric) 피팅 4:07
변수 간의 관계를 기술하는 함수를 지정할 수 없을 경우, 예측 모델을 개발합니다.

ANOVA

ANOVA(Analysis of variance)는 서로 다른 소스에 샘플 변수를 할당하고 변수가 한 모집단 내에서 유래하는지 아니면 서로 다른 모집단에서 유래하는지 결정합니다. Statistics Toolbox는 다음과 같은 ANOVA 알고리즘과 관련 기술을 포함합니다.

다음: 기계 학습

평가판 사용 Statistics Toolbox

평가판 신청

Machine Learning with MATLAB

온라인 세미나 보기