Main Content

얕은 다층 신경망 아키텍처

이 항목에서는 일반적인 얕은 다층 신경망 워크플로의 일부를 보여줍니다. 자세한 내용과 그 밖의 단계는 얕은 다층 신경망과 역전파 훈련 항목을 참조하십시오.

뉴런 모델(logsig, tansig, purelin)

아래에는 입력값이 R개인 간단한 뉴런이 나와 있습니다. 각 입력값에는 적절한 w로 가중치가 적용되어 있습니다. 가중치가 적용된 입력값과 편향의 합이 전달 함수 f의 입력값이 됩니다. 뉴런은 미분 가능한 임의의 전달 함수 f를 사용하여 출력값을 생성할 수 있습니다.

Schematic diagram of a general neuron. The neuron multiplies a input vector p by a weights vector w, sums the result, and applies a bias b. A transfer function f is then applied, generating output a.

다층 신경망에서는 주로 로그-시그모이드 전달 함수 logsig가 사용됩니다.

A plot of the log-sigmoid transfer function. For large positive inputs, the output tends to +1. For large negative inputs, the output tends to 0. An input of 0 gives an output of 0.5.

함수 logsig는 뉴런의 순 입력값이 음의 무한대에서 양의 무한대로 감에 따라 0과 1 사이의 출력값을 생성합니다.

또는 다층 신경망은 탄젠트-시그모이드 전달 함수 tansig를 사용할 수도 있습니다.

A plot of the tan-sigmoid transfer function. For large positive inputs, the output tends to +1. For large negative inputs, the output tends to -1. An input of 0 gives an output of 0.

시그모이드 출력 뉴런은 주로 패턴 인식 문제에 사용되는 반면 선형 출력 뉴런은 주로 함수 피팅 문제에 사용됩니다. 아래에는 선형 전달 함수 purelin이 나와 있습니다.

A plot of the linear transfer function. The output scales linearly with the input.

여기에서 설명하는 세 가지 전달 함수는 다층 신경망에서 가장 일반적으로 사용되는 전달 함수이긴 하나, 원하는 경우 다른 미분 가능한 전달 함수를 만들어서 사용할 수도 있습니다.

피드포워드 신경망

아래 왼쪽은 R개의 입력값을 가지는 logsig 뉴런 S개로 구성된 단층 신경망을 상세히 나타낸 것이고 오른쪽은 계층 도식입니다.

Schematic diagram showing a layer containing S logsig neurons.

피드포워드 신경망에는 주로 시그모이드 뉴런으로 구성된 하나 이상의 은닉 계층이 있고 그 뒤에 선형 뉴런으로 구성된 출력 계층이 옵니다. 신경망은 비선형 전달 함수를 갖는 뉴런으로 구성된 복수의 계층을 바탕으로 입력 벡터와 출력 벡터 사이의 비선형 관계를 학습할 수 있습니다. 선형 출력 계층은 함수 피팅(또는 비선형 회귀) 문제에 가장 자주 사용됩니다.

한편, 신경망 출력값에 제약 조건을 적용하려면(예: 0과 1 사이로 제한) 출력 계층은 시그모이드 전달 함수(예: logsig)를 사용해야 합니다. 신경망이 패턴 인식 문제(신경망에 의해 결정이 내려지는 경우)에 사용되는 경우가 여기에 해당합니다.

다층 신경망의 경우 계층 번호에 따라 가중치 행렬의 위 첨자가 정해집니다. 다음에 나오는 2계층 tansig/purelin 신경망에서 적절한 표기법이 사용된 것을 볼 수 있습니다.

A schematic diagram of a network containing two layers. A hidden layer receives an input vector p. The weights of the hidden layer are denoted with a superscript 1. An output layer receives the output of the hidden layer. The weights of the output layer are denoted with a superscript 1.

이 신경망은 일반적인 함수 근사기로 사용할 수 있습니다. 이 신경망은 은닉 계층에 뉴런이 충분히 주어진다면 유한한 개수의 불연속을 갖는 어떠한 함수도 임의로 근사할 수 있습니다.

지금까지 다층 신경망의 아키텍처를 정의해 보았습니다. 이어지는 섹션에서는 설계 프로세스에 대해 설명합니다.