다층신경망의 다양한 연결구조와 학습 성능 분석
Various Link Structures and Performance Analysis of Multilayer Neural Network
초록/요약
요 약 신경망은 생물학적 뇌 구조와 동작을 모사한 계산모델이다. 가장 흔하게 사용하는 다층신경망(Multilayer Neural Network)은 여러 개의 레이어 즉, 층으로 구성된 다층 전진전파(Feed Forward) 신경망이고 학습 알고리즘은 오류역전파(Back Propagation) 알고리즘을 사용한다. 다층신경망의 경우 계산상의 편의성을 위하여 인접한 뉴런들로만 연결되는 완전연결을 가지고 있다. 또한, 학습을 위한 가중치 연결 네트워크는 초기의 네트워크 연결에 고정되어있다. 이러한 연결구조는 학습이 완료될 때까지 완전연결 구조로 가중치 수정량을 계산하게 된다. 다층신경망의 오류역전파 알고리즘은 각 레이어의 뉴런과 뉴런 사이의 연결강도를 편미분의 연쇄법칙(Chain Rule)을 이용한다. 즉, 기울기(Gradient) 기반으로 연결 강도를 조절한다. 기울기 기반의 방법은 미분 값의 변화량이 네트워크 출력에 작은 변화를 발생시킨다면 네트워크는 오류역전파 알고리즘을 효과적으로 학습시킬 수 없게 되는 Vanishing Gradient 문제가 발생한다. 반면, 뇌 신경망은 뉴런들 사이에 수많은 시냅스가 복잡한 그물처럼 연결되어 있다. 뉴런들 사이의 연결강도에 따라 연결구조가 변하는 것을 뇌 가소성(Brain Plasticity)이라 한다. 이러한 뇌 가소성은 신경망의 활성함수 및 연결구조와 같으며 신경망의 학습과 깊은 관계가 있다. 뇌 신경망의 시냅스는 다양한 신경 전달활동에 의해 신경망의 구조와 속도변화를 일으킨다. 뇌 신경망의 연결구조는 학습이라는 뇌의 특수한 기능을 만든다. 학습은 뇌 피질지도의 재조직화, 뉴런의 수상돌기, 그리고 새로운 뉴런의 생성을 통해 일어난다. 또한, 뇌 신경망 뉴런들 사이에 레이어의 구분이 없으며 각 레이어에 위치한 뉴런은 인접한 레이어의 뉴런들로만 연결되어 있지 않다. 본 논문에서는 뇌 신경망 구조를 복잡계 네트워크로 보았다. 기존 신경망 연결구조는 계산상의 편의성을 고려한 인접한 레이어들로만 연결이 되는 완전연결 구조로 뉴런들 사이의 평균 경로 길이가 상대적으로 긴 정규그래프에 가깝다. 뇌 신경망 연결구조와 같이 입력 신호를 신경망 전체에 빠르고 고르게 전달하려면 평균 경로 길이가 짧은 복잡계 네트워크 형태로 다층신경망에 확장된 연결구조를 제안하고 분석하였다. 먼저, 기존 다층신경망 연결구조와 확장된 연결구조의 가중치 수정량이 미분에 의해 빠른 속도로 수렴하여 학습 인식률이 저하되는 Vanishing Gradient 문제를 확인하기 위하여 시각화하였다. 연결구조들은 레이어가 깊어질수록 입력레이어와 마지막 은닉레이어가 연결되어 있는 연결구조가 학습 인식률이 높음을 확인하였다. 두 번째로, 다층신경망의 연결구조는 전진전파의 연결구조로 출력에 가장 가까운 은닉레이어가 경로 길이를 나타내게 된다. 이러한 점에 착안하여 다층신경망과 복잡계 네트워크의 형태를 적용한 확장된 연결구조의 평균 경로 길이를 계산하였다. 제안한 확장된 연결구조의 평균 경로 길이는 기존 다층신경망의 평균 경로 길이보다 0.005% ~ 0.011% 더 긴 경우의 연결구조보다 0.238% ~ 1.091% 더 짧은 확장된 연결구조가 학습 인식률이 높았다. 그러나 이보다 더 짧은 평균 경로 길이를 가진 연결구조는 학습 인식률이 낮았다. 세 번째로, 확장된 연결구조의 추가된 가중치 연결 수에 따른 학습 속도의 관계를 분석하여 보았다. 평균 학습 속도를 측정하여 본 결과, 깊이별 확장된 연결구조는 기존 다층신경망과 비교하여 추가된 연결 수가 0.894% ~ 8.942%로 아주 적은 연결구조를 추가하였다. 극히 적은 연결 수를 추가할 경우 학습 속도에 영향을 미치지 않음을 확인하였다. 네 번째로, 가중치 연결 수에 따른 은닉레이어의 깊이별 학습 인식률을 확인하였다. 다층신경망에 레이어별 무작위 연결구조를 추가한 경우가 레이어가 깊어져도 우수한 학습 인식률을 보였음을 확인하였으며 미분에 의해 가중치 수정량이 사라지는 문제가 개선될 수 있음을 확인하였다. 본 논문에서는 뉴런의 활성함수로 시그모이드 함수를 사용하였다. 추후 다양한 활성함수를 사용하여 성능을 분석하고 특히 기울기 소실 문제를 심도 있게 분석할 것이다. 또한, 이를 딥러닝을 위한 다양한 신경망에 적용해 볼 것이다.
more초록/요약
Abstract Neural Networks are computational models that simulate biological Brain structures and behaviors. The most commonly used Multilayer Neural Network is a Multilayer feedforward Neural Network composed of several layers, ie layers, and the learning algorithm uses a Back Propagation Algorithm. In the case of a Multilayer Neural Network, it has a full connection that connects only to adjacent Neurons for computational convenience. Also, the weighted connection network for learning is fixed to the initial network connection. This Augmented Connection Structure computes the weighted quantities in a fully connected structure until learning is complete. The Error Propagation Algorithm of the Multilayer Neural Network uses the chain rule of the partial differentiation between the Neurons and the Neurons in each layer. That is, the connection strength is adjusted based on the Gradient. In the slope-based method, if the variation of the differential value causes a small change in the network output, the network experiences a Vanishing Gradient Problem that can not effectively learn the Error Propagation Algorithm. Brain Neural Networks, on the other hand, are connected by a number of Synapses between Neurons, such as complex nets. Brain plasticity refers to the change in the Connection Structure according to the connection strength between Neurons. This Brain Plasticity is the same as the neural network's Active Function and Connection Structure, and it is deeply related to Neural Network learning. The Synapse of the Brain Neural Network causes the structure and speed change of the Neural Network by various Neuron transmission activities. The Connection Structure of the Brain Neural Network makes the Brain a special function of learning. Learning occurs through reorganization of Brain cortical maps, dendrite of Neurons, and the creation of new Neurons. In addition, there is no distinction of layers between Neurons in the Brain, and Neurons located at each layer are not connected to Neurons in adjacent layers. In this Paper, the Neural Network structure is viewed as a complex network. The existing Neural Network Connection Structure is a fully connected structure which is connected only to adjacent layers considering convenience of calculation, and is close to a regular graph in which the Average Path Length between Neurons is relatively long. In order to transmit the input signal to the entire Neural Network quickly and uniformly, such as the Neural Network Connection Structure, an Augmented Connection Structure is proposed and analyzed in a Multilayer Neural Network in the form of a complex network having a short Average Path Length. First, we visualize the Vanishing Gradient problem, in which the weight modification amount of the existing Multilayer Neural Network Connection Structure and the Augmented Connection Structure converges at a high speed due to the differentiation and the learning recognition rate is lowered. We confirmed that the Connection Structure in which the input layer and the last hidden layer are connected increases the learning recognition rate as the layer becomes deeper. Second, the Connection Structure of the Multilayer Neural Network is a link structure of forward propagation, and the hidden layer closest to the output shows the path length. Based on this point, we calculated the Average Path Length of the Augmented Connection Structure Connection Structure applying the form of Multilayer Neural Network and complex network. The Average Path Length of the proposed Augmented Connection Structure is 0.238% ~ 1.091% shorter than that of the conventional Path Length of 0.005% ~ 0.011% longer than the Average Path Length of the existing Multilayer Neural Network. However, a link structure with a shorter Average Path Length has a lower recognition rate. Third, we analyzed the relation of Learning Time according to the number of weighted connections in the Augmented Connection Structure. As a result of measuring the average Learning Time, the Augmented Connection Structure by depth added a very small Connection Structure with 0.894% ~ 8.942% of added connections compared to existing Multilayer Neural Networks. We confirmed that adding the very small number of connections does not affect the Learning Time. Fourthly, we confirmed the learning recognition rate by depth of hidden layer according to the number of weight connections. We confirmed that the addition of a layer-by-layer randomly connected structure to the Multilayer Neural Network showed a good learning recognition rate even if the layer was deepened. It was confirmed that the problem that the weight correction amount disappears due to the derivative is improved. In this Paper, a Sigmoid function is used as an Activation Function of Neurons. We will then analyze the performance using various Activation Functions and in particular analyze the tilt loss problem in depth. We will also apply it to various Neural Networks for Deep Learning.
more목차
목 차
제 1 장 서론 1
1.1 연구 배경 및 목적 1
1.2 연구 내용 및 논문의 구성 5
제 2 장 뇌 신경망과 신경망(Neural Network) 7
2.1 뇌 신경망(Brain Nerve Network) 7
2.2 인공 신경망(Artificial Neural Network) 9
2.2.1 다층신경망(Multilayer Neural Network) 12
2.2.2 다층신경망의 문제 17
제 3 장 복잡계 네트워크(Complex Network) 20
3.1 무작위 네트워크(Random Network) 21
3.2 좁은 세상 네트워크(Small World Network) 23
3.3 척도 없는 네트워크(Scale Free Network) 25
제 4 장 확장된(Augmented) 연결구조 31
4.1 SMLA 연결구조 34
4.2 SRMLA 연결구조 35
4.3 SSMLA 연결구조 36
4.4 SSRMLA 연결구조 37
4.5 RMLA 연결구조 38
4.6 RRMLA 연결구조 39
4.7 RRPMLA 연결구조 40
제 5 장 확장된 연결구조를 위한 환경 43
5.1 확장된 연결구조를 위한 시각화 환경 43
5.2 확장된 연결구조를 위한 매개변수 46
제 6 장 확장된 연결구조의 실험, 평가 49
6.1 확장된 연결구조의 가중치 수정량의 변화 49
6.2 확장된 연결구조의 평균 경로 길이와 학습 인식률 55
6.3 가중치 연결 수에 따른 학습 속도 66
6.4 가중치 연결 수에 따른 학습 인식률 76
제 7 장 결론 88
참고문헌 91
Abstract 98
부록 102

