티스토리 뷰
source: https://blog.floydhub.com/long-short-term-memory-from-zero-to-hero-with-pytorch/
Long Short-Term Memory: From Zero to Hero with PyTorch
Long Short-Term Memory (LSTM) Networks have been widely used to solve various sequential tasks. Let's find out how these networks work and how we can implement them.
blog.floydhub.com
RNN은 cell을 거치면서 이전 단계의 정보를 잊어버린다. 더 이전의 cell일 수록 더 많은 손실이 뒤따른다.
LSTM은 이런 RNN의 약점을 보완하고자 한다.
RNN cell은 내부에서 tanh만 수행한다.
반면에 LSTM은 3가지 정보를 따로 따로 처리한다.
1. input data
2. short-term memory (RNN의 hidden state와 유사함)
3. long-term memory (cell state라고 불리기도 함)
LSTM 셀은 위의 3가지 정보를 받아서
다음번의 LSTM 셀에 어떤 정보를(short-term memory, long-term memory) 넘겨줄 지 결정한다.
gate를 통과하며 결정된다.
a. Input Gate
새로운 input이 Long-term memory = cell state에 저장 될 지 아닐 지 결정한다.
지난 연산의 결과인 short-term memory H_t-1와 input x_t로 연산한다.
X = i1 * i2
i1 = sigmoid(W_i1 * (H_t-1, x_t)+bias_i1)
시그모이드 결과는 0 또는 1이므로 저장 여부를 결정하게 된다.
Back propagation과정에서 W_i1 값이 부여된다.
i2 = tanh(W_i2 * (H_t-1, x_t)+bias_i2)
i2와 같은 방식이지만, tanh함수를 사용한다.
b. Forget Gate
c. Output Gate
더 읽어볼 것
Long Short-Term Memory Networks Are Dying: What’s Replacing It?
The rise and fall of the LSTM
medium.com
'머신러닝' 카테고리의 다른 글
GPU 사용량 실시간 확인 (0) | 2022.06.18 |
---|---|
ModuleNotFoundError: No module named 'tensorflow' (0) | 2022.06.17 |
Epoch, Batch, and Iteration (0) | 2022.06.02 |
RNN (0) | 2022.06.01 |
conda 가상환경 다루기 (0) | 2022.05.24 |