
背景
LSTM主要是用于解决递归网络中梯度指数级消失或者梯度爆炸的问题
https://www.youtube.com/watch?v=YCzL96nL7j0&t=267s
LSTM和RNN主要的区别就在于:LSTM有两条记忆链,一条短期记忆,一条长期记忆。
LSTM主要是用于解决递归网络中梯度指数级消失或者梯度爆炸的问题
https://www.youtube.com/watch?v=YCzL96nL7j0&t=267s
LSTM和RNN主要的区别就在于:LSTM有两条记忆链,一条短期记忆,一条长期记忆。
On the Properties of Neural Machine Translation= Encoder–Decoder Approaches
对比了 RNN Encoder-Decoder 和 GRU(new proposed)之间的翻译能力,发现GRU更具优势且能够理解语法。
因为会把要翻译的语句映射到固定长度的vector所以训练需要的内存空间是固定的且很小,500M和几十G形成对比。
但也有问题:
As this approach is relatively new, there has not been much work on analyzing the properties and behavior of these models. For instance: What are the properties of sentences on which this approach performs better? How does the choice of source/target vocabulary affect the performance? In which cases does the neural machine translation fail?
不够Fancy的地方:
递归神经网络(RNN)在变长序列x = ( x1 , x2, … , xT)上通过保持隐藏状态h随时间变化而工作
这是本文提出的用于替换RNN Encoder-Decoder 中的Encoder的一种新的神经网络,文中称为:gated recursive convolutional neural network (grConv)
如图a为Recursive convolutional NN (这是啥?) #question 图b为grConv grConv则是让隐藏层通过训练w参数可以从三个输入中挑选: 其中 $\omega_c+\omega_l+\omega_r=1$ 由此便获得了如图c,d所示的自主学习语法结构的能力。 非常直观的图 #paradigmTransformer是一种基于注意力机制,完全不需要递归或卷积网络的序列预测模型,且更易于训练
介绍了Gated-RNN/LSTM的基本逻辑[[Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling]],指出:
这种固有的顺序性质阻碍了训练示例中的并行化,这在较长的序列长度上变得至关重要,因为内存限制限制了示例之间的批处理,虽然后续有相关工作优化了一些性能,但是基本的限制并没有解除。
https://github.com/hkproj/pytorch-transformer/
https://www.youtube.com/watch?v=ISNdQcPhsts