注意力评分函数

加性注意力评分函数

从上述例子中,知道a函数,注意力评分主要是用来衡量,query和key值得相似度。

Read more

Transformer的从0开始实现

在多头自注意力,和encoder-decoder架构上,基本构成了一个transformer的架构。
但是transformer的架构,还有一些其他的优化。

Read more

多层rnn

两个例子 GRU,LSTM,但是层数都没有什么增加。

Read more

LSTM

隐变量模型,隐藏变量存在一个问题,就是长期信息的保存,和短期输入的缺失。

Read more

GRU(门控循环单元)

门控rnn是一个现代的rnn的变体。
在rnn计算梯度的时候,往往出现了消失爆炸的情况。

Read more