mini-gpt

karpathy 的300行mini-gpt

karpathy 300行实现了mini-gpt,是一个很好的学习范例。

Read more

bahdanau注意力

bahdanau注意力机制的初心

本意是为了seq2seq学习而设计出的编码器解码器架构,有个弊端。
对于编码器:

Read more

多头注意力

自注意力的意思是,query,key,value都是同一个X。
说明一个词语会咨询所有其他的词元,看其相似度来计算value值。
所以最后演变成下面的结构。

Read more

注意力评分函数

加性注意力评分函数

从上述例子中,知道a函数,注意力评分主要是用来衡量,query和key值得相似度。

Read more

Transformer的从0开始实现

在多头自注意力,和encoder-decoder架构上,基本构成了一个transformer的架构。
但是transformer的架构,还有一些其他的优化。

Read more

多层rnn

两个例子 GRU,LSTM,但是层数都没有什么增加。

Read more

LSTM

隐变量模型,隐藏变量存在一个问题,就是长期信息的保存,和短期输入的缺失。

Read more

GRU(门控循环单元)

门控rnn是一个现代的rnn的变体。
在rnn计算梯度的时候,往往出现了消失爆炸的情况。

Read more