多头注意力

自注意力的意思是,query,key,value都是同一个X。
说明一个词语会咨询所有其他的词元,看其相似度来计算value值。
所以最后演变成下面的结构。

Read more

注意力评分函数

加性注意力评分函数

从上述例子中,知道a函数,注意力评分主要是用来衡量,query和key值得相似度。

Read more

Transformer的从0开始实现

在多头自注意力,和encoder-decoder架构上,基本构成了一个transformer的架构。
但是transformer的架构,还有一些其他的优化。

Read more

数据集合下载和预处理

1
2
3
4
5
6
7
8
def read_data_nmt():
"""载入“英语-法语”数据集"""
data_dir = d2l.download_extract('fra-eng')
with open(os.path.join(data_dir, 'fra.txt'), 'r', encoding='utf-8') as f:
return f.read()

raw_text = read_data_nmt()
print(raw_text[:75])
Read more

多层rnn

两个例子 GRU,LSTM,但是层数都没有什么增加。

Read more

LSTM

隐变量模型,隐藏变量存在一个问题,就是长期信息的保存,和短期输入的缺失。

Read more

GRU(门控循环单元)

门控rnn是一个现代的rnn的变体。
在rnn计算梯度的时候,往往出现了消失爆炸的情况。

Read more