Posted 2024-04-298 minutes read (About 1206 words)Transformer的从0开始实现在一个空间内,有query,keys,values,然后产生了注意力汇聚。Read more
Posted 2024-04-298 minutes read (About 1125 words)多头注意力自注意力的意思是,query,key,value都是同一个X。说明一个词语会咨询所有其他的词元,看其相似度来计算value值。所以最后演变成下面的结构。Read more
Posted 2024-04-2914 minutes read (About 2115 words)注意力评分函数加性注意力评分函数从上述例子中,知道a函数,注意力评分主要是用来衡量,query和key值得相似度。Read more
Posted 2024-04-2910 minutes read (About 1516 words)Transformer的从0开始实现在多头自注意力,和encoder-decoder架构上,基本构成了一个transformer的架构。但是transformer的架构,还有一些其他的优化。Read more
Posted 2024-04-093 minutes read (About 384 words)数据集合下载和预处理12345678def read_data_nmt(): """载入“英语-法语”数据集""" data_dir = d2l.download_extract('fra-eng') with open(os.path.join(data_dir, 'fra.txt'), 'r', encoding='utf-8') as f: return f.read() raw_text = read_data_nmt() print(raw_text[:75])Read more
Posted 2024-04-093 minutes read (About 477 words)GRU(门控循环单元)门控rnn是一个现代的rnn的变体。在rnn计算梯度的时候,往往出现了消失爆炸的情况。Read more