Posted 2024-04-2910 minutes read (About 1510 words)mini-gptkarpathy 的300行mini-gptkarpathy 300行实现了mini-gpt,是一个很好的学习范例。Read more
Posted 2024-04-2912 minutes read (About 1766 words)bahdanau注意力bahdanau注意力机制的初心本意是为了seq2seq学习而设计出的编码器解码器架构,有个弊端。对于编码器:Read more
Posted 2024-04-298 minutes read (About 1206 words)Transformer的从0开始实现在一个空间内,有query,keys,values,然后产生了注意力汇聚。Read more
Posted 2024-04-298 minutes read (About 1125 words)多头注意力自注意力的意思是,query,key,value都是同一个X。说明一个词语会咨询所有其他的词元,看其相似度来计算value值。所以最后演变成下面的结构。Read more
Posted 2024-04-2914 minutes read (About 2115 words)注意力评分函数加性注意力评分函数从上述例子中,知道a函数,注意力评分主要是用来衡量,query和key值得相似度。Read more
Posted 2024-04-2910 minutes read (About 1516 words)Transformer的从0开始实现在多头自注意力,和encoder-decoder架构上,基本构成了一个transformer的架构。但是transformer的架构,还有一些其他的优化。Read more
Posted 2024-04-093 minutes read (About 477 words)GRU(门控循环单元)门控rnn是一个现代的rnn的变体。在rnn计算梯度的时候,往往出现了消失爆炸的情况。Read more