Posted 2024-04-2914 minutes read (About 2115 words)注意力评分函数加性注意力评分函数从上述例子中,知道a函数,注意力评分主要是用来衡量,query和key值得相似度。Read more
Posted 2024-04-2910 minutes read (About 1516 words)Transformer的从0开始实现在多头自注意力,和encoder-decoder架构上,基本构成了一个transformer的架构。但是transformer的架构,还有一些其他的优化。Read more
Posted 2024-04-093 minutes read (About 477 words)GRU(门控循环单元)门控rnn是一个现代的rnn的变体。在rnn计算梯度的时候,往往出现了消失爆炸的情况。Read more