Tag: llm(语言模型)

Posted 2024-05-154 minutes read (About 602 words)

在这次openai发布会，发布了gpt4o，简单的说，openai的目标一直都是朝着《太空漫游2012》去的，所以更强调交互性，给我一种感觉就是他们希望完美通过图灵测试，让人完全感觉不到这个模型是一个工具而是一个人，当然，人在某个程度上也是一个工具。

要点：

Posted 2024-05-139 minutes read (About 1301 words)

大模型预训练数据从哪里获取？主要都是什么？

Posted 2024-05-135 minutes read (About 695 words)

下载模型，先创建目录 chatglm3

Posted 2024-04-2916 minutes read (About 2343 words)

卷积网络(cnn)是用来处理空间信息（一张图像），循环神经网络(rnn)则用来处理序列信息（一句话，一个视频的图像帧，温度的变化序列）
rnn引入了状态变量存储序列信息和当前输入，从而预测下一个输入，以此不断循环，预测整段序列信息。

Posted 2024-04-2913 minutes read (About 1951 words)

Posted 2024-04-293 minutes read (About 490 words)

skip了环境准备，数据下载和数据清洗

Posted 2024-04-2910 minutes read (About 1510 words)

karpathy 的300行mini-gpt

karpathy 300行实现了mini-gpt，是一个很好的学习范例。

Posted 2024-04-2912 minutes read (About 1766 words)

本意是为了seq2seq学习而设计出的编码器解码器架构，有个弊端。
对于编码器：

Posted 2024-04-298 minutes read (About 1206 words)

在一个空间内，有query，keys，values，然后产生了注意力汇聚。

Posted 2024-04-298 minutes read (About 1125 words)

自注意力的意思是，query，key，value都是同一个X。
说明一个词语会咨询所有其他的词元，看其相似度来计算value值。
所以最后演变成下面的结构。