Posted 2024-05-139 minutes read (About 1301 words)

一些需要探究的问题

大模型预训练数据从哪里获取？主要都是什么？

只用网上爬取的数据是否可以训练一个足够好的大模型？
大模型预训练中数据重要吗？是怎么影响模型性能的？
数据如何清洗过滤？数据清洗是如何影响模型效果的？
训练大模型时，数据是训练一个epoch好，还是多训练几个epoch好？
大模型训练数据的天花板在哪？又决定了模型的天花板在哪？
为什么模型会有Scaling law？是否和训练数据有关？
如何突破模型训练的Scaling law？
什么是openai的scaling law？是否和摩尔定律相关？
什么是 n-gram repetitions?
什么是哈希方法去重，比如：局部敏感哈希MinHash、SimHash
去重是文档级别还是段落级别?
规则过滤式文档级别么？
https://zhuanlan.zhihu.com/p/641013454

为什么深度学习最后演化到transformer这个架构上去？
为什么percetron无法解决xor问题？
Hopfield Networks是用来干啥的？
hinton 他们是如何证明一个多层神经网络如何克服xor问题
Lecun的手写体识别是怎么用卷积，和权重sharing。
backpropagation是怎么样的？为什么会有vanishing gradients，exploding gradients 和不记忆long-term memory的问题?
LSTM是如何克服back propagation的各种问题？
hinton 2006年发表的方法是 unsupervised + supervised fine-tune？
bengio 如何证明多层比少层更好？
bengio 和 lecun 发表的cnn 和 rbms 和dbns 是什么？
imagenet 规模多大?
rnn + lstm 怎么变成了nlp基本架构
Collobert 和 Weston 的pre-trained embedding 和 cnns for text 和sharing embedding 有啥意义
Mikolov 对这个 word2vec 是怎么基于他们的成果改善的？
sutskerver 的 hessian-free 优化器是如何改善rnn训练的？
Sutskever可以说是奠定了基础了吧，他发明的encoder 和 decoder模式如何影响后世的（在ner，qa，sumerize）
Bahdanau 发明的注意力机制是怎么基于sutskever ？

transformer是基于什么情况发明的？
后世对他的研究集中在架构改造，训练方法，和应用上是如何做的？
对transformer的安排是如何改造的？
对transformer内部是如何改造的？
transformer安排研究方向：降低内存和降低计算如何连接两个trans 容错性训练-可暂停机制 recurrence 结构大刀阔斧改变其架构？
transformer内部研究方向： low-rank attion-prior 多头复杂度降低 pt-query 聚合kv内存
low-rank意思？
sparsity意思?
关于多头计算的复杂度降低的方法？
位置编码的3种方式？
residual 连接和position-wise怎么改善transformer？
这些pre-train方法的演化是？bert（encode only），generative-pretrained-transformer models （gpt3，decode only), t5(encode, decode both)
为什么其他模型最后都被抛弃？他们是哪些？
encoder - decoder 架构为什么 beats others
attention 是怎么演化出来的？
这种mult-head attention 有什么稀疏的？
encoder和decoder可以合并么？
机器翻译如何应用这些？
bert一开始谁用的？
transformer是如何组成bert？
bert是稀疏的么？
multilingual - transformer 怎么从没听过？
如何改transformer
各领域的transformer是怎么样的？
图片领域trans
视频领域trans
文字领域trans
语音trans

1 一个transformer有哪些组成部分？
2 encoder输入输出是什么？ decoder输入输出是什么？
3 x1..xt 先被embedding到v1….vt 向量，ht = tanh(w(hh) ht-1 + w(hx)xt)的图示是如何?
4 rnn可以单向也可以双向，对于encoder而言
5 decoder hidden state 是si = g(si-1, yt-1, c)
6 decoder得到预测词向量这里难懂，需要具体的计算
7 同时最后使用了交叉熵+softmax来反向更新权重以此训练
8 上述的rnn结构有长距离信息丢失，无法并行计算，gradient消失爆炸之类的
9 这个rnn-based 有点无趣

Transformer Encoder 有什么子层？
写一下self-attention的公式
Transformer的优缺点
Encoder端和Decoder端是如何进行交互的？
Transformer中为什么需要线性变换？
Transformer attention的注意力矩阵的计算为什么用乘法而不是加法？
Transformer attention计算为什么要在softmax这一步之前除
Transformer attention计算注意力矩阵的时候如何对padding做mask操作的？
Transformer的残差结构及意义
Transformer为什么使用LN而不是BN？
Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别？/ 为什么decoder自注意力需要进行sequence mask？
Transformer的并行化体现在哪里，Decoder可以做并行化嘛？
Transformer计算量最大的部分是哪里
Transformer、LSTM和单纯的前馈神经网络比，有哪些提升？
Transformer处理篇章级的长文本的变体
有哪些处理超长文本的方法

#AI(人工智能)llm(语言模型)

一些需要探究的问题

Links

Recents

Archives

Tags

Subscribe for updates