一些需要探究的问题

大模型预训练数据从哪里获取?主要都是什么?

只用网上爬取的数据是否可以训练一个足够好的大模型?
大模型预训练中数据重要吗?是怎么影响模型性能的?
数据如何清洗过滤?数据清洗是如何影响模型效果的?
训练大模型时,数据是训练一个epoch好,还是多训练几个epoch好?
大模型训练数据的天花板在哪?又决定了模型的天花板在哪?
为什么模型会有Scaling law?是否和训练数据有关?
如何突破模型训练的Scaling law?
什么是openai的scaling law?是否和摩尔定律相关?
什么是 n-gram repetitions?
什么是哈希方法去重,比如:局部敏感哈希MinHash、SimHash
去重是文档级别还是段落级别?
规则过滤式文档级别么?
https://zhuanlan.zhihu.com/p/641013454

为什么深度学习最后演化到transformer这个架构上去?
为什么percetron无法解决xor问题?
Hopfield Networks是用来干啥的?
hinton 他们是如何证明一个多层神经网络如何克服xor问题
Lecun的手写体识别是怎么用卷积,和权重sharing。
backpropagation是怎么样的?为什么会有vanishing gradients,exploding gradients 和不记忆long-term memory的问题?
LSTM是如何克服back propagation的各种问题?
hinton 2006年发表的方法是 unsupervised + supervised fine-tune?
bengio 如何证明多层比少层更好?
bengio 和 lecun 发表的cnn 和 rbms 和dbns 是什么?
imagenet 规模多大?
rnn + lstm 怎么变成了nlp基本架构
Collobert 和 Weston 的pre-trained embedding 和 cnns for text 和sharing embedding 有啥意义
Mikolov 对这个 word2vec 是怎么基于他们的成果改善的?
sutskerver 的 hessian-free 优化器是如何改善rnn训练的?
Sutskever可以说是奠定了基础了吧,他发明的encoder 和 decoder模式如何影响后世的(在ner,qa,sumerize)
Bahdanau 发明的注意力机制是怎么基于sutskever ?

transformer是基于什么情况发明的?
后世对他的研究集中在架构改造,训练方法,和应用上是如何做的?
对transformer的安排是如何改造的?
对transformer内部是如何改造的?
transformer安排研究方向:降低内存和降低计算 如何连接两个trans 容错性训练-可暂停机制 recurrence 结构 大刀阔斧改变其架构?
transformer内部研究方向: low-rank attion-prior 多头 复杂度降低 pt-query 聚合kv内存
low-rank意思?
sparsity意思?
关于多头计算的复杂度降低的方法?
位置编码的3种方式?
residual 连接和position-wise怎么改善transformer?
这些pre-train方法的演化是?bert(encode only),generative-pretrained-transformer models (gpt3,decode only), t5(encode, decode both)
为什么其他模型最后都被抛弃?他们是哪些?
encoder - decoder 架构 为什么 beats others
attention 是怎么演化出来的?
这种mult-head attention 有什么稀疏的?
encoder和decoder可以合并么?
机器翻译如何应用这些?
bert一开始谁用的?
transformer是如何组成bert?
bert是稀疏的么?
multilingual - transformer 怎么从没听过?
如何改transformer
各领域的transformer是怎么样的?
图片领域trans
视频领域trans
文字领域trans
语音trans

1 一个transformer有哪些组成部分?
2 encoder输入输出是什么? decoder输入输出是什么?
3 x1..xt 先被embedding到v1….vt 向量,ht = tanh(w(hh) ht-1 + w(hx)xt)的图示是如何?
4 rnn可以单向也可以双向,对于encoder而言
5 decoder hidden state 是si = g(si-1, yt-1, c)
6 decoder得到预测词向量这里难懂,需要具体的计算
7 同时最后使用了交叉熵+softmax来反向更新权重以此训练
8 上述的rnn结构有长距离信息丢失,无法并行计算,gradient消失爆炸之类的
9 这个rnn-based 有点无趣

Transformer Encoder 有什么子层?
写一下self-attention的公式
Transformer的优缺点
Encoder端和Decoder端是如何进行交互的?
Transformer中为什么需要线性变换?
Transformer attention的注意力矩阵的计算为什么用乘法而不是加法?
Transformer attention计算为什么要在softmax这一步之前除
Transformer attention计算注意力矩阵的时候如何对padding做mask操作的?
Transformer的残差结构及意义
Transformer为什么使用LN而不是BN?
Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?/ 为什么decoder自注意力需要进行sequence mask?
Transformer的并行化体现在哪里,Decoder可以做并行化嘛?
Transformer计算量最大的部分是哪里
Transformer、LSTM和单纯的前馈神经网络比,有哪些提升?
Transformer处理篇章级的长文本的变体
有哪些处理超长文本的方法