number gpt
skip了环境准备,数据下载和数据清洗
1 先从模型开始看:
https://huggingface.co/microsoft/phi-2/blob/main/modeling_phi.py
这里需要的是,暂停一下,思考一下encoderLayer怎么变成可以训练的语言模型?2 这里收集了大量的信息
https://github.com/PolymathicAI/xVal/blob/main/xval/numformer.py
xval基本代码里,沿用了transformer的decode layer,并且定义了两个简单得线性层来分别预测文字token和数字token。3 mingpt : https://github.com/karpathy/minGPT/blob/master/mingpt/model.py
karpathy 300行实现min gpt,模仿gpt2,算是一个1.5b的小模型,揭示了如何从decoder layer构造一个语言模型4 phi-2以及phi-0.2实验版:
https://github.com/charent/Phi2-mini-Chinese
https://github.com/charent/ChatLM-mini-Chinese
https://huggingface.co/microsoft/phi-2/blob/main/modeling_phi.py
phi-2模型的架构代码十分的复杂,基本无法很快速了解,如何从decoder layer构造一个语言模型
即使是phi2-mini-chinese, 也是沿用了hugging face里面得关于phi2的架构,不过更改了模型参数,down to 2.7b的参数量。
chatlm-mini-chinese更是直接沿用了hugging face里面关于T5的架构。这两个项目的模型层面是黑盒子,无从得知。5 路线图:
https://mp.weixin.qq.com/s/JAdHriuLW4meEGtCquPBZw
基本讲述了从transformer到gpt的发展历程,是一个不错的学习工具。
从transformer到bert,到T5, 结果被GPT-1, GPT-2, GPT-3给取代了。6 深度学习圣经:
https://zh.d2l.ai/chapter_natural-language-processing-applications/natural-language-inference-bert.html
过去一段时间,一直一直在读的,学习的基础知识。
综上所述:我认为可以得出结论,我需要学习的是,mingpt, 以及如何使用xval的概念进入mingpt里面。
如何进行测试?就是根据phi2-mini-chinese, 的训练pipe line 玩一下。