gpt4o观测
在这次openai发布会,发布了gpt4o,简单的说,openai的目标一直都是朝着《太空漫游2012》去的,所以更强调交互性,给我一种感觉就是他们希望完美通过图灵测试,让人完全感觉不到这个模型是一个工具而是一个人,当然,人在某个程度上也是一个工具。
要点:
- 实时多模态能力,
- 2x 速度
- 50% 偏移
- 5x速度限制
第一个关键场景,
实时对话能力,在手机端启动,以前的voice mode是不可以被打断的,这次是可以打断。而且像rtos那样实时回复,不需要等待。而且可以生成富有情感语音。甚至用一种唱歌的语气也可以。
第二个关键场景,
实时的洞察世界的能力,演示者拿出一个纸片,然后写一个简单的方程式,然后打开摄像头,然后实时展示了它的逻辑能力。
第三个关键场景,
在演示者开始编程的时候,然后他妈的,它就实时看着屏幕,然后把屏幕上的信息输入到模型里面去,进行推理,然后人们跟他交互屏幕上的信息。
第四个关键场景
在于这个实时翻译的能力,也有点bug。
第五个关键场景
在于实时的摄像中它可以捕捉到画面中的笑脸。这是处理实时数据流的能力。
猜想
它的多模态能力,我认为是基于一种万物皆可tokenize的思维。
比如一个人正在开车,听着音乐。
1 他的视网膜实时接受5.7亿的像素,也就是可以理解为5.7亿的token在20-24毫秒内流入大脑
2 听觉方面的则是人类以20-24毫秒接收20-20000赫兹的声音token进入大脑
任何信号都可以tokenize,任何tokenize的东西都可以通过训练得到大模型(多模态),
再用moe,蒸馏,剪纸,等各种方式加速和降低推理成本,
速度快到一定的程度到达人类反应时间300ms的时候,那就是实时。