gpt4o观测

在这次openai发布会,发布了gpt4o,简单的说,openai的目标一直都是朝着《太空漫游2012》去的,所以更强调交互性,给我一种感觉就是他们希望完美通过图灵测试,让人完全感觉不到这个模型是一个工具而是一个人,当然,人在某个程度上也是一个工具。

要点:

  • 实时多模态能力,
  • 2x 速度
  • 50% 偏移
  • 5x速度限制

第一个关键场景,

实时对话能力,在手机端启动,以前的voice mode是不可以被打断的,这次是可以打断。而且像rtos那样实时回复,不需要等待。而且可以生成富有情感语音。甚至用一种唱歌的语气也可以。

第二个关键场景,

实时的洞察世界的能力,演示者拿出一个纸片,然后写一个简单的方程式,然后打开摄像头,然后实时展示了它的逻辑能力。

第三个关键场景,

在演示者开始编程的时候,然后他妈的,它就实时看着屏幕,然后把屏幕上的信息输入到模型里面去,进行推理,然后人们跟他交互屏幕上的信息。

第四个关键场景

在于这个实时翻译的能力,也有点bug。

第五个关键场景

在于实时的摄像中它可以捕捉到画面中的笑脸。这是处理实时数据流的能力。

猜想

它的多模态能力,我认为是基于一种万物皆可tokenize的思维。
比如一个人正在开车,听着音乐。
1 他的视网膜实时接受5.7亿的像素,也就是可以理解为5.7亿的token在20-24毫秒内流入大脑
2 听觉方面的则是人类以20-24毫秒接收20-20000赫兹的声音token进入大脑

任何信号都可以tokenize,任何tokenize的东西都可以通过训练得到大模型(多模态),
再用moe,蒸馏,剪纸,等各种方式加速和降低推理成本,
速度快到一定的程度到达人类反应时间300ms的时候,那就是实时。