Posted 2024-05-154 minutes read (About 602 words)

gpt4o观测

在这次openai发布会，发布了gpt4o，简单的说，openai的目标一直都是朝着《太空漫游2012》去的，所以更强调交互性，给我一种感觉就是他们希望完美通过图灵测试，让人完全感觉不到这个模型是一个工具而是一个人，当然，人在某个程度上也是一个工具。

要点：

实时对话能力，在手机端启动，以前的voice mode是不可以被打断的，这次是可以打断。而且像rtos那样实时回复，不需要等待。而且可以生成富有情感语音。甚至用一种唱歌的语气也可以。

实时的洞察世界的能力，演示者拿出一个纸片，然后写一个简单的方程式，然后打开摄像头，然后实时展示了它的逻辑能力。

在演示者开始编程的时候，然后他妈的，它就实时看着屏幕，然后把屏幕上的信息输入到模型里面去，进行推理，然后人们跟他交互屏幕上的信息。

在于这个实时翻译的能力，也有点bug。

在于实时的摄像中它可以捕捉到画面中的笑脸。这是处理实时数据流的能力。

它的多模态能力，我认为是基于一种万物皆可tokenize的思维。
比如一个人正在开车，听着音乐。
1 他的视网膜实时接受5.7亿的像素，也就是可以理解为5.7亿的token在20-24毫秒内流入大脑
2 听觉方面的则是人类以20-24毫秒接收20-20000赫兹的声音token进入大脑

任何信号都可以tokenize，任何tokenize的东西都可以通过训练得到大模型(多模态)，
再用moe，蒸馏，剪纸，等各种方式加速和降低推理成本，
速度快到一定的程度到达人类反应时间300ms的时候，那就是实时。