triton + chatglm4 部署

简单介绍

triton的推理架构由两部分组成,一部分由client,一部分由k8s cluster组成。

Read more

gpt4o观测

在这次openai发布会,发布了gpt4o,简单的说,openai的目标一直都是朝着《太空漫游2012》去的,所以更强调交互性,给我一种感觉就是他们希望完美通过图灵测试,让人完全感觉不到这个模型是一个工具而是一个人,当然,人在某个程度上也是一个工具。

要点:

  • 实时多模态能力,
  • 2x 速度
  • 50% 偏移
  • 5x速度限制
Read more

dify实践

dify是个很好解决agent的诉求的好工具,同时也能兼顾工作流诉求,我现在也没有什么创建agent和workflow的欲望,
我们都需要dify,所以部署吧,尽量会从0开始,

Read more

斯坦福小镇

从openai演进路线,和结合sam的访谈记录,还有OpenAI联合创始人Karpathy分享。

Sam Altman 早在2023年4月底说了

Read more

投资型llm

RAG系统已经趋向成熟,几乎任何一个玩llm的人都知道,向量数据库,文档分割,向量文段召回,上下文学习。作者在偶然发现了这篇有趣的论文,这个LLM 打败华尔街的论文,也是基于这个系统。但是不一样的是,他们的玩法更加垂直领域,而且多次使用了LLM的 ”总结“ 功能,融合RAG系统里面去,本文的就是通过这篇论文,探索LLM-RAG的未来发展趋势。

Read more

循环神经网络 rnn

卷积网络(cnn)是用来处理空间信息(一张图像),循环神经网络(rnn)则用来处理序列信息(一句话,一个视频的图像帧,温度的变化序列)
rnn引入了状态变量存储序列信息和当前输入,从而预测下一个输入,以此不断循环,预测整段序列信息。

Read more

number gpt

skip了环境准备,数据下载和数据清洗

Read more