OpenAI又放出大招GPT-4o,这些AI新姿势个个都很王炸

发布于:2024-05-17 ⋅ 阅读:(32) ⋅ 点赞:(0)

在无人问津的地点历练

在万众瞩目的地点出现

 

如果你看不到未来

那就比别人多坚持久点

 

 

 

5月13日晚上十点,OpenAI举行了名为“春季更新”的线上发布会,宣布推出GPT-4的升级款模型GPT-4o。

 

这场发布会的条件并不是像雷军发布小米SU7那样高大上,发布会的时间不到半个小时,既没有大屏PPT,AI明星Sam Altman也没有出现,核心环节就是由首席技术官Mira Murati带着两位员工在现场展示新模型。

 

但浓缩就是精华,这次发布会非常硬核,又一次突破人们对AI的想象,GPT-4o中的“o”(omn,意为全能),GPT-4o开始有了“眼睛”“嘴巴”,在全知全能方面更进一步了。不少网友用了之后惊呼,科幻电影的想象已经离我们不远了,感叹AI惊人的能力。

 

 

OpenAI的首席执行官Sam Altman,俗称奥特曼,在社交媒体上发帖,仅有一个字her。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

 

her 是一部2013年的科幻爱情电影,讲述了作家西奥多在结束了一段令他心碎的爱情长跑之后,他爱上了电脑操作系统里的女声,这个叫“萨曼莎”的姑娘不仅有着一把略微沙哑的性感嗓音,并且风趣幽默、善解人意,让孤独的男主泥足深陷。

 

在GPT-4o之前,我们用的还是GPT3.5,只支持文字与语音输入,但GPT-4o可以支持文字、语音、图片和文件等。

 

 

为了了解GPT-4o能做什么事,我们直接就问它,它回答称:可以回答问题,写作和编辑,提供建议,数学计算和写代码,数据分析,生成图像,实时信息查询等。

 

我们在使用之前的AI工具的时候,很多时候的信息都不是实时的,或者查不出来最新的数据,这很烦人。

 

比如输入杭州今天的天气

 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

 

我们就看到3.5版本完全查不出来了,但是4和4o版本就可以查出来了。

 

又比如我们拍一张照片,让AI来生成描述。

 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

 

GPT-4o输出的信息更为详细,也更为全面。

 

实时对话

 

我们说GPT-4o已经有了嘴巴,那么她也就有了互动交流的能力了,比如实时对话交互、语音多样化(可以使用不同情绪和语调回答等)、视频指导做题、视频识别环境和人(比如人的情绪)、以桌面应用形式远程辅助编程、实时翻译等。

 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

 

上图是在视频指导做题。

 

并且她还会唱歌,辩论battle等能力,发布会演示了两个GPT-4o交流和对唱、唱摇篮曲、毒舌讽刺、视频识物和狗互动等。

 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

 

识别情绪

 

说实话,人类对自己情绪的识别往往容易出错,情绪表达是一种比较微妙的。但是GPT-4o也可以通过眼睛看来识别情绪。

 

 

借助镜头自拍,ChatGPT可以识别用户的情绪,如“看起来很难过,甚至可以说是抑郁情绪”

 

识别周围环境

 

还能从用户背后的画面判断其身处的环境,如“看起来你在一个摄影棚拍戏中,背后有一些灯光,可能在录制视频之类的”。当另一个人进入镜头并且做其他表情的时候,ChatGPT也可以识别出这微妙的变化,并加以描述。

 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

 

在与她交流的过程当中,你不觉得对方是一个机器,就觉得对方是一个人,交互体验非常流畅自然。因为GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应输入,与人类的响应时间相差无几。

 

 

GPT-4o的横空出世给未来应用带来了丰富的想象空间,随着应用的深入,可能成为超级私人秘书。在人类生活的方方面面,她都可以快速地定制化生成对应的解决方案。


网站公告

今日签到

点亮在社区的每一天
去签到