文章主题:多模态功能, GPT-4, 图像输入, 识图

666AI工具大全,助力做AI时代先行者!

《GPT-4多模态功能揭秘:BingChat的识图之旅》
打开凤凰新闻,查看更多高清图片

还记得今年 3 月 OpenAI 在发布 GPT-4 时提到的多模态功能吗?

《GPT-4多模态功能揭秘:BingChat的识图之旅》

▲ GPT-4 回答 Demo,由机器翻译

GPT-4 的出现,让图像处理成为可能,无论是梗图还是物理题目,甚至是学术论文,都能轻松应对。它的这一特性,使得 GPT-4 在发布之初,就引发了全社会的广泛关注。相较于其前身 GPT-3.5,GPT-4 的这个重大升级,无疑为人工智能领域开辟了新的可能性。

只可惜,OpenAI 表示图像输入功能仍然是研究预览阶段,还不能向公众公开。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

▲ 新增了一个识图图标 图片来自:Reddit

原内容描述的是一个现象,即Reddit上的用户发现,他们的Bing Chat账号突然出现了一个上传图片的功能。当用户将图片上传到这个功能上后,Bing Chat能够识别出图片并给出相应的回答。这是一个有趣的发现,可能会改变人们对Bing Chat的认识和使用方式。

之前,微软已经揭示 Bing Chat 是依赖 GPT-4 模型运行的,而在上个月的更新日志中也提到了将会在 Bing 中引入多模态支持。综合这些信息,我们可以推测 Bing Chat 正在逐渐面向用户提供图像识别功能的测试。

在众多网友的期待下,我们终于迎来了一款“长了眼睛”的Bing Chat。这位热心的网友为了让大家更好地了解这款产品的实际性能,进行了大量的测试。现在,让我们跟随这位网友的脚步,一起探索“长了眼睛”的Bing Chat究竟有何过人之处。

GPT-4 的一个引人注目的功能是它的看梗图能力。这款人工智能不仅能够理解图像中的内容,还能够像人类一样分析出梗图的笑点所在。这一功能使得 GPT-4 成为了一个非常有趣且实用的工具,对于那些希望创作有趣内容的人来说更是如此。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

在这幅梗图中,GPT-4 揭示了用过时的 VGA 接口为 iPhone 充电是一种荒谬的可行性,这一幕引发了人们的笑声。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

▲ 由机器翻译

在Bing Chat上,网友们上传了一张梗图进行测试,令人惊讶的是,Bing Chat并未能够识别出这是一张VGA接口的图片。尽管如此,Bing Chat仍然毫不犹豫地解读出了图片中的内容,甚至还能准确地指出线缆的品牌,并提供了更为详尽的资料。这一结果不禁让人对Bing Chat的智能程度产生了更高的期待。

这或许仅仅是Bing Chat系统的一次偶然性误差,也有可能是因为微软在实际运用GPT-4时,进行了更为严格的限制和调整,从而导致了回答上的偏差。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

网友再上传了另一幅关于机器学习的梗图漫画,这次 Bing Chat 就能比较准确地答出图中的内容和笑点。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

Bing Chat 对另一张在汽车上烫衣服的梗图分析也同样到位。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

▲ 此处翻译有误,原文为:Diddy Kong, Pyra, Pikachu, Zero Suit Samus, Donkey Kong, Sonic the Hedgehog, Ness, Cloud Strife, and Incineroar

Bing Chat 识图的精度有多高呢?他上传了一张《任天堂大乱斗》游戏的角色图,同一张图上有排列着非常多的角色,要求 Bing Chat 一一认出所有的角色。

结果是,Bing Chat 在 12 个角色中认出了 7 个,看来二次元问题对它来说还是有点难度。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

OpenAI 在发布时还展示了一个拍手绘图就能编程网页的案例,该网友也手画了一张图考考 Bing。

让我们跳过冗长的代码环节,直接看看这个网页跑起来的效果。可以看出,基础的网页雏形还是搭出来了。

识图功能的加入给 Bing Chat 增添非常多的用途,毕竟现实中很多内容(例如公式、图表)很难用文字表达清楚,这时候直接一张图甩给 AI 就能得到回答。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

例如让它解释一下染色体在减数分裂时交叉互换的过程。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

让它扮演生物老师,分析一下肾元过滤的工作原理。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

《GPT-4多模态功能揭秘:BingChat的识图之旅》

甚至可以让它充当网络医生,简单诊断一下皮肤症。

此前,ChatGPT 由于出色的文字理解和表达能力,已经被人们开发出了学外语、练口语的功能。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

再加入视觉识别后,Bing Chat 甚至可以担任一个初高中乃至大学老师的角色,帮助学生解答复杂的数理化问题,如果未来能把识图功能推广开来的话,这也许在一定程度上可以解决教育资源不均衡的问题。

用户还可以用它做基础的医疗诊断,节约就医所需要的金钱和时间,体现出 AI 普惠大众的价值。

当然,Bing Chat 虽然能基本看懂现实世界的内容,但它的回答终究只能作为参考,不可以当做专业意见。

所以要完全向公众开放识图功能的话,微软还需要做大量的限制和调试,才能确保公众不会因为误信 AI 的回答而出现安全问题。

《GPT-4多模态功能揭秘:BingChat的识图之旅》

在短期内,Bing Chat 识图应该还只是少部分用户才可以使用的测试性功能,如果你感兴趣的话,可以立刻登录一下你的微软账号,看看在 Bing Chat 的聊天栏上是否多了一个图片的图标。

多模态功能, GPT-4, 图像输入, 识图

《GPT-4多模态功能揭秘:BingChat的识图之旅》

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!