OpenAI 刚刚更新了 Blog:ChatGPT can now see, hear, and speak(ChatGPT 现在可以看、听和说话),将在未来两周内向 Plus 和 Enterprise 用户推出 ChatGPT 语音(手机)与图像(全平台)功能。@Appinn
首先给了几个例子:
- 在旅行时拍摄地标的照片,并实时讨论其中的有趣之处
- 当你回到家时,拍下冰箱和食品储藏室的照片,以了解晚餐吃什么(并询问后续问题以获取逐步食谱)。
- 晚餐后,通过拍照、圈出问题集并让它与你们俩分享提示来帮助您的孩子解决数学问题。
语音功能
这个功能有点类似之前的一些第三方服务中通过 Azure API 提供语音识别与朗读功能,即用户语音输入给 ChatGPT,再通过朗读返回给用户。
目前有几种声音,并没有 Azure 那几十种多。
OpenAI 与为盲人和低视力者提供免费帮助的手机应用程序 “Be My Eyes “合作(小众软件介绍过:请做我的眼「实时视频互助」帮助盲人)之后,获得了很多灵感。
图像功能
图像功能就很赞了,青小蛙也是早上看到了@阑夕在微博发布的中文字幕视频:
视频里,用户向 ChatGPT 提交里一张自行车的照片,询问如何降低自行车座椅,ChatGPT 给出了具体步骤。
用户继续拍照与 ChatGPT 确认步骤里提到的调整部位是否正确,得到回复后,又上传了自行车用户手册和一个真实工具箱照片,让 ChatGPT 确认这套工具是否可行,ChatGPT 顺利的找到了它…
虽然原理都能理解,这个过程也在预料之中,但还是有点科幻,它已经是现实了。
…
这让青小蛙有点恍惚,当人工智能再发展一段时间,它是不是就算拥有了意识?
本文原文链接:https://www.appinn.com/chatgpt-can-now-see-hear-and-speak/