月度归档 2023年 10月 8日

通过安晓辉

重磅升级!ChatGPT可以看图片听语音啦!

9月25日,OpenAI正式官宣——ChatGPT新增看图识图、识别声音、语音对话三大多模态功能。

我今天测试了一下,果然好用!

随时说、随手拍、立即问、马上答,这才是人工智能助手该有的模样!

我是在安卓手机上试验的,有两个前提:一是你得有Google账号,方便下载Google Play,安装ChatGPT;二是你得有ChatGPT账号(最好是Plus,因为图片输入目前只支持Plus账号),方便体验。

安装使用过程稍微复杂一点,大概分为下面几步:

  1. 手机科学上网,网络环境切换到中国及中国香港以外的地区
  2. 在手机浏览器中输入Google Play上的ChatGPT应用详情页地址,https://play.google.com/store/apps/details?id=com.openai.chatgpt&pcampaignid=web_share
  3. 在打开的页面中点击安装按钮(此时可能要求你登录Google账号,下载Google Play),完成安装
  4. 打开ChatGPT,登录,开始体验新功能。

我做了几个简单的测试,分享一下过程。

1、语音输入,请ChatGPT写短视频文案

我做的第一个测试,是给ChatGPT发语音,请它为《高效能人士的七个习惯》写短视频文案。

首先选择GPT-4模型,可以看到输入框左侧有个麦克风图标,点击后可以语音对话。再往左有个“+”号按钮,点开后可以拍照或从相册选择图片。

我点了麦克风图标,对着手机说话,具体见下图,注意不用像微信那样长按。

说完之后,点击界面,就可以停止录音。然后,ChatGPT会识别语音,转换成文字。过程如下。

点击右侧的发送按钮,把提示词提交给ChatGPT,它很快给出了下面的回应。

体验语音输入后有三点体会:

  • 手机上用语音输入,真的比打字方便很多
  • ChatGPT App会先把语音转成文字,再发给ChatGPT处理
  • 我们可以在发送前,检查ChatGPT识别出来的文字,手动修订不妥之处

2、语音+图片输入,请ChatGPT帮忙解决卫生间木门受潮损坏问题

我做的第二个测试,是请ChatGPT帮忙解决卫生间木门受潮损坏问题。

我首先打开了一个新的会话,点击下方聊天框左侧的“+”按钮,拍照木门受潮损坏的部分,发送给ChatGPT,它把图片上传到聊天框。然后我点聊天框左侧的麦克风,对着ChatGPT说话,描述问题背景,请它给我想办法。

具体图下。

可以看到,ChatGPT会把图片和文字组合在一起,等你点击发送按钮。我点击发送按钮后,ChatGPT就把图片和文字连贯起来发送给后端服务。后端很快返回了解决方案。结果如下。

可以看到,ChatGPT考虑非常全面。

换门、刷漆……这些都太麻烦,所以我进一步提了要求,希望得到更简便的解决办法。ChatGPT也给出了我想要的答案。

✧✧✧

经过体验,我发现,能看图、能听话的ChatGPT,属实好用,真的能担当我们的人工智能助手,随时随地为我们提供帮助。ChatGPT这一波更新,超赞啊!