推广 热搜:     公司  行业  服务  系统  中国  企业  参数  教师 

ChatGPT 再次进化!新增“看、听、说”三大能力

   日期:2023-09-28     浏览:139    移动:http://skally.gawce.com/quote/4165.html

图片来源:由无界 AI 生成

太激烈了!昨天?Anthropic?刚刚从谷歌那里拿到?40?亿美元巨额融资,今天?OpenAI?就宣布了?ChatGPT?有史以来最大规模的一次升级。如果说从?ChatGPT?到?GPT-4?是量的提升,那么这次升级就是质的飞跃。曾经只能“写”的?ChatGPT,从此刻起,又有了“看、听、说”三大能力。

这是?OpenAI?对竞争对手?Anthropic?的最直接回应。没有任何预先报道,一切都这么突然。OpenAI?有一次拉开了与竞争对手的差距。

总结这次?ChatGPT?升级:引入新的语音和图像功能。提供一种新的、更直观的界面,允许进行语音对话或向?ChatGPT?展示您正在谈论的内容。

注:这次升级将会在未来两周推送给 ChatGPT plus 和企业版用户。

会说会听的?ChatGPT

你将可以使用语音说给?ChatGPT?听,并获得回复。 随时随地与它交谈,让它给你讲故事,回答餐桌上讨论的问题等等。

要开始使用语音功能,可以在移动?App?上的“设置”中选择→“新功能”,然后选择加入语音对话。 然后,点击主屏幕右上角的耳机按钮,从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。?OpenAI?与专业配音演员合作创作了每一个声音,还使用了?OpenAI?的开源语音识别系统?Whisper?将您的口语转录为文本。

会看图的 ChatGPT

ChatGPT现在能够看懂图像了。你可以向?ChatGPT?展示一张或多张图像,并向它提出问题。例如,

你的烧烤炉无法启动,你可以把图片拍下来并给?ChatGPT?查看,让它给出无法启动的原因。

或者拍一张冰箱内食品的照片,让ChatGPT?为你制定一份饮食计划。

或者给它一张复杂的图表,让它为你提取数据。

这项图像推理能力有点逆天了,效率瞬间拉满。

这项能力由多模态的?GPT-3.5?和?GPT-4?提供支持。 这些模型将其语言推理技能应用于广泛的图像,例如照片、屏幕截图以及包含文本和图像的文档。

为?ChatGPT?添加图像和语音能力是?OpenAI?构建?AGI?的一部分。

新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成语音,为许多创造性和以可访问性为重点的应用打开了大门。 然而,这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物的语音或实施欺诈。

因此,OpenAI?目前将生成式语音聊天技术局限于特定用例。 这些语音是由与?OpenAI?直接合作的配音演员创建的。 另外还有一些其他的合作伙伴,例如,Spotify?正在利用这项技术来试点其语音翻译功能,该功能可以通过播客自己的声音将播客翻译成其他语言,从而帮助播客扩大讲故事的范围。

本文地址:http://xasic.gawce.com/quote/4165.html    阁恬下 http://xasic.gawce.com/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号