正在上线的GPT-4o高级语音功能将会是下一批AI爆款应用的主流交互,我们从功能,应用,商业机会,工程实现几个方面分析了这个功能:
04:20 Part1 GPT-4o亮点功能展示:会喘气清嗓子,能解说也能B-box;语音对话黏性极强.
12:40 Part2 端到端的语音模型改变了什么?从基础的对话体验到哼唱歌曲背后的情绪陪伴,做好记录和营销外呼之后,从前的对话机器人即将蜕变为私人助理陪伴与情感陪伴
39:45 Part3 从乔布斯,李开复的时代的语音识别与合成开始,我们正在见证语音技术的第二次范式转变.从模型架构到工程优化,分析"回应速度快十倍,信息量多十倍"如何实现
AI 相关节目:解构Apple Intelligence / 和李楠聊AI硬件 / 能做家务的机器人还有多远?/ GPT并非替代你 / 611款 AI 生产力工具;
欢迎在评论区留言发表你使用 大模型AI对话 感受与看法。
对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01)加群参与讨论。
人物:
节目中用到的音乐:来自 monkeyman535 的 90's Rock Style,地址 freesound.org;来自 kjartan_abel 的 Berlin Town,地址 freesound.org;基于 CC BY 4.0 DEED 使用
欢迎你去拓展体验和参考的概念:能打断的语音对话项目moshi.chat, 语音情感引擎Hume AI , Eleven Labs, 李开复做的语音识别, 端到端, 多模态, character ai
脑放电波往期节目精选(搜索关键词可收听)
脑放电波是一档关注科技前沿、品牌营销和个人成长的谈话类节目。每期带给您一个有趣有据的话题,帮您在信息严重过载的现代世界小幅自我迭代。您可以在小宇宙、苹果播客或者其他泛用型播客客户端搜索“脑放电波”找到并关注我们,如果您对本期节目有任何疑问,欢迎您给我们留言,如果您觉得这期内容对你有所帮助,欢迎您关注点赞收藏转发,这对我们非常重要。