文章详情

OpenAI近期在语音技术领域取得了显著进展,于3月20日正式宣布推出全新的语音转文本及文本转语音模型,这一举措旨在增强语音处理能力,并为...
2025-04-03 23:32:01
文章详情介绍
OpenAI近期在语音技术领域取得了显著进展,于3月20日正式宣布推出全新的语音转文本及文本转语音模型,这一举措旨在增强语音处理能力,并为开发者提供更加精确和可定制化的语音交互系统解决方案,进一步推动人工智能语音技术的商业化落地。
在语音转文本方面,OpenAI推出了两款重量级模型:gpt-4o-transcribe和gpt-4o-mini-transcribe。据官方介绍,这两款模型在单词错误率、语言识别准确性和性能方面,均超越了现有的Whisper系列模型。它们能够支持超过100种语言的识别,通过强化学习和多样化的高质量音频数据集进行训练,有效捕捉语音中的细微特征,显著减少了误识别率。特别是在嘈杂环境、口音差异以及不同语速下,这两款模型表现出了更加稳定和出色的性能。
对于文本转语音领域,OpenAI推出了gpt-4o-mini-tts模型。这款模型允许开发者通过指令控制语音风格,如“模拟耐心客服”或“生动故事叙述”,从而满足多样化的应用场景需求。在客服领域,gpt-4o-mini-tts能够合成更具同理心的语音,提升用户体验;在创意内容方面,它则能够为有声书或游戏角色设计个性化声音,带来更加丰富和生动的听觉体验。
OpenAI在发布的博文中还详细公布了这三款模型的费用情况。gpt-4o-transcribe模型对于音频输入、文本输入和输出的费用分别为每100万tokens 6美元、2.5美元和10美元,每分钟成本为0.6美分。相比之下,gpt-4o-mini-transcribe模型则更加经济实惠,音频输入、文本输入和输出的费用分别为每100万tokens 3美元、1.25美元和5美元,每分钟成本为0.3美分。而gpt-4o-mini-tts模型的费用则为每100万tokens输入0.6美元,输出12美元,每分钟成本为1.5美分。
此次OpenAI推出的全新语音转文本和文本转语音模型,不仅提升了语音技术的性能和准确性,还为开发者提供了更加灵活和多样化的应用方案。随着人工智能技术的不断发展,这些模型有望在更多领域得到广泛应用,推动人工智能语音技术的进一步普及和商业化。
最新星火攻略
更多- 菠萝蜜在线观看免费播放电视剧:沉浸式游戏体验带你领略不一样的游戏世界
- 小米最新专利:AI智能调度技术,有效缓解网络资源压力
- 国产东京热精品视频—国产东京热精品视频,真的是你想象中的那样吗?
- 如何参加2025年英雄联盟全球先锋赛-门票购买入口及相关信息
- 王者荣耀势力对抗模式的游戏技巧与策略分享
- 怪物猎人荒野钓鱼攻略-获取黄金鱼与白金鱼的最佳钓点位置分享
- 甜甜萌物语同人祭第12话:S级省钱达人炫酷搭配秘籍大公开
- 铁威马2025经销商大会:共同描绘未来存储愿景,携手挑战与超越新局面!
- 解读“英雄联盟大满败”的含义及其在游戏中的影响
- 剑侠情缘手游凌绝峰杨熙烈攻略大全:通关技巧详解与战斗策略分享
- 龙息神寂预抽卡活动网址分享及参与入口在哪里获取
- 苹果Meta微美全息:AI与AR技术如何颠覆未来智能眼镜产业发展?
- 航海王热血航线贝拉密技能加点指南:实战推荐与攻略分享
- 以牧羊人之心探索龙纹勋章获取攻略:一步步成就荣耀勋章的秘诀
- 关于明日之后全部菜谱图片的详尽展示与美食探索
最新星火智能
更多- 如何开启鸣潮龙鲡钓点?详细步骤与技巧解析
- Keep All in AI是否可能成为实现企业盈利转机的关键一步?
- 剑侠世界手游武当门派技能全面解析:深度探讨其技能特点与实战应用
- 金铲铲之战中的齐天大圣全面解析:技能、实战表现及角色价值深度探讨
- 《幻塔新篇章:22全新角色荣耀登场》
- 巜少妇的味道2:在游戏世界中探索神秘与感官交织的奇妙体验
- psp版钢铁侠游戏全关卡图文攻略详细分析
- 华为云在MWC2025推出全新专业服务,携手全球客户开启AI与数字化转型新篇章
- 美版iPad 11或将搭载美国制造的A16芯片,台积电亚利桑那厂面临新挑战
- 中字hd丈夫的下属的成就:展现卓越领导力与团队合作精神的典范
- 宏翔小蓝视频gy2023的评价【如何评价宏翔小蓝视频 gy2023?】
- 天天酷跑曙光女神万米跑法攻略:搭配推荐与爆分组合详解
- 《龙族幻想:青铜五星挑战的突破之路》
- 鸿海推出首款大型语言模型FoxBrain,具备先进推理能力,并计划未来部分开源
- MWC 2025展望:中兴与中国移动共同推出全方位国产AI智能终端新产品