文章详情

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,
2025-04-26 04:03:50
文章详情介绍
继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。
目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。同时,OpenAI也提供了一个名为OpenAI.fm的演示网站,供个人用户进行初步体验。
核心功能大揭秘
那么,这款备受期待的 gpt-4o-transcribe 究竟有何独到之处呢?简单来说,它可以看作是OpenAI两年前发布的开源语音转录模型Whisper的升级版,目标是提供更低的文字错误率和更强大的性能。
根据OpenAI官方数据显示,在行业标准的33种语言测试中,gpt-4o-transcribe的错误率相较于Whisper有了显著下降,尤其在英语方面,错误率更是低至2.46%!这对于需要高精度语音转录的场景来说,无疑是一个巨大的进步。
更值得一提的是,这款新模型在各种复杂环境下都能保持出色的性能。无论是身处嘈杂的环境,面对不同的口音,还是处理快慢不一的语速,gpt-4o-transcribe都能提供更准确的转录结果,并且它还支持超过100种语言。
为了进一步提升转录的准确性,gpt-4o-transcribe还加入了噪声消除和语义语音活动检测技术。
OpenAI的技术人员Jeff Harris解释说,后者可以帮助模型判断说话者是否讲完了一个完整的想法,从而避免断句错误,提高整体的转录质量。此外,gpt-4o-transcribe还支持流式语音转文本,开发者可以持续输入音频并实时获得文本结果,使对话感觉更加自然。
需要注意的是,gpt-4o-transcribe模型家族**目前并不具备“说话人分离”(diarization)**的功能,也就是说,它主要专注于将接收到的音频(可能包含多人的声音)统一转录成文本,而不会区分和标记不同的说话人。
虽然这在某些需要区分发言人的场合可能有所限制,但其在提高整体转录准确性方面的优势依然显著。
开发者先行:API接口已开放
目前,gpt-4o-transcribe已经通过OpenAI的API接口提供给开发者使用。这意味着,开发者可以快速将这一强大的语音转录能力集成到自己的应用程序中,为用户带来更便捷的语音交互体验。
据OpenAI在直播中演示,对于已经基于GPT-4o等文本大模型构建的应用,只需要大约九行代码 就能轻松添加语音交互功能。例如,电商应用可以快速实现语音回复用户关于订单信息的咨询。
不过,OpenAI方面也表示,考虑到ChatGPT在成本和性能方面的特殊需求,这些新模型暂时不会直接应用于ChatGPT,但预计未来会逐步整合。对于追求更低延迟、实时语音交互的开发者,OpenAI推荐使用其Realtime API中的语音到语音模型。
凭借其强大的语音转录能力,gpt-4o-transcribe有望在多个领域大显身手。OpenAI认为,例如客户呼叫中心、会议纪要自动生成以及AI驱动的智能助手等场景都非常适合应用这项技术。一些已经体验过新模型的公司也反馈称,OpenAI的音频模型显著提升了语音AI的性能。
当然,OpenAI也面临着来自其他语音AI公司的竞争,例如ElevenLabs推出的Scribe模型也具备较低的错误率和说话人分离功能。此外,Hume AI的Octave TTS模型则在发音和情感控制方面提供了更精细的自定义选项。开源社区也有不断涌现的先进语音模型。
根据您提供的源,以下是 OpenAI 新语音模型的定价信息以及一些相关的竞品价格:
模型API定价:
- gpt-4o-transcribe: 每100万个音频输入 tokens 的价格为 $6.00,约合每分钟 $0.006。
- gpt-4o-mini-transcribe: 每100万个音频输入 tokens 的价格为 $3.00,约合每分钟 $0.003。
- gpt-4o-mini-tts: 每100万个文本输入 tokens 的价格为 $0.60,每100万个音频输出 tokens 的价格为 $12.00,约合每分钟 $0.015。
竞品模型定价:
- ElevenLabs Scribe: 每小时音频输入的定价为 $0.40,约合每分钟 $0.006。
- Orpheus3B: 基于 Apache2.0许可开源,开发者可以免费使用,但需要自备相应的硬件或云服务器。
需要注意的是,不同模型的计费方式可能存在差异(例如,基于 token 数量、时长等),因此直接比较价格时需要考虑这些因素。
OpenAI此次发布的gpt-4o-transcribe等新语音模型,在语音转录领域展现出了强大的实力和潜力。虽然目前主要面向开发者,但其在提升语音交互体验方面的价值不容忽视。未来,随着技术的不断发展,我们或许能看到更多令人惊喜的语音AI应用涌现。
网站:https://top.aibase.com/tool/openai-fm
官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/
最新星火攻略
更多- 7777777亚洲和欧洲尺码表:探索适合游戏玩家的理想装备选择
- 生数科技Vidu成功获得七部千万级网络文学IP概念短片的改编授权,助力创意影视发展
- 长沙市发布“超智融合”基础教育大模型以推动智能教学新模式的创新发展
- 奥比岛账号安全与防护措施:如何避免账号被盗以及保护个人信息的合法途径
- Arcade.dev 成功获得 1200 万美元融资,推动 AI 代理安全高效执行各种任务
- Pruna AI 发布创新开源框架,提升 AI 模型压缩效率与性能
- 上海浦东聚焦人形机器人与大型模型技术,致力于建设创新型产业园区
- 百度携手华为鸿蒙共同推出创新型 AI 搜索模式“百看计划”,引领未来技术发展新潮流
- 地下城与勇士的最新排行榜分析:深入探讨DNF各职业表现与实力排名
- 赛力斯宣布成立新技术公司,涵盖人工智能与机器人相关业务领域,推动未来科技发展
- AI日报:OpenAI推出史上最昂贵的o1-pro API;腾讯全新混元推理模型T1即将发布;阶跃星辰开源Step-Video-TI2V视频生成模型
- 奥拉星帝皇圣龙攻略详解 如何有效击败奥拉星帝皇圣龙获取胜利
- 软银收购Arm架构芯片设计公司Ampere Computing,以增强其在人工智能领域的战略布局
- 杭州六小龙推出新一代开源模型SpatialLM,推动机器人快速理解三维世界的能力革新!
- ChatGPT 因“诽谤性”捏造儿童谋杀故事遭隐私投诉
最新星火智能
更多- 精灵宝可梦阿罗拉冒险:畅游太阳·月亮中的魔幻世界,探索未知的神奇精灵
- 国产深海小型机器人成功达到一万米深海并实现多种运动模式,荣登国际顶尖学术期刊
- 运动掌控新时代!阶跃星辰 Step-Video-TI2V 图生视频模型现已开源,助力创意无限
- Meta AI时隔将近一年再次回归欧洲市场,首度推出文本对话功能以满足用户需求
- 谷歌Chrome浏览器将整合Gemini AI助手,让用户操作变得更加便利!
- LG宣布开源EXAONE Deep推理AI模型,称其为韩国首个自主研发的人工智能推理解决方案
- 猫王音响拥抱AI科技:传统音响的智能化转型与未来发展
- 深圳推出人工智能先锋城市建设项目支持方案实施细则全面解读
- 东莞建立中国首个专注于制造业的城市级人工智能大模型中心,推动产业智能化转型
- 高阶用户的理想选择?OpenAI推出O1-Pro推理模型,百万Token售价高达600美元令人瞩目
- 腾讯混元再度发力,全新推理模型T1将于3月21日晚正式发布,敬请期待新科技盛宴!
- Google Chrome将整合Gemini AI技术,为用户带来更加智能化的浏览体验升级
- 大话西游3自由人序列号获取解析 与大话西游3自由人序列号使用技巧详解
- Adobe推出“Project Slide Wow”项目,让数据瞬间变换为引人注目的精彩PPT演示文稿
- Orpheus TTS:新一代人类情感表达贴近的语音合成模型