OpenAI发布新一代语音模型,让AI智能体语音表达更自然

3月21日消息,OpenAI昨日(3月20日)发布博文,宣布推出语音转文本(speech-to-text)和文本转语音(text-to-speech)模型,提升语音处理能力,支持开发者构建更精准、可定制的语音交互系统,进一步推动人工智能语音技术的商业化应用。

在语音转文本模型上,OpenAI主要推出了gpt-4o-transcribe和gpt-4o-mini-transcribe两个模型,官方表示在单词错误率(WER)、语言识别和准确性上超越现有Whisper系列。

这两个模型支持超100种语言,主要通过强化学习和多样化高质量音频数据集训练,能捕捉细微语音特征,减少误识别,尤其在嘈杂环境、口音及不同语速下表现更稳定。

在文本转语音上,OpenAI最新推出了gpt-4o-mini-tts模型,开发者通过“模拟耐心客服”或“生动故事叙述”等指令,控制语音风格,可以应用于客服(合成更具同理心的语音,提升用户体验)和创意内容(为有声书或游戏角色设计个性化声音)方面。

今日霍州(www.jrhz.info)©️

援引博文介绍,附上三款模型费用如下:

gpt-4o-transcribe:音频输入每100 万tokens费用6美元💵、文本输入每100万tokens费用2.5美元💵,输出每100万tokens费用10美元💵,每分钟成本0.6美分。

gpt-4o-mini-transcribe:音频输入每100万tokens费用3美元💵、文本输入每100万tokens费用1.25美元💵,输出每100万tokens费用5美元💵,每分钟成本0.3美分。

gpt-4o-mini-tts:每100万tokens输入费用为0.60美元💵,每100万tokens输出费用为12美元💵,每分钟成本1.5美分。

特别声明:[OpenAI发布新一代语音模型,让AI智能体语音表达更自然] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

2025年最新家庭宽带选购指南(2025年最新家庭剧)

带宽适用场景推荐品牌100-200M1-2 人日常浏览、视频、轻度游戏移动爱家或联通;300M3-4 口之家、基础智能家居、网课首选移动爱家>电信>联通500M重度视频、游戏、多设备同时使用移动优惠比较大、…

2025年最新家庭宽带选购指南(2025年最新家庭剧)

光刻胶危机:去年从日本进口100亿元,55%依赖日本(光刻胶未来趋势)

虽然近年来中国在光刻机领域取得了很大的进展,但在光刻胶方面,自给率仍然不高,甚至不到20%。日本是中国光刻胶进口的主要来源,占了大约55%的份额。市场规模相对较小,使得许多企业在考虑是否加大研发投入…

光刻胶危机:去年从日本进口100亿元,55%依赖日本(光刻胶未来趋势)

张真源告别跑男泪洒现场!真实情感引爆热搜,粉丝怒喊公平对待(张真源新歌)

张真源作为时代少年团中少有的个人常驻综艺成员,这档节目对他而言意义非凡。在综艺内容日益同质化的今天,观众早已厌倦精心设计的“人设”,反而更渴望看到有血有肉的真实个体。 更深层的意义在于,这起事件映射出当代青年…

张真源告别跑男泪洒现场!真实情感引爆热搜,粉丝怒喊公平对待(张真源新歌)

曾经的歌坛天后,经历三次波折感情后,如今嫁富豪成为人生赢家(曾经的歌坛天后是谁)

「长大后再听孙悦的歌,每一句都像精准的箭,戳中当代打工人的心房。那首《祝你平安》更似灵魂四连问,让无数在生活里奔波的人心头一颤。可谁能想到,这首温暖了无数人的歌,当年却是一场惊心动魄的豪赌,而它的歌者孙悦,人…

曾经的歌坛天后,经历三次波折感情后,如今嫁富豪成为人生赢家(曾经的歌坛天后是谁)

孕妇补品选深海野生老胶靠谱吗?揭秘250g28头鱼泡花胶的功效与选择标准(适合孕妇吃的深海鱼有哪几种)

孕妇挑选深海野生老胶作为滋补品越来越受青睐,250g28头鱼泡花胶更是『明星』️产品。本篇文章深入解读这类深海珍品的营养成分、功效特点及如何鉴别正品。从日常饮食搭配到选购技巧,为您全面解析,让您安心滋补。

孕妇补品选深海野生老胶靠谱吗?揭秘250g28头鱼泡花胶的功效与选择标准(适合孕妇吃的深海鱼有哪几种)