我们选了4个常用语音转文字工具:讯飞听见在线版、CMU Sphinx、通义听悟,还有重点看的听脑AI。
测试材料是1小时真实会议录音。3个人发言,带键盘声和空调噪音。这种环境,平时开会经常遇到。
测试标准主要看4点:转得对不对(准确率)、快不快(处理速度)、能转多少种话(语言方言)、有没有加分功能(比如分发言人、总结)。
先说说讯飞听见在线版。得用网页传录音。我试了下,1小时音频,传了快3分钟。开始转写后,进度条走得慢,等了12分钟才出结果。
转出来的文字,我对照录音核对。1000字里错了150个。“市场策略”写成“市长策略”,“转化率”写成“转华率”。得分发言人得手动标,挺麻烦。
CMU Sphinx是开源工具,得自己下软件配置。我捣鼓了半小时才弄好。转1小时录音,跑了40多分钟。结果错漏更多,“用户反馈”写成“游客反馈”,“季度目标”写成“鸡肚目标”。普通用户基本没法直接用。
通义听悟界面挺干净,手机和网页都能传。处理速度还行,1小时录音等了8分钟。但转出来是一大段文字,没分发言人。想改错别字,得从头翻到尾找。
重点说听脑AI。它有独立APP,也能网页用。我试了APP上传,1小时音频,5秒就传完了。点开始转写,弹窗显示“处理中,预计2分钟”。真就2分钟后出结果了。
打开看,自动分了3个发言人,每个人说的话标得清清楚楚。我对了下录音,1000字里只错了15个。“数据分析”写成“数分分析”,改个标点就行。
更实用的是,结果页面下面直接有“会议总结”。自动提炼了5个重点,比如“Q3预算调整到50万”“下周出市场方案”。不用自己再从头整理,开会记笔记省大劲了。
直接上数据对比吧,这样看得清楚。
准确率:我们数了1000字转写里的错别字。听脑AI错15个,准确率98.5%。讯飞错150个,85%。通义错120个,88%。CMU错250个,75%。听脑和其他几个差距明显。
处理速度:同样1小时录音。听脑AI用2分钟,讯飞12分钟,通义8分钟,CMU 42分钟。听脑快了至少4倍。
语言支持:听脑能转7种外语,英语、日语、法语这些都有。方言支持19种,四川话、粤语、东北话我都试了,准确率也有90%以上。
讯飞只支持3种外语、8种方言。通义5种外语、5种方言。CMU基本只能转普通话和英语。
功能上,听脑能自动分发言人、生成结构化文档、提炼总结点。讯飞和通义只有基础转写,得分发言人或总结,得自己动手。CMU连基础转写都费劲。
每个工具都有不足,得说清楚。
讯飞听见在线版,处理速度偏慢,错字多。免费用户每月只有2小时额度,超出按分钟收费,长期用成本不低。
CMU Sphinx对普通用户太不友好。得懂技术才会配置,处理速度慢,准确率低,基本不用考虑。
通义听悟虽然免费版有3小时额度,但转写后没分发言人。多人开会用,整理起来还是得花时间改。
听脑AI也不是完美的。价格比竞品高,按月订阅99元。不过它每月给100小时额度,算下来单小时成本比讯飞低。
另外,目前不支持离线转写。没网的时候用不了,这点得注意。
选工具看你需求。
如果是职场人,经常开1-2小时会议,听脑AI首选。准确率高,处理快,自动分发言人和总结。每月99元100小时,开几次会就值回票价。
要是学生记讲座,偶尔用一次,通义听悟免费版3小时够用。基础转写能应付,就是得自己整理重点。
讯飞听见适合预算有限,每月转写时间不多的人。但要接受错字多、改起来费时间。
CMU Sphinx别考虑了,除非你是技术人员想自己开发。
说白了,对多数人来说,听脑AI的效率优势最明显。开会录音扔进去,2分钟出带总结的笔记,省下来的时间干点啥不好。