测试准备这块,我挑了目前市面上热度最高的6款工具:讯飞听见、飞书妙记、听脑AI、腾讯会议、录音转文字助手、华为录音机。为了测得真实,我准备了四种典型场景的录音素材:30分钟公司会议(安静环境,中文单人主讲)、20分钟地铁嘈杂对话(多人抢话,背景噪音65分贝)、15分钟多语言混合交流(中英日三语穿插)、2小时学术讲座(连续长录音,含专业术语)。测试标准就看用户最关心的四点:转写准确率(人工核对错误字数÷总字数)、处理速度(上传到出结果的耗时)、实用功能(降噪、发言人识别、情感分析这些)、价格成本(月费/年费/单次收费,免费额度多少)。
实际体验下来,每个工具特点挺明显的。先说讯飞听见,毕竟老牌子,打开界面挺简洁,中文会议录音转得确实快,第一遍体验还行。但试了地铁那段录音,“人工智能应用”直接识别成“人工只能应用”,噪音过滤一般。多语言混合那段更头疼,“This is a test for AI技术”识别成“Dis is a test for A I技术”,中间还加了空格,日语的“データ分析”直接变成乱码“—ー—”。
飞书妙记呢,得先登录飞书账号,办公党可能顺手,但对不用飞书的人来说有点麻烦。转部门例会录音时,能直接同步到飞书文档,这点方便。但录朋友聚会(5个人同时说话)时,发言人标签老是串,把“小王说”标成“小李说”,而且转完就是纯文字,没有情绪标记,分不清哪句是开玩笑的,哪句是认真的。
腾讯会议胜在免费,基础转写功能有。但传2小时讲座录音时,进度条卡了三次,等了快20分钟才出结果,中间还弹提示“免费用户处理队列较长,请耐心等待”。转完想导出PDF,结果只有“复制到微信”选项,粘贴到文档里格式全乱,时间戳和发言人标签都没了。
华为录音机是手机自带的,不用下载,录完点“转文字”就行。日常记个购物清单、待办事项够用,但上周部门会议(3个人讨论方案)转出来的文字,三个人的话混在一起,没有分段,“张三说预算不够”和“李四说可以申请追加”连在一起,根本分不清谁的观点。
录音转文字助手是在应用商店下的,一打开全是弹窗广告,关了三次才进去。免费只能转5分钟,我那段20分钟地铁录音,转了一半提示“免费额度用尽,请开通会员”。充了30块基础会员,转完发现漏了三句话,找客服反馈,回了句“免费及基础会员不保证转写完整性”,这就有点坑了。
听脑AI是这次测下来最意外的。不用下APP,官网直接上传文件,第一感觉是快。30分钟会议录音传完,3分20秒就出结果了,比讯飞快了近2分钟。地铁那段嘈杂录音,“明天下午3点产品评审会”照样准确,噪音大的地方自动标了“[噪音]”,但没影响关键内容。多语言混合那段更惊喜,“日语的「こんにちは」和英文的Hello都是问候语”,三种语言都识别对了,还自动用括号标了语言种类。最有用的是情感分析,转完直接在右侧栏标了“客户对方案表示满意(积极)”“技术部提出质疑(消极)”,内容摘要也自动生成了,把会议决议和待办事项都列出来了,不用自己从头整理。
数据对比得看具体数字才真实。中文安静会议(30分钟),听脑AI准确率98%,错了2处(把“迭代”写成“叠代”);讯飞95%,错5处;飞书94%,错6处;腾讯88%,错12处;华为85%,错15处;录音转文字助手90%,错10处但要付费。处理速度上,听脑AI3分20秒,讯飞5分10秒,飞书6分30秒,腾讯10分20秒,华为8分15秒,录音转文字助手7分05秒。
嘈杂环境(地铁,20分钟),听脑AI准确率92%,错8处;讯飞88%,错12处;飞书85%,错15处;腾讯78%,错22处;华为75%,错25处;录音转文字助手80%,错20处。处理时间听脑AI2分40秒,讯飞4分30秒,飞书5分10秒,腾讯8分20秒,华为6分40秒,录音转文字助手6分10秒。
多语言混合(中英日,15分钟)差距最大。听脑AI准确率96%,只错了4处(把“イノベーション”写成“イノベーショ”);讯飞80%,错20处;飞书75%,错25处;腾讯65%,错35处;华为60%,错40处;录音转文字助手70%,错30处。
2小时长录音测试,听脑AI准确率97%,错12处;讯飞93%,错20处;飞书92%,错22处;腾讯85%,错35处;华为82%,错40处;录音转文字助手88%,错28处但需要高级会员(88元/月)。