听写服务升级为录音笔OS,搜狗AI如何行业改造?

"

机器之心原创

作者:吴昕

老瓶换新酒,搜狗如何推动录音笔市场升级?

存在于 20 多年的录音笔市场,几乎和 MP3 同岁,但后者已经销声匿迹。仅限于扩容、续航、外观改造的传统录音笔,在智能手机日益普及后逐渐进入了增长瓶颈期,产品同质化也越发严重。

据新思界产业研究中心发布的《2019-2023 年录音笔行业深度市场调研及投资策略建议报告》显示,从 2015 年到 2017 年,全国录音笔销量以龟速从 425 万台增至 432 万台。

录音笔如何避免步入 MP3 后尘,在市场中博得生机,成了眼下急需解决的问题。

作为一家语音技术服务商,搜狗试图充当搅动市场的鲶鱼。继今年春天搜狗推出 AI 录音笔 C1,半年后,搜狗用具体行动进一步深挖录音笔市场潜力。近日,搜狗宣布开放其核心技术能力「搜狗听写」服务,并牵头爱国者、万城集团、索尼录音笔、纽曼四家录音笔行业头部企业成立 AI 创新联盟。

搜狗 AI 交互技术中心总经理王砚峰对「听写服务」的角色进行了定位——录音笔 OS,它不同于市场上众多同类服务的原因,主要是它既提供转写、云端、智能编辑等强大的中台服务,还凭借搜狗输入法提供快速接入和硬件匹配的便利。正如 Google 的安卓系统对于手机,微软 Windows 对于电脑,搜狗希望将开放的听写服务打造成录音笔的「操作系统」,这是 AI 技术实现更大商业化的生态打法。

系统服务如何赋能?

AI 加持或将会为行业迎来新的转折点,这是近几年来录音笔行业内的普遍共识。但传统数码录音笔厂商在 AI 技术的研发上较为欠缺,且语音识别和转写技术壁垒较高。

基于搜狗转写技术的搜狗 AI 录音笔 CI 已经得到了市场的检验和认可,其具备实时互译、云端分享、中英同传等多种 AI 功能,以及高达 95% 以上的转写准确率都备受用户青睐,上市后极短时间内就在多个电商平台取得了单品销量第一的成绩等。

搜狗决定将听写服务体系开放出来,进而推动整个录音笔行业的 AI 化变革,这也是搜狗践行其 AI 战略的一次有效尝试,或将让传统录音笔行业从单纯依靠硬件销售的模式转向硬件+软件双服务的商业模式。

在开放「听写服务」的策略上,搜狗避开了做开放性平台向厂商提供 API 接口的传统模式,而是瞄准「录音笔的 OS」——通过蓝牙开放协议,让合作厂商零成本接入,让用户通过 PC 和移动端享用搜狗听写增值服务。

目前搜狗输入法语音请求峰值已超 7 亿次,稳居全球最大的中文语音应用,依托于此,搜狗听写服务背后的转写技术已处于行业领先地位,此外开放的转写技术方案包括:

1、完善和高准确度的转写技术。实时语音转写运用了搜狗自研的延迟可控的 Adaptive Attention-based 端到端建模技术,非实时语音转写功能使用业界领先的深层 Transformer-based 端到端语音识别技术,语音转写准确率可达 95% 以上。

2、接入搜狗输入法。由于用户一般会使用同一个输入法账号,基于用户长期使用的数据积累,系统可以为用户会建立起个人的输入词库,使用户常用的专业词汇、人名地名会被轻松识别。

3、多端同步编辑。无论在 PC、安卓还是 iOS 上,用户都可以同步对录音转写的文字,进行编辑。未来输入法可以提供录音文件的导入,导入完了以后进行闭环的管理和编辑等一系列功能,即使用户没有带录音笔,换一个电脑登录自己的输入法,也可以把录音文件同步过来,进行跨电脑的编辑。同时由于配备了声纹识别能力,转写的文字可自动区分出说话人的角色,进行分段整理文字。

4、智能编辑。搜狗转写服务可以通过云端智能纠错编辑技术,基于词图搜索和输入纠错模型,针对置信度低的转写结果提供多个候选词,帮助用户对转写结果进行纠正,同时还具备了良好的自动区分说话人、智能文本顺滑和标点预测等能力,可以为用户提供更多便捷功能。

5、云存储服务。用户的录音和文字都能作为一种资产,长期保存在云端。

此外,在语音增强方面,搜狗自研的 Smart Voice 麦克风阵列算法能够对噪声和混响进行多重深度优化,确保人声的高保真还原。

值得一提的是,本次搜狗听写服务实现了与搜狗输入法的打通,这不仅为听写服务带来了流量和数据上的巨大优势,同时更是搜狗输入法「表达信息更简单」使命的延伸,也是搜狗听写服务相比其他语音转写平台的优势所在。

目前,搜狗输入法在 PC 端占有 99% 的市场份额,在手机端用户日活超 4.5 亿,搜狗听写服务基于搜狗输入法的用户使用习惯,能够自动构建个性化识别网络,使用户常用语错误率下降 40%。

搜狗开放听写服务后,可以为市场上 90% 以上的录音笔产品提供接入服务,让所有有需求的用户享受「录音 1 小时,出稿 5 分钟」的极致体验。

搜狗公司 AI 交互技术中心总经理王砚峰坦言,未来 AI 赋能一定会越来越重,搜狗开放服务是做了一件很重的事儿。

一直以来,传统录音行业的研发重点都在于人声保真和场景降噪,录音音频的后续生产力转化一直被行业所忽略。

基于搜狗听写服务,搜狗创新性地开拓出一个专业化的录音文件后期智能处理平台,帮助用户轻松实现录音音频向文字的转化,有效节省人力和时间成本,使音频不仅「可听」而且「可看」,也推动着多年来进度滞缓的录音笔行业实现创新跃迁式发展。

联盟意味着什么?

发布会现场,搜狗联合爱国者、纽曼、索尼录音笔、万城集团成立了 AI 创新联盟。现在购买合作厂商录音笔的用户可以通过两条路径享用搜狗听写服务:对于市面上的现有产品,用户将录音笔 USB 接口插入电脑,搜狗输入法就能探测到录音笔的插入,开始按需执行语音转写服务;对于 AI 创新联盟内企业未来研发的新品,在移动端开放蓝牙协议后,用户通过蓝牙与搜狗录音助手相连,就可以实时完成语音转写服务。

可以预见的是,这四大录音笔生产厂商的加盟将为 AI 录音笔市场带来一股软硬融合的推动力量。从以硬件为主的单一收益模式向硬件+服务的多种收益模式转变,促进录音笔行业实现全面智能升级,与 AI 创新深度融合。

而在软件端,通过听写服务接入的输入法,还将为录音笔市场带来庞大的流量池。目前搜狗输入法 APP 端拥有超过 4.5 亿的日活用户,PC 端更是占据 99% 的市场份额。目前该流量池已经与搜狗的智能转写服务打通,未来应用这一服务的用户将会越来越多。

由于打开输入法时使用具体的账号,像特定领域和行业以及个性化词汇都存储在自己的账号里,因此转录的时候,转录结果也会贴近你的词库。

这也意味着搜狗开放给录音笔在语音识别、智能纠错等等方面的能力会在反复应用中不断锤炼提升,层出不断的新俚语、新术语也能通过云端同步其中,录音笔产品技术能力的成长体系得到了保障,长远来看其工具价值呈现出了一种稳步上升的状态。

会上,搜狗 CEO 王小川重申了公司的 AI 战略。他表示,搜狗很少自称 AI 公司,但作为一家底色是技术型公司的互联网公司,AI 是我们的技术之一。搜狗的使命是让表达和获取信息更简单,输入法是帮用户表达信息,搜索是帮用户获取信息。

坚持「自然交互」与「知识计算」双驱动是搜狗的 AI 发展路径。落实到具体产品上,主要为语音交互系统知音 OS 和知识计算平台深智引擎。换句话说,落实在信息表达和信息获取两个层面。

目前,搜狗输入法语音请求峰值超过 7 亿次。在从文字走向语音的道路上,搜狗一挥手获得了巨大的市场份额。同时,搜狗的 AI 语音合成功能、搜狗分身都在今年成为 AI 界的重要新闻。

通过 AI 录音笔创新、开放搜狗语音转写服务、建立 AI 创新联盟,搜狗打通了录音笔的产品、技术与产业三个层面的链条,有望推动录音笔行业进入 AI 时代。

随着 AI 落地进入深水期,互联网公司不再满足于通过单点技术来实现应用功能,而是融合数据、技术和流量池优势,通过联合产业、平台开放来打造持续成长的生态以创造更大的价值。

作为录音笔行业的新势力与破壁者,搜狗凭借自己的 AI 技术优势与硬件能力,率先打破僵局的勇气可嘉。进一步,通过开放听写服务并与多家企业达成联盟,不仅能给录音笔市场注入新的增长动力,更能够通过 AI 赋能更多合作伙伴为产品注入 AI 灵魂,同时也使得录音笔行业的商业模式从硬件收费模式向硬件+服务模式转变,推动整个行业的 AI 化转型。

".slice(6, -6)