你好,这里是科技前哨,继续跟你分享新兴科技企业有关的新鲜见闻。
6月22日,美国一家实时语音翻译公司Sanas获得了3200万美元的融资,被不少美国媒体称为近几年来唯一一家获得投资的人工智能语音企业。
实时语音翻译这个服务已经有很多家公司在做,Sanas为什么会获得资本的青睐呢?
原来Sanas的翻译服务并不是我们多数人想到的语言翻译,而是口音翻译服务,简单说就是它能把东北口音、四川口音的普通话转换成标准普通话,按他们的说法,能实现更顺畅的交流,提高服务的水平和效率。
Sanas的方案是很新奇的,目前市场上同类别的服务也几乎没有,Sanas的口音翻译是个好生意吗,它是通过什么技术实现的呢?科技前哨带你一探究竟!
1.移民者的公司
Sanas由3名斯坦福大学生在2020年创办的,3位创始人都来自移民家庭,首席执行官Maxim Serebryakov来自俄罗斯,首席技术官Shawn Zhang来自中国,首席财务官Andres Perez Soderi则来自委内瑞拉,除了创始人外,公司其他的员工中有80%也来自于移民家庭。
Sanas创立也与三位创始人的成长经历相关,根据公开采访报道,他们在成长中都经历过英语口音的偏见和歧视。
创办公司最后的导火索,来自他们共同的朋友Raul的工作经历,Raul是尼加拉瓜人,由于疫情影响,斯坦福的课程都从线下切换到了线上,Raul也返回了自己的国家,为了补贴家用,他开始寻找英语水平高的工作。
因为他还没拿到大学的毕业证,所以他只能凭高中文凭找到一个技术公司电话客服的工作,斯坦福大学生去当电话客服,所有人都以为他会成为那里最好的技术人员。
结果却十分出人意料,Raul任职期间,每天都会受到对于他口音的歧视,很多客户甚至会因为他的口音骂人。
三位创始人对Raul的经历深有同感,为了解决这个问题创办了Sanas,要让世界各地的人都能避免因为口音而造成生活工作上的麻烦。
2.人工智能助力更自然的语音
Sanas的口音翻译服务不是简单把你说的话翻译成标准普通话,它最厉害的地方是能非常好的复制你的声音,有的测试者自己都听不出来AI加工后的样子,只觉得自己发音标准了就会是这样。
这是如何实现的呢?
这个技术的开发其实花了不少时间。
第一版,他们的想法其实很简单,用AI识别说话人讲的内容,翻译成文字,再用另一个AI把它读出来。
实验后他们发现,这样不仅达不到实时翻译的目标,语音的生成也是一个大问题。
第二版,他们请教了斯坦福大学的教授和专家后,决定用一套AI解决所有问题,三人花了数月时间搭建了这个版本的人工智能算法。
他们选择的解决方案很有意思,先用AI识别说话者的声音,只选择有口音的片段进行修改,相当于在对话中有个声音编辑时刻等待,你的口音一旦出现,它就把它做修饰回来。
经过他们测试,这套算法在本地CPU上运行,延迟可以降低到150毫秒,一般来说,在用视频或音频软件通话时低于350毫秒的延迟时很难被察觉,达到了可用状态。
经过一段时间的调试修改后,他们推出了目前的软件服务,可以用作电话或者计算机里的虚拟麦克风插件,当用户通过音视频软件通话时就可以实时将口音进行转换输出。
三人计划在英语中添加更多的口音,也会加入更多其他语言的口音,包括西班牙语和法语等等。
3.口音翻译市场买单
2021年,Sanas成立一年后就收到了550万美元天使轮融资,当时的投资人对于这个项目能否成功心里也是没有底,但是没想到市场对这项服务却格外买单。
Sanas的第一批客户是呼叫中心公司,他们希望利用Sanas的技术来提供电话客服的功能,有7家公司找上门希望运行Sanas的这套系统,这其中包括保险巨头公司 Assurant 和 BPO leviathan Alorica,还有大型催收代理公司 ERC 和旅游公司BPO IGT等等。
得到了良好的市场反响之后,Sanas 吸引了更多的市场投资者,尤其是那些本身就是移民的投资者,2022年6月22日,Sanas 获得了由Insight Partners 领投的 3200 万美元的 A 轮融资。
Sanas 的计划是利用这笔资金继续扩大它的业务,虽然公司的第一批对象是呼叫中心公司,但三位创始人认为自己可以进入更多的领域,并开始为企业中的其他需求做准备。
根据他们的规划,未来这套软件还能作为视频通话的插件使用,也能帮助机器学习理解更广泛的口音;公司也在着手帮助提高企业中语音转录文本的准确度。
一次采访中他们透露,这套算法如果用到录音笔这类硬件里,还可以提高 20.5% 的转录准确度。
技术成熟后,只是关注技术本身就会陷入到此为止的想法里,实际上技术成熟只是个开始,寻找技术的落地场景,将新技术的优势运用到产业里就会有意想不到的效果。
Sanas的口音翻译给我们展示了智能语音还有什么样的想象空间,也告诉我们技术需求和想象并不总是相同,原本To C的产品其实需求在企业里。
从技术趋势来看,Sanas未来面临的挑战还不小,虽然他们开放的这套算法通过嵌入视频服务并不容易复制,却也不是他们永远的护城河。
今天他们的当务之急是快速推广自己的软件,让自己的方案与客户的业务深度绑定,最优方案是将产品云服务化,嵌入到自己的视频、语音软件,再进一步做成企业的语音客服平台。
当然,这条道路不会一番风顺,如果他们发展够快,最大的可能是被某个大企业收购,成为其中的功能;如果发展受阻,很有可能眼睁睁看着别人推出和自己相似的功能,走向没落。
以上就是今天的内容,希望你能有所收获,如果你喜欢我们的节目,欢迎分享给你的朋友,这会对我们非常有帮助,更多精彩内容明天再见~
科技前哨,每天都为你点亮。
如若转载,请注明出处:https://www.ixoh.com/22323.html