本文作者:adminddos

给杰弗里·辛顿做AI翻译的科大讯飞,怎么解决智能硬件体验瓶颈问题?

adminddos 2025-07-28 09:47:00 2
给杰弗里·辛顿做AI翻译的科大讯飞,怎么解决智能硬件体验瓶颈问题?摘要: ...

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

在WAIC2025,“深度学习教父”杰弗里·辛顿作为今年的重磅嘉宾在主论坛发表演讲,在这背后,科大讯飞为其同传提供实时翻译支持。 

语音转写和AI翻译很早成为了讯飞对外的主要产品定位。这次WAIC之前,讯飞最新升级了其语音同传大模型能力,主要体现在时效上,其中英同传首字响应时间提升至最快2秒,对标人类高阶同传的行业标准要求。

图片来源:科大讯飞

这其中的创新在于文本自适应调度的流式语音合成技术,可以让模型实现边译边说。在准确度提升上,讯飞在医疗、制造业、金融等专业领域覆盖了超过8万个垂直领域专业词汇。 

在大模型技术兴起后,AI翻译这一场景天然适合讯飞这类此前有相关积累的公司做跟进投入。讯飞也由此训练了星火系列大模型,目前已更新至星火X1,在推理特性的基础上,尤为强调其多语言能力。 

所有正在走向规模化落地的AI应用场景中,智能硬件是被尤为看好的一个,也是讯飞通过录音笔、学习机、办公本等品类重点投入的方向,而AI翻译正是其中一个广为应用的功能。

不过,市场逐步成型的这段期间,智能硬件总体呈现“雷声大、雨点小”的态势。讯飞总体将智能硬件分为三类,第一类是以手机、PC为主的消费者较为熟悉的基础设备,第二类是可穿戴设备,第三类便是以家庭机器人为主的新型产品形态。

科大讯飞副总裁赵翔对界面新闻记者表示,智能硬件出现市场需求不足的情形,一方面在于不是真正解决了消费者需求,另一方面在于没有完全基于软硬件结合的思路解决问题。

赵翔认为,在AI翻译场景下,产品体验提升是一个软硬件强耦合的系统性问题。除了模型本身的性能提升,还需要做大量软硬一体化的优化工作。

以翻译机为例,在无网络情况下,翻译水平也要与有网络状态相匹配。讯飞为此引入了端侧大模型能力,而这对硬件的端侧算力提出更高要求。

与此同时,收音也是决定模型效果上限的关键因素之一。考虑可能遇到的嘈杂环境,讯飞的目标效果是翻译机一米距离以外的所有声音全部隔绝,这需要对硬件和算法同时进行处理。

此外,讯飞也正在考虑为翻译场景加入多模态能力,在语言和文本模态信息基础上,通过更多维度信息收集提升转写和翻译效果。赵翔表示,这一目标目前已进入研发阶段。

官方数据显示,截至目前讯飞同传已覆盖全球50多个国家和地区,但这对讯飞的小语种能力提出了更多考验,尤其是非母语者的口音识别问题。

科大讯飞研究院研发总监孔常青对界面新闻记者解释称,AI翻译涉及语音识别和机器翻译两个层面,如同两个人接力跑,从前者的识别误差到后者的翻译误差,口音造成的误差可能会被放大。

解决该问题有两个思路,一个是将标准和非标准口音都纳入模型训练数据的覆盖范围,另一个就是从系统衔接升级为端到端方案,大模型的语义理解能力可以更好消除口音造成的理解偏差。

阅读
分享