一家名为 Panjaya 的创业公司正在彻底改变视频翻译的游戏规则。经过三年秘密研发,该公司推出了突破性产品 BodyTalk,这是一款能够将视频中人物声音精准转换为其他语言的 AI 工具。不同于传统配音,BodyTalk 不仅能完美复制说话者的原声特征,还能自动调整视频中人物的面部表情和肢体动作,使其与新语言的语音模式自然匹配。
Panjaya 由两位以色列政府深度学习专家希利克·沙尼(Hilik Shani)和阿里尔·沙洛姆(Ariel Shalom)创立。2021年,两人离开政府部门创业,随后迎来了具有丰富行业经验的盖伊·皮克兹(Guy Piekarz)担任 CEO。皮克兹此前创立的流媒体发现与推荐平台 Matcha 曾在2013年被苹果公司收购。
图源备注:图片由AI生成,图片授权服务商Midjourney
目前,BodyTalk 已支持29种语言的翻译。其工作流程首先是进行音频翻译,然后生成模仿原声说话者的新语音,最后自动调整视频中说话者的口型和动作以匹配新的语言表达。虽然处理时间已接近实时,但目前仍需要几分钟才能完成一段视频的处理。
在技术层面,Panjaya 采用了混合策略,既利用第三方大语言模型,也自主研发核心技术。据皮克兹介绍,公司的唇形同步引擎完全由内部 AI 研究团队开发,因为市面上没有能满足其多角度、多说话者等复杂商业场景需求的解决方案。
公司目前专注于 B2B 市场,已与 JFrog 和 TED 等机构达成合作。TED 表示,使用 Panjaya 工具配音的讲座视频观看量增加了115%,完整观看率翻倍。公司计划进一步拓展体育、教育、营销和医疗等领域的应用。
为了避免技术滥用,Panjaya 严格控制工具的使用权限,并计划开发水印等功能来识别经过合成的视频内容。尽管字幕已成为视频内容的标配——据 CBS 调查显示,超过一半的美国观众会在观看时开启字幕——但国际市场对配音内容的需求依然巨大。研究机构 CSA 的数据表明,特别是在 B2B 领域,母语内容能带来更高的用户参与度。
此轮950万美元融资由多家投资机构和个人参与,包括 Viola Ventures、R-Squared Ventures 以及 JFrog 联合创始人兼 CEO 什洛米·本·海姆(Shlomi Ben Haim)等。未来,Panjaya 计划推出 API 接口,并进一步提升处理速度,向实时处理的目标迈进。