7月28日,“科大讯飞高级别高水平多语言基座大模型国际学术研讨会”会上,10位来自中国、英国、匈牙利、塞尔维亚、以色列、伊朗、泰国、马来西亚、柬埔寨等地行业资深AI专家进行主题演讲。多位专家达成共识:在全球化深入发展的今天,多语言大模型不仅是技术创新的成果,也是推动文明交流互鉴的重要工具。
多语种技术为走出去提供保障
科大讯飞研究院院长刘聪在主题演讲中表示,未来的多语言模型将围绕三个核心方向展开:一是推进“语音+文本”多模态数据的共建共享,打通不同模态之间的语义壁垒;二是打造具备原生多语种语音能力的大模型底座,增强模型对全球语言生态的原生感知力;三是构建融合跨语言知识迁移能力的多语言通用大模型,实现不同语种间的知识迁移与泛化能力提升,全面支撑全球多语言AI应用发展。“我们希望构建全方位的多语言大模型和它的应用,给世界提供第二种选择。”
英国萨里大学“以人为本的人工智能研究中心”联合主任宋一晢教授认为,多语言AI犹如现实版的“巴别鱼”——源自科幻小说《银河系漫游指南》中那种能实时翻译任何语言的神奇生物,正在打破人们之间的语言隔阂。
匈牙利语言学研究中心总干事Gábor Prószéky教授强调,数据质量优于数据体量,是构建可信大语言模型的关键。
此次研讨会还展现了中国多语言AI技术在实际应用中的丰硕成果。讯飞星火X1多语言能力扩展至130余种,在翻译、推理、文本生成、数学等核心能力上已能对标国际一流大模型,特别是在幻觉治理方面取得显著突破,大大提升了大模型在行业应用中的可靠性。
至今,科大讯飞多语种技术已为华为、比亚迪、海尔等中国企业的1.2亿台套设备提供语音交互支持,涵盖23种语言,在非洲、东南亚等国家实地落地,为“中国智造”走出去提供语言与AI能力保障。
每一种语言都能有大模型
由于数字化语料稀缺,全球主流大模型对低资源语言的支持严重不足,小语种国家面临AI边缘化风险。
塞尔维亚诺维萨德大学技术科学学院主任Vlado Delić教授指出,塞尔维亚语在通用模型中token占比不足0.1%,远低于斯洛文尼亚语。“语言模型不能只服务大语种,每种语言都应拥有体现其文化身份的大模型。”为避免在医疗、法律等关键领域出现误译风险,必须构建符合本国语言特点和文化语境的国家级大模型。
面对这一系列挑战,国际合作成为重要解决路径。塞尔维亚诺维萨德大学技术科学学院主任Vlado Delić表示,希望通过与科大讯飞的合作,将本国语言技术纳入全球AI生态。
以色列人类语言技术协会创始人兼董事Avner Algom分享了希伯来语AI技术发展经验。他指出,希伯来语虽是世界上唯一被成功复兴为现代口语的古老语言,但在自然语言处理领域仍属低资源语言。
Algom强调,语言服务不能只为大语种设计,小语种也应拥有技术平权。IAHLT基于开源模型,已训练出双语大模型(希伯来语+英语),并部署于教育、客服、医疗等场景。通过财政激励机制,联合产业界解决数据获取合法性、训练成本和落地门槛问题。
南方+记者 郜小平
广升网-广升网官网-配资网站免费-炒股配资公司提示:文章来自网络,不代表本站观点。