人类有超过7000种语言,其中包括使用人数不多、相关资料稀少的“小众语言”。美国“元”公司新研发的一个人工智能模型,能翻译200种不同语言,实现了对较多“小众语言”在线翻译。
人工智能翻译目前多利用基于人工神经网络的模型翻译各种语言。这些模型通常需要大量可在线获取的训练数据。不过,有些特定语言的数据尚不能公开和低成本获取或普遍可及,这类语言又被称为“低资源语言”。
“元”公司团队新研发的一种跨语言技术,能让基于人工神经网络的翻译模型学习如何利用已有的翻译高资源语言的能力来翻译低资源语言。团队应用该技术开发了一个名为NLLB-200的在线多语言翻译工具,可容纳200种语言,其能翻译的低资源语言的数量是高资源语言数量的3倍。这一研究成果近期发表在英国《自然》杂志上。
由于研究团队在许多低资源语言上只能获取1000至2000例样本,为扩大NLLB-200的训练数据量,他们利用一个语言识别系统发现了这些特定语言的更多实例。团队还从互联网存档中挖掘这些语言与英语的双语文本数据,帮助提升模型的翻译质量。
研究者称,该翻译工具可帮助低资源语言使用者使用互联网等技术,且这一模型还可用于教育,帮助这类人群获取更多图书和论文资料。不过研究者也表示,这一工具的误译情况仍有可能出现。
马来西亚人摄入微塑料
一多半来自吃鱼
据新加坡《海峡时报》6月5日报道,一项最新研究发现,在调查涉及的109个国家中,马来西亚人均微塑料(直径小于5毫米的塑料颗粒)摄入量最多。
马来西亚平均每人每天要吃掉502.3毫克微塑料,其中超50%的摄入量来自食用鱼类。此外,该国也是人均吸入微塑料颗粒最多的前10个国家之一,每天吸入的微塑料颗粒约为49.4万个。报告认为,东南亚国家的人均微塑料摄入量较多,是因为该地区很多国家正处于快速工业化阶段,塑料污染较为严重,污染产生的微塑料常见于当地淡水和海洋环境中,很容易被水中生物摄入,随后被人类食用进入人体。
报告还指出,膳食微塑料包括食品中积累的微塑料,以及在食品生产、加工和包装过程中使用塑料造成的材料损失;空气中的微塑料主要来源于轮胎中的塑料材料和水生塑料微粒的炸裂;水生微塑料则很大程度上与垃圾填埋场管理不善有关。