NLP 在本地化中的5个重要术语

Rocío Txabarriaga在Slator发布的一篇文章中认为,过去十年间,自然语言处理(NLP)越来越多地应用于本地化各个领域中。其中最为人熟知的NLP应用之一,是基于文本的机器翻译。

NLP术语不断出现在本地化日常应用中,虽然这一现象还处于初步发展阶段,但我们想尝试梳理NLP在本地化中用语的发展趋势和现状。于是我们借助Google Trends,整理了2012-2022年间的谷歌检索关键词,发现大多关键词都和谷歌自己的NLP和AI研究相关。我们整理出了20多个重要术语,在其中筛选出了5个在本地化中最关键的术语。

1. 大型语言模型(LLM)

语言建模已成为一个研究领域,许多学者都致力于研究单语和多语数据集。LLM常用于生成语言或达到特定语言研究目的,其应用基于大量文本数据。

最近的LLM谷歌搜索量高峰出现在2022年4月和7月,分别对应Pathways语言模型 (PaLM)的推出,以及BigScience项目中BLOOM大型语言模型的问世。

相关术语:BERTTransformers双向编码器Word Embedding(词嵌入)Word Vectors(词向量)

2. 语音转文本 (STT) 翻译

自动分析音频,同时实时翻译并将译文显示在屏幕上。许多公司都将其作为产品的附加功能,比如Zoom、Google、Language I/O等。2022年5月谷歌表示将把STT应用到谷歌眼镜中时,STT的检索量明显有所增加。

3. 语音翻译(S2ST)

语音翻译是一个快速发展的NLP应用项目,是直接从源语音翻译为译入语语音,该过程没有书面文本。2021年9月Meta和4月谷歌发布公告时,S2ST的检索量明显有所增加。

4. 机器配音

机器配音,是将多种语言的翻译和其他声音加工合成。在全球范围内热度不断增加,近期几家相关初创公司也获得了投资,例如今年6月的PapercupDubverse。2014年底 Google 将机器配音添加到 YouTube 时,该术语搜索量达到了一个高峰。

5. 神经机器翻译(NMT)

NMT 的搜索量在2016年9月至11月期间达到顶峰,当时谷歌翻译开始使用 NMT,并且世界知识产权组织(WIPO)发布了基于NMT的WIPO Translate。此后NMT搜索量便不断下滑,取而代之的主要是“机器翻译”的搜索量升高。今年4 月谷歌在翻译和其他功能中增加了 24 种语言,NMT检索量又达到了一个高峰。

相关术语:Artificial Neural Network (人工神经网络)和Transformer Architecture (Transformer架构)。