2月24日Transformers人工智能研究人员能够创建越来越大的语言模型

2022-02-24 16:26:19   编辑:晏武君
导读考虑一下:当你读一本小说时,比如指环王,你的大脑不会记住所有的单词和句子。它经过优化以从故事中提取有意义的信息,包括角色(例如,佛

考虑一下:当你读一本小说时,比如指环王,你的大脑不会记住所有的单词和句子。它经过优化以从故事中提取有意义的信息,包括角色(例如,佛罗多、甘道夫、索伦)、他们的关系(例如,博罗米尔几乎是佛罗多的朋友)、位置(例如,瑞文戴尔、魔多、洛汗)、对象(例如,The One Ring、Anduril)、关键事件(例如,佛罗多在末日山的中心投掷了一枚戒指、甘道夫掉进了卡扎德杜姆的深坑、掌舵深渊之战),也许还有一些非常重要的片段故事中的对话(例如,并非所有闪闪发光的都是金子,并非所有徘徊的人都迷失了)。

这一少量信息对于能够在所有四本书(《霍比特人》和《指环王》的所有三卷)和 576,459 个单词中遵循故事情节非常重要。

人工智能科学家和研究人员一直在努力寻找将神经网络嵌入同样有效信息处理的方法。该领域的一项重大成就是“注意力”机制的发展,它使神经网络能够发现并关注数据中更重要的部分。注意力使神经网络能够以更节省内存的方式处理大量信息。

Transformers 是一种近年来越来越流行的神经网络,它已经将意图机制有效地利用起来,让 AI 研究人员能够创建越来越大的语言模型。示例包括OpenAI 的 GPT-2文本生成器,在 40 GB 的文本上进行训练,Google 的 Meena 聊天机器人,在 341 GB 的语料库上进行训练,以及AI2 的 Aristo,这是一种深度学习算法,在 300 GB 的数据上进行训练以回答科学问题。

与以前的 AI 算法相比,所有这些语言模型在更长的文本序列上都表现出显着的一致性。GPT-2 可以经常(但不总是)吐出跨越多个段落的相当连贯的文本。Meena 尚未发布,但 Google 提供的示例数据显示了超出简单查询的对话的有趣结果。Aristo 在回答科学问题方面优于其他 AI 模型(尽管它只能回答多项选择题)。

然而,显而易见的是,语言处理 AI 仍有很大的改进空间。目前,仍然存在通过创建更大的神经网络并为它们提供越来越大的数据集来改进该领域的动力。显然,我们的大脑不需要——甚至没有能力——数百 GB 的数据来学习语言的基础知识。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章