Skip to content

Latest commit

 

History

History
71 lines (36 loc) · 5.09 KB

memory-complexity-transformers.md

File metadata and controls

71 lines (36 loc) · 5.09 KB

变压器的内存复杂度

原文:www.kdnuggets.com/2022/12/memory-complexity-transformers.html

变压器模型的关键创新是引入了自注意力机制,它为输入序列中的所有位置对计算相似度分数,并且可以并行评估每个标记,避免了递归神经网络的顺序依赖,从而使变压器能够大大超越以前的序列模型如 LSTM。

其他地方有很多深度解释,因此在这里我想分享一些面试设置中的示例问题。


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业道路。

2. 谷歌数据分析专业证书 - 提升你的数据分析水平

3. 谷歌 IT 支持专业证书 - 支持你的组织 IT


在一个有 100 万标记的书籍上运行变压器模型的问题是什么?解决这个问题的办法是什么?

变压器的内存复杂度

变压器的内存复杂度

以下是供读者参考的一些提示:

简而言之,

如果你尝试在长序列上运行大型变压器模型,你会发现内存不够用。

根据谷歌研究博客(2021 年):

现有变压器模型及其衍生模型的一个限制是,完整的self-attention mechanism的计算和内存需求与输入序列长度的平方成正比。使用当前常见的硬件和模型尺寸,这通常将输入序列限制在大约 512 个标记左右,并且阻止变压器直接应用于需要更大上下文的任务,如问答文档摘要基因组片段分类

查看Dr.Younes Bensouda Mourri来自Deeplearning.ai的解释:

查看解释!

解决变压器模型的内存复杂度问题。

对变换器进行的两个“改革”使其在内存和计算方面更高效:可逆层减少内存,局部敏感哈希(LSH)减少大输入大小下点积注意力的成本。

当然,还有其他解决方案,如 扩展变换器构建 (ETC)等。我们将在后续文章中深入探讨更多细节!

快乐练习!

**注意:**回答面试问题有不同的角度。此新闻通讯的作者并未尝试找到一个详尽回答问题的参考,而是希望分享一些快速见解,帮助读者思考、练习并在必要时进行进一步研究。

图片来源/好读物: 论文。通过 Deepmind 改进语言模型,通过数万亿个标记进行检索(2022) 博客。通过 Google(2021)使用稀疏注意力方法构建更长序列的变换器

视频/答案来源: 自然语言处理中的注意力模型Dr.Younes Bensouda Mourri 提供,来自Deeplearning.ai

Angelina Yang 是一位数据和机器学习高级执行官,拥有超过 15 年的经验,致力于提供先进的机器学习解决方案和能力,以提高金融服务和金融科技行业的业务价值。专长包括在客户体验、监控、对话式 AI、风险与合规、营销、运营、定价和数据服务领域的 AI/ML/NLP/DL 模型开发和部署。

原文。经授权转载。

更多相关主题