Transformer模型的时间复杂度

QuietNightThought

发布时间 2023.09.20阅读数 1327 评论数 0

一、时间复杂度：

Transformers模型的时间复杂度主要取决于输入序列的长度N和模型中隐藏层的数量H。对于一个具有L个层的Transformer模型，其时间复杂度为O(LN^2H)，其中 N ^2来自于注意力机制的计算。因此，对于较长的输入序列和更深的模型，Transformer的时间复杂度可能会非常高。

这里表示算法的时间复杂度是O(LN ^ 2H)，其中L、N、H是三个参数。在这个算法中，输入的规模为L，每个输入的处理需要O(N ^ 2)的时间，一共要进行H次处理。因此，总的时间复杂度就是O(LN^2H)。

也可以这么理解：
H代表Transformer中多头注意力机制的数量。
N代表输入序列的时间步长，也就是序列的长度。
L代表每个批次(batch)中输入序列的数量。

注意：

不是 LN的2H次方

O(LN^ 2H)表示算法的时间复杂度在数量级上不超过LN^ 2H。具体来说，当输入规模为L时，最坏情况下算法的时间复杂度与N^2和H都有关系，而且这三者之间的关系是乘积关系。因此，如果你让L、N或者H中的任何一个数增加一倍，那么总的时间复杂度就会增加至少两倍。所以O(LN ^2H)并不能简单地表示成LN的2H次方。

该怎么读呢？

LN^2H这个符号在英文中通常被称为Big O Notation，可以读作“big O of L times N squared times H”。其中，“big O”表示复杂度的上界，L、N、H分别表示三个影响复杂度的因素，用“times”表示相乘的意思。如果需要将其翻译成中文，可以说“时间复杂度为L乘以N的平方乘以H”。

二、减少计算复杂度方法

为了解决这个问题，研究人员和工程师们已经提出了许多优化Transformer模型的技术，例如使用稀疏注意力、分层注意力等方法。

稀疏注意力和分层注意力是Transformer模型中的两种优化技术。它们都旨在减少Transformer模型中计算复杂度，提高模型效率。

稀疏注意力
稀疏注意力(Sparse Attention)是一种通过限制每个位置只与相邻位置进行注意力交互的注意力机制。传统的自注意力机制会对输入序列中的所有位置进行注意力计算，这会导致计算复杂度较高，并且不利于模型的扩展性。而稀疏注意力将注意力机制限定在一个固定范围内，比如只考虑当前位置前后若干个位置的信息。这样能够大大降低计算复杂度，同时保证了模型的表现力。
分层注意力
分层注意力(Hierarchical Attention)是一种通过将注意力机制应用到多个层级上，在不同层级上对输入序列进行建模的方法。具体来说，它将原始输入序列划分为多个子序列，然后在各个子序列上分别计算注意力。最终得到每个子序列的表示向量后，再进行汇总得到整个输入序列的表示向量。这种方法能够充分利用输入序列的层次结构，提高模型的表现力。同时，由于每个子序列的长度相对较短，计算复杂度也会得到一定程度上的降低。

人工智能深度学习 Transformer 时间复杂度

打赏 0

上一篇：知识图谱基本工具Neo4j使用笔记二：py2neo源码手册

下一篇：基于neo4图数据库的简易对话系统

Transformer模型的时间复杂度

QuietNightThought

一、时间复杂度：

注意：

该怎么读呢？

二、减少计算复杂度方法

为你推荐

浅析扩散模型与图像生成【应用篇】(九)——Pix2pix-zero

学习笔记——支持向量机svm（3）kernel trick（核函数）

Pytorch使用TensorBoard做可视化

生成模型之VAE

TensorFlow学习——Tensorflow Object Detection API（3.模型训练篇）

图文多模态模型CLIP

关于作者

QuietNightThought

18

0

0

2

精选深度学习四：深入浅出 Word2vec--图文解读原理二

精选知识图谱基本工具Neo4j使用笔记四：使用csv文件批量导入图谱数据

机器学习之朴素贝叶斯二、情感分析实践

相关推荐

无人驾驶技术入门（八）| 被严重低估的传感器超声波雷达

强化学习 1 ：基本概念

精选Bert模型之unable to parse config.json as a URL or as a local path错误解决方案

【PyTorch】构造VGG19网络进行本地图片分类（超详细过程）——项目介绍

yolox 训练自己的数据集（COCO格式）

OpenAI官方提示词课（四）如何进行文字的情感分析

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

Transformer模型的时间复杂度

QuietNightThought

一、时间复杂度：

注意：

该怎么读呢？

二、减少计算复杂度方法

为你推荐

浅析扩散模型与图像生成【应用篇】(九)——Pix2pix-zero

学习笔记——支持向量机svm（3）kernel trick（核函数）

Pytorch使用TensorBoard做可视化

生成模型之VAE

TensorFlow学习——Tensorflow Object Detection API（3.模型训练篇）

图文多模态模型CLIP

评论（0）

关于作者

QuietNightThought

18

0

0

2

精选深度学习 四 ：深入浅出 Word2vec--图文解读原理 二

精选知识图谱基本工具Neo4j使用笔记 四 ：使用csv文件批量导入图谱数据

机器学习之朴素贝叶斯二、情感分析实践

相关推荐

无人驾驶技术入门（八）| 被严重低估的传感器超声波雷达

强化学习 1 ：基本概念

精选Bert模型之unable to parse config.json as a URL or as a local path错误解决方案

【PyTorch】构造VGG19网络进行本地图片分类（超详细过程）——项目介绍

yolox 训练自己的数据集 （COCO格式）

OpenAI官方提示词课（四）如何进行文字的情感分析

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

精选深度学习四：深入浅出 Word2vec--图文解读原理二

精选知识图谱基本工具Neo4j使用笔记四：使用csv文件批量导入图谱数据

yolox 训练自己的数据集（COCO格式）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板