#为什么考完了还有这么多事#

GPU最大的特点是它拥有超多计算核心,往往成千上万核。而每个核心都可以模拟一个CPU的计算功能,虽然单个GPU核心的计算能力一般低于CPU。对于GPU并行计算,缓存对程序员不透明,程序员可根据实际情况操纵大部分缓存。采用 SIMT - 单指令多线程模型,一条指令配备一组硬件,对应32个线程 。

硬件和DNN处理
拓普利兹矩阵的应用

A. 在CPU和GPU平台上加速卷积核计算

CPU和GPU使用并行化技术如SIMD或SIMT并行地执行MAC(multiply-and-accumulate)。所有ALU共享相同的控制和内存(寄存器文件)。在这些平台上,FC层和CONV层一般都映射到矩阵乘法(卷积核或滤波器计算)。附件1(标注为图18)显示FC层如何使用矩阵乘法。滤波器矩阵的高度为滤波器个数,宽度为每个滤波器的权值个数(输入通道(C) × 宽度(W) × 高度(H),因为FC层R=W, S=H);输入特征图矩阵的高度为每个输入特征图的激活次数(C × W × H),宽度是输入特征图的个数(图18(a)为1,图18(b)为N);最后,输出特征图矩阵的高度是输出特征图中的通道数(M)、宽度是输出特征图的个数(N),其中FC层的每一个输出特征图的维数为1×1×输出通道数(M)。

DNN中的的CONV层能采用附件2所示的托普利茨矩阵的松弛形式映射到矩阵乘法中。对于CONV层使用矩阵乘法的缺点是: 输入特征图矩阵中存在冗余数据,如附件2(图19(a))所示。这可能导致存储效率低下或导致复杂的内存访问模式。

有一些为CPU(如Open-BLAS、Intel MKL等)和GPU(如cuBLAS、cuDNN等)设计的软件库,其优化用于矩阵乘法。矩阵乘法被平铺到这些平台的存储层次结构中,在更高级别上,这些存储层次结构的大小约为几兆字节。

通过对数据应用计算变换来减少乘法次数,同时仍然给出相同的逐位结果,我们进一步加快这些平台上的矩阵乘法。这可能会增加添加次数和更不规则的数据访问模式。

快速傅里叶变换(FFT)[10,74]是一种流行的方法,如附件2所示,它减少从O(N^2 x Nf^2)到O(N^2 log2 N)的乘法次数,其中输出大小为N × N和滤波器尺寸是Nf×Nf。为执行卷积,我们采用滤波器的FFT快速傅里叶变换和输入特征映射,然后在频域中执行乘法;接着得到的积应用逆FFT以恢复空间域中的输出特征映射。然而使用FFT有几个缺点:

(1) FFT的优势随滤波器尺寸的增加而减小;
(2) FFT的大小由输出特征图的尺寸决定,输出特征图的尺寸通常比滤波器大得多;
(3) 频域中的系数是复杂的。

虽然FFT减少计算,但是它需要更大的存储容量和带宽。降低复杂性的一种流行方法是使权重稀疏,这在第VII-B2节中讨论;使用FFT会使这种稀疏性难以被利用。

我们能对FFT执行若干优化以使其对DNN更有效。为减少操作次数,可预先计算和存储滤波器的FFT。此外,输入特征图的FFT可计算一次并用于在输出特征图中生成多个通道。由于图像仅包含实数值,因此其傅立叶变换是对称的且能利用它降低存储和计算开销。

其它方法包括Strassen和Winograd,它们重新排列计算,使乘法的数量分别从O(N^3)减少到O(N^2.807),对于3×3滤波器减少2.25倍,降低数值稳定性,增加存储要求和专门处理的开销取决于过滤器的大小。

在实践中,不同算法能用于不同的层形状和大小(例如对于大于5×5的滤波器的FFT以及对于3×3和更低的滤波器的Winograd)。现有的平台库如MKL和cuDNN为给定的形状和大小动态选择合适的算法[77,78]

备注:

拓普利兹矩阵(Toeplitz)是指矩阵中每条自左上到右下的斜线上的元素相同,形如附件中的矩阵(不必是方阵);对于方阵的情形,它可描述为:任一条平行于主对角线的直线上的元素相同。matlab中生成托普利兹矩阵的函数是toeplitz(x,y),它生成一个以x为第一列,y为第一行的托普利兹矩阵。这里x, y均为向量,两者不必等长。toeplitz(x)用向量x生成一个对称的拓普利兹矩阵。

SIMt7kgXl9AwTVi68#元气爱豆的日常##爱豆能量月#
074
人人都有弱点,不能成大事的人总是固守着自我的弱点,一生很难有转变。而一个能成大事的人总会寻找自我的弱点,从自我的弱点上开刀。冲破弱点。
刘彰壁纸/刘彰数据/刘彰工作室/刘彰吃饱了不想动/刘彰说自拍好难/刘彰分享对镜自拍/AK刘彰原创diss破千万


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • #雅哥【成长+日常】日记# 一个人的生活 “我觉得我不是可以独立的人,也许不是适应不了孤独。而是有钱或者有人,总得有一样给我安全感。可都没有。那这样的人生真的
  • 2.保障好看事件的优先级潇洒姐说过“是持续的优先级的甄选与落实,造成了每个人看上去的样子。-8号印象1.在认真喜欢8号的每一个时间里 都有想过是否要为他写一篇经
  • 你们一大群党政干部和开发商借我们的房子,写了合同!现在万勇还恶人先告状反咬一口,要我们赔偿他一百四十多万元?
  • 现在在小刷到这个片段 我懂了,因为非常共鸣,但是自己却总结不出来这些话“我从来没有彻底恢复过”但是又清醒的觉得,在世俗大环境下,这没什么大不了的,世俗会磨平我所
  • 这款腕表在沿袭了星座系列设计风格的同时,还在其中融入了贵金属材质,但并非是以往惯用的全金表圈,反而像在高雅深邃的绿色设计当中“点缀”了贵金属作为装饰,雅致盎然。
  • 如果我们认识到自己的不足,认识到自己的错误、缺点,以惭愧心去求得知识,那么,自己的格调自然就进入道德规范,这个时候就可以真正成为一个人了,人们看到你的行为境界以
  • 因为肯在英国没见过没后台 没背景 mv被换过女主 拍戏泡海里两个多小时到刀口发白 挣扎向上的七,所以肯搞资源时不去冷静尝试考虑那些资源里包含了七七多少苦与泪,加
  • 以爱为营白鹿|白鹿郑书意|宁安如梦白鹿|白鹿姜雪宁|长月烬明白鹿|白鹿黎苏苏|白鹿桑酒|白鹿叶夕雾|奔跑吧|代言人|可爱|美女@白鹿my#白鹿[超话]#[哇]#
  • [傻眼][这就是街舞3][偷乐] 家君作宰,路出名区;童子何知,躬逢胜饯潦水尽而寒潭清,烟光凝而暮山紫浩浩乎如冯虚御风,而不知其所止;飘飘乎如遗世独立,羽化而
  • 我并不认识这个老师,只是旁听过他和他的妻子的一段对话他老婆要给他买流量套餐,他说一个月 10 块钱流量就够了,不需要买那么多我那时候在想,一个教授真的有这么朴实
  • 但我发现,把自己埋进知识的海洋里,很多事情就不会很纠结了,即便有时在梦中我已经和那段时间的我和解了,但还是很痛心,我丢掉了整个高二计划调整的主动权和一些本应在身
  • 秋来,收获丰硕,别忘困境疾苦,珍惜这份缘分;冬来,底蕴暗藏,因知道,来年春光谁也挡不住,依然释放葱郁点缀。秋来,收获丰硕,别忘困境疾苦,珍惜这份缘分;冬来,底蕴
  • 收到票后的激动,到6月1日的双重惊喜一束花的浪漫、至死不渝到一个充满祝福的哆啦A梦再到成为远宇宙的特别嘉宾-三重惊喜&快乐[心]爱你你你你你你你你你你你
  • 便转身就准备回车上,可小王却拉住潘女士的手臂,认真地说:“真的,小潘,我是真心喜欢你的。一路上双方都很沉默,似乎都在为刚刚的事情尴尬,转眼就到了潘女士家门口,潘
  • 还好get了 “提前和解”的技能,不然我要死了,大概是这么个阶段,也不知道要持续到什么时候...1.节奏卡起来好难,不断磨… 2.连续双音巨多,导致手的僵硬,双
  • 只是日主身弱,现在行运,财运、事业均不顺利,有怀才不遇之感,所以嫉恨心理很重,对别人总是看不惯,横挑鼻子竖挑眼,属于莫事找事的一类。争合的人,如果合为喜用,说明
  • #又显着范丞丞了# 不好意思,范丞丞只是很有趣罢了[笑cry]他让人记忆深刻是因为有梗,不是时长不说别的,一个“个人战”我妈不看综艺的都知道了我姐时不时就给我发
  • 3/110 加油啦啦朋友圈大家都在祝自己的小朋友节日快乐,我应该永远都不会有属于自己幸福完整的家 也没有机会做妈妈。也许热烈是会过期的吧……很难去解释期待的未来
  • 他谈父亲,后来他才意识到自己对父亲的不理解与伤害,正如北岛写的那样:直到我成为父亲,回望父亲的人生道路,我辨认出自己的足迹,亦步亦趋,交错重合……他说,我的有趣
  • [庆祝][庆祝][庆祝]出道缘分弟子的使命和宿命[合十][合十][合十]共勉出道缘分只要不停的修善自己,技能本事只是辅助或者叫做维持生活的手段,因为出道的缘分是