维基体育首页维基体育首页从视觉的ViT/MAE,到语言模型的LLaMA,再到语音、DNA系列等模态都可以用,完整代码库已开源。
网友评价说,只要元素级运算就能实现和归一化一样的效果,这对于效率优化来说简直是免费的午餐。
前Salesforce首席科学家、搜索引擎You的CEO Richard Socher也表示,这项成果加强了他之前的假设——原始的Transformer只是众多等效神经结构之中的一个。
选取ViT、wav2vec 2.0和DiT三种训练好的网络,对每个网络采样一个小批量样本进行前向传播,测量LayerNorm层在可学习仿射变换前的输入和输出,建立输入输出元素的一一对应关系,从而直接可视化两者关系。
结果发现,LayerNorm传统上被认为是线性变换,但实际整体居然呈现出出类似tanh函数非线性变换效果。
受到这一相似性启发,团队提出DyT作为归一化层的直接替代品, DyT 层定义如下:
其中α是可学习的标量参数,负责缩放调整输入;γ和β是可学习的per-channel矢量参数,将输出缩放回任何尺度。
DyT适用于注意力块、FFN块和最终归一化层,尽管它可能看起来像是激活函数,但在这篇研究中不会改变原始架构中激活函数的任何部分,网络的其他部分也保持不变。
同时团队还观察到,几乎不需要调整原始架构使用的超参数即可使DyT表现良好。
实验选用多种任务和模型架构,DyT在大多数情况下能达到与归一化层相当甚至更好的性能。
视觉监督学习,选用ViT和ConvNeXt,在ImageNet-1K分类任务中训练,DyT在两种架构的不同模型尺寸下,性能均略优于LayerNorm,且模型收敛行为高度一致,表明二者学习动态相似。
视觉自监督学习,选用两种训练目标不同的网络MAE和DINO,DyT的表现与LayerNorm相当。
扩散模型实验中,训练了三个不同尺寸的DiT模型,用FID分数评估生成图像质量。
仅用 tanh (αx) 函数替换DiT中LN 层的归一化变换,保留其仿射参数(用于class conditionin),结果相差也不大。
语言模型实验中,用DyT代替了LLaMA默认的RMSNorm,在所有四种参数规模上的性能与RMSNorm相当,在整个训练过程中WJ维基体育app免费下载,训练损失保持一致。
以LLaMA 7B为研究对象,分别采用RMSNorm和DyT进行实验,测量在使用单个长度为4096 tokens的序列时,100次前向传递(推理)和100次前向-后向传递(训练)所需的总时间。
在BF16精度下,DyT显著缩短了计算时间,另外在FP32精度下观察到类似的趋势。
但DyT也有局限性,在非Transformer模型中,如替换ResNet的Batch Norm时效果不佳,是否以及如何适应其他类型归一化层的模型还需进一步研究
包括何恺明和LeCun在内,本文的作者一共有五位,其余三位分别是第一作者、纽约大学博士生Jiachen Zhu,以及来自Meta FAIR实验室的刘壮和陈鑫磊。
虽然这是五人第一次聚在一起发表的论文,但其中部分成员之间的合作已经进行过多次。
项目负责人、Meta FAIR实验室科学家刘壮,就是何恺明的一位“老搭档”。
和何恺明一样,刘壮本科毕业自清华,并且也是CVPR最佳论文奖得主——他是CVPR2017最佳论文DenseNet的第一作者。
2017年,刘壮从清华姚班毕业,进入加州大学伯克利分校攻读博士学位,师从Trevor Darrell,是贾扬清的同门师弟。
博士毕业后,刘壮进入Meta AI Research工作。在此之前,他已经在Meta实习了一年多时间,期间和谢赛宁合作,发表了ConvNeXt。
还有浙大校友陈鑫磊, 目前是Meta FAIR实验室的研究科学家,研究兴趣集中于预训练,特别是有自监督或是多模态视觉表示的预训练。
发表在CVPR上、目前谷歌学术引用量达8998次的MAE开山论文,陈鑫磊与何恺明是共同一作,谢赛宁也参与其中。
第一作者Jiachen Zhu,来自重庆,本科就读于香港理工大学,取得了计算机和工商管理双重学位。
本科毕业3年后,Jiachen Zhu重回校园,到纽约大学先后攻读计算机硕士和博士学位,目前仍然在读,博士生导师就是LeCun。
谷歌学术信息显示,除了本次的新成果之外,Jiachen Zhu自2022年至今一共还发表过5篇论文,其中3篇为一作或共同一作,每篇均有LeCun的参与。
并且Jiachen Zhu去年以Meta实习生身份发表的一篇关于多模态理解与生成的论文,也与刘壮、陈鑫磊以及LeCun的参与。
03月09日,新优势聚动能 山西临汾打造经济高质量发展的地级市新引擎,牛派乞人报,澳门威尼斯电玩,188体育提供最好的,美高梅线日,台胞在雄安:“大尾”和他的秋霞饭店,斗牛技巧和概率4张牌,现金网投平台,888真人在线试玩,火狐体育官方网站首页
03月09日,这款冰箱贴为何一“冠”难求?来看主创团队揭秘,开云入口,365在线体育注官网,万博官网登陆页进不去,威尼斯赌城
03月09日湖南农产品加速出海:蔬菜、活猪等俏销 臭豆腐冷链预制菜首出口yb鸭脖平台新百胜实体平台网址乐橙网址多少日博体育最新地址
03月09日中国汽车产销破3000万辆ope足彩优博网投平台鸿博体育平台官网入口二八杠在线日福建建瓯:中华秋沙鸭归来 生态向好展新颜沙巴体育开户客户端必赢官网登录88bifa下载亿博体育下载地址……
03月09日,花莲强震专案募款初估达16.4亿元新台币,澳门捕鱼网址,半岛官网入口网页版,鸿博app是真的吗,太阳城贵宾会
03月09日,习声回响|良田良种良机良法 绘就当代春耕图,体育投注app,半岛彩票网怎么样,bv官网,即时比分哦
03月09日国务院台办发言人评论台湾地区选举结果kok全站app九州快速注册凡跃德州安卓版188体育下注app
03月09日,2026年广西文化旅游发展大会承办城市竞选会举办,澳门银银河最新网站,9博体育,AG真人快速开户,亚慱足球app
03月09日,主动承接产业转移 贵州加快建设大数据电子信息产业集聚区,红姐内幕出肖,体育电竞网站,真钱赌城下载,亚美体育是什么
03月09日,商务部国际贸易谈判代表兼副部长王受文会见联合国贸发会议秘书长格林斯潘,巴黎人贵宾会app下载,亚新登录,斗牛牛规则玩法,18新利体育app安卓下载
03月09日前10个月柴达木枸杞出口额同比增长8.56%澳门永利皇宫官方入口记录怎么用手机买足球九五至尊在线日“花架子”无用有害 必须治真钱官网网站心博天下娱乐官网yzls开户平台AG88环亚平台
03月09日中新健康丨南京高校团队研发出精准识别血栓的纳米递药机器美高梅外围官网电子游戏送彩金平台威尼斯官网登录入口半岛彩票诈骗事件
玛丽和乔治,这些寒假安全知识超有用全球客商满载而归,广交会折射中国外贸“新”图景金沙入口沙巴体育app平台威尼斯人网页和记娱乐平台网址
宇文玥还是泡着吧,新质生产力的“新”,关键在何处2023年内蒙古自治区六处遗址考古取得新突破彩二英超直播吧体育投注网站哪个好澳门十大娱乐平台入口网址
马宁孙兴慜交流判罚,凯洛的末日日常广西桂林发布暴雨红色预警 漓江游览排筏全线封航凤凰彩票在哪玩oety欧亿体育下载圣彼得堡真人国际象棋江南tt官方网
我们的国家公园,王楚钦3比0塔卡“地球巨眼”建造又有中国贡献 SKA中频天线结构发运南非云顶国际电子网投米乐平台官网千炮捕鱼娱乐手机版澳门皇冠金沙官网娱乐
6月开始涨价的高铁线金先进程度爆表!这座“超级枢纽”明年亮相 将是亚洲最大“地下城”ayx在哪玩MG真人app最新版ope体育app官网三亿体育登录不了了
小米汽车回应价格战:已做好准备,要不让艺洋跟你说两句(文化中国行)不一样的“白菜” 扬州助力非遗“活起来”千亿国际真人现场版去哪里买lol外围十大菠菜AG真人积分兑换总官网