论文分析+逐行coding,从零开始带你掌握视觉Transformer前沿技术。
AIStudio(包括视频和作业等): 《从零开始学视觉Transformer》
YouTube: here (更新中)
Vision Transformer是近期深度学习领域最前沿、最火爆的技术,本次课程由百度研究院深度学习实验室研究员朱博士主讲,将通过图解理论基础、手推公式以及从0开始逐行手敲代码,带大家实现最前沿的视觉Transformer算法!
无论你是刚接触深度学习,还是已经在做科研,无论你是CV想转NLP,还是NLP想搞CV,又或者你想用最新的视觉技术打比赛、发论文,这门课程都会给你们带来一些不一样的体验。
通过Vision Transformer十讲的学习,能一步一步将论文中的模型图变成一行行的代码,从零搭建一套自己的深度学习模型,掌握和实践最新的技术,告别简单的git clone和调包。
- 理论:什么是Vision Transformer?
- 实践:Warmup:模型搭建和训练
- 理论:从Transformer到Vision Transformer
- 实践:玩转Tensor操作,开始搭建ViT
- 理论:你看你的,我看我的:详解注意力
- 实践:Multi-Head Self Attention
- 理论:详解第一个ViT算法
- 实践:如何实现ViT模型
- 理论:ViT模型搭建好了,如何高效训练?
- 实践:实战模型搭建和训练
- 理论:什么是Window Attention?
- 实践:图像窗口上的注意力机制
- 理论:大名鼎鼎的Swin Transformer
- 实践:实现你的第二个ViT模型
- 理论:下一个算法:Conv和Transformer的结合
- 实践:从框架源码看如何实现数据加载
- 理论:前沿算法介绍:视觉上的BERT? BeiT & MAE
- 实践:模型训练的技巧
- 理论:检测算法新范式-DETR
- 实践:实战ViT训练测试全流程