[神经网络]04 Transformer

最近几年AI领域最受瞩目的模型。此外猜猜“GPT”是什么的简称?

Steven-Zhl avatar
[神经网络]04 Transformer

目前认为,Transformer是处理序列数据上限最高的模型,并且迁移到非序列数据(比如Vision Transformer之于图像)时仍有不错的效果,因其优秀的性能、高效的计算过程和广阔的应用场景受到了广泛关注。当下大火大语言模型(如ChatGPT、BERT)都是基于Transformer的。

这一章将结合汤老师的课程、原论文以及李沐大神的网课视频,记录下Transformer的相关知识。

[神经网络]02 卷积神经网络

曾几何时,CNN还是个新鲜词汇,现在已经成为了机器学习的基础知识了。

Steven-Zhl avatar
[神经网络]02 卷积神经网络

这一章是扩展内容,课本上没有对应内容

卷积神经网络的目的是从低层特征开始,逐层抽象,逐渐得到高层特征,并根据高层特征完成各种任务(主要是分类任务)。

注意,CNN的任务主要是对于图像的分类,所以本章绝大多数数据都是二维的。