搜索结果
Powered by: Simple-Jekyll-Search
概率论老师最喜欢的一集。
这一章数学相关的东西比较多….
最近几年AI领域最受瞩目的模型。此外猜猜“GPT”是什么的简称?
目前认为,Transformer是处理序列数据上限最高的模型,并且迁移到非序列数据(比如Vision Transformer之于图像)时仍有不错的效果,因其优秀的性能、高效的计算过程和广阔的应用场景受到了广泛关注。当下大火大语言模型(如ChatGPT、BERT)都是基于Transformer的。
这一章将结合汤老师的课程、原论文以及李沐大神的网课视频,记录下Transformer的相关知识。
处理序列数据的神经网络的鼻祖。
这一章是扩展内容,课本上没有对应内容
其实这么看来,循环神经网络这棵树也可称枝繁叶茂,只不过一来传统RNN的缺陷过于明显,另一方面这领域的后起之秀Transformer又太过耀眼,所以RNN遭到冷落了。
曾几何时,CNN还是个新鲜词汇,现在已经成为了机器学习的基础知识了。
这一章是扩展内容,课本上没有对应内容
卷积神经网络的目的是从低层特征开始,逐层抽象,逐渐得到高层特征,并根据高层特征完成各种任务(主要是分类任务)。
注意,CNN的任务主要是对于图像的分类,所以本章绝大多数数据都是二维的。
马尔可夫随机场,用于描述变量之间的依赖关系。模型是个好模型,但可惜现在已经几乎是神经网络的天下了,不用复杂的建模,直接暴力堆数据量和计算量就能取得不错的效果。
QAQ反正这一章挺难的