深度学习
文章平均质量分 77
记录深度学习的点点滴滴
梦星辰.
本科北航数学专业应用数学方向,硕士北航计算机专业人工智能方向
展开
-
深度学习与浮点数精度问题探究
符号位(Sign bit):1位,用来表示数的正负。0表示正数,1表示负数。指数部分(Exponent):11位,允许表示一个更宽范围的指数值。指数采用偏置(Bias)表示法,对于双精度浮点数,偏置值为1023。尾数部分(Mantissa 或 Fraction):52位,加上隐含的前导1,实际上可以提供53位的有效数字精度。−1sign×2×1mantissa−1sign×2×1mantissasign是符号位,0或1;exponent是指数部分的实际二进制值;原创 2025-01-14 14:34:04 · 622 阅读 · 0 评论 -
DeepSpeed多卡高性能训练框架
随着深度学习模型规模的日益增大,训练这些模型所需的计算资源和时间成本也随之增加,传统的单机训练方式已难以应对大规模模型的训练需求。分布式训练作为一种有效的解决方案,通过将模型和数据分布到多个计算节点上,实现了并行计算,从而显著提高了训练速度。DeepSpeed是由微软开源的深度学习训练优化库,专为分布式训练场景设计,旨在提高大规模模型训练的效率和可扩展性。DeepSpeed 的核心理念是通过提供一系列优化技术,让大规模深度学习模型的训练变得更高效、更易用。原创 2025-01-10 15:32:39 · 1006 阅读 · 0 评论 -
大型模型Transformer提示词类型
系统提示词定义了模型的整体行为和输出风格,是模型运行的基础。用户提示词是用户提出的具体问题或请求,直接决定了模型此次交互的主题。助理提示词则是模型依据前两者生成的回答,体现了模型的理解能力和表达能力。通过合理配置这三类提示词,可以有效地指导大型语言模型产生更加准确、有用且符合预期的结果。在实际应用中,系统提示词往往由开发团队精心设计,而用户提示词则来自终端用户的即时输入,助理提示词则是模型基于这些输入自动生成的输出。原创 2025-01-08 15:13:53 · 243 阅读 · 0 评论 -
transformers蒸馏版本对话小模型
【代码】transformers蒸馏版本对话小模型。原创 2025-01-07 20:56:03 · 567 阅读 · 0 评论 -
大型模型transformers加载与使用
可以看到,其实参数规模为1.3B的模型还是挺傻的,要正常进行对话估计参数规模得10B上下,此时常规消费级显卡的显存肯定不够用了。确保你已经从 Hugging Face 下载了必要的文件,并将它们放在本地的。变量设置为你下载模型文件的文件夹路径。基本配置:RTX 4060(8GB),推理过程最高显存占用为3GB。作为参数,从本地文件夹加载模型,并配置 FP16。作为参数,从本地文件夹加载 tokenizer。其他代码部分与之前的示例相同,用于推理和生成文本。文件夹中(或你指定的路径)。原创 2025-01-07 18:55:12 · 535 阅读 · 0 评论 -
大型模型推理加速入门
除此之外,Transformer 模型中的另一个关键组件 FFN 中主要也包含两个矩阵乘法操作,但是 Token 之间不会交叉融合,也就是任何一个 Token 都可以独立计算,因此在 Decoding 阶段不用 Cache 之前的结果,但同样会出现矩阵乘矩阵操作降级为矩阵乘向量。推理加速技术是提升大型语言模型(LLM)和其他深度学习模型性能的关键,旨在减少生成预测所需的时间和计算资源,同时保持或尽量减少对输出质量的影响。这些技术覆盖了从硬件层面的优化到软件算法的改进,以及两者之间的协同工作。原创 2025-01-02 17:03:39 · 935 阅读 · 0 评论 -
大型模型运行过程概述
和。这两个过程有着不同的目标、资源需求和技术挑战。大模型的训练是一个复杂且资源密集的过程,它首先需要收集和准备大量的高质量数据,这些数据经过清洗和预处理后将被用来指导模型学习。在模型设计阶段,工程师们会选择或开发适合任务需求的神经网络架构,对于大型语言模型来说,这通常意味着采用深度多层的解码器结构如Transformer。初始化之后,模型开始接受数据输入,在前向传播过程中生成预测输出,并通过损失函数对比预测与真实标签之间的差异来计算误差;原创 2025-01-02 14:31:02 · 489 阅读 · 0 评论 -
大模型入门基本概念,术语
多层感知机(Multilayer Perceptron, MLP)是一种前馈神经网络,它由多个层次的节点(或称为神经元)组成,每个节点都与相邻层的所有节点相连。MLP 至少包含三层:一个输入层、一个或多个隐藏层和一个输出层。它是由单层感知机改进而来(一种简单的线性分类器), MLP 通过添加更多层和非线性激活函数扩展了单层感知机的能力。:梯度反向传播算法(Backpropagation Algorithm)是训练神经网络的核心机制之一,它用于计算损失函数相对于每个权重的梯度。原创 2024-12-20 14:21:38 · 660 阅读 · 0 评论 -
混合专家系统MOE
混合专家系统(Mixtures of Experts,)是一种集成学习方法,它通过结合多个“专家”模型来解决复杂的学习任务,每个专家专注于数据的不同方面或子空间。这种方法旨在提高模型的适应性和表达能力,尤其适合处理具有高度多样性和复杂性的数据集。原创 2024-06-17 14:31:11 · 806 阅读 · 0 评论 -
Pytorch实现上采样upsample和下采样downsample 简单调用函数即可实现,超简单的代码块调用
# 上采用函数,输入数据格式示例:tensor维度[3,300,300],即3通道RGB,大小300×300,当然4通道图像也能做def upsample(image_tensor, width, height, mode): # mode可用:最近邻插值"nearest",双线性插值"bilinear",双三次插值"bicubic",如mode="nearest" image_upsample_tensor = torch.nn.functional.interpolate(image.原创 2021-05-30 17:59:35 · 11198 阅读 · 3 评论 -
生物神经网络 原理分析研读03
黑箱模型(Black Box),或称经验模型,是一种描述系统或现象的方法,其中系统的内部规律、机制或工作原理尚未完全为人所知或理解。黑箱模型是一种描述系统或现象的方法,其中系统的内部规律尚未完全为人所知。它在环境预测和人工智能等领域有着广泛的应用,但需要注意其局限性和使用条件。定义黑箱模型指的是只知道其输入、输出及这两者的关系,而不知道其内部结构的系统。该模型是变量预测工作中应用较多的一类模型,它是根据输入—输出关系建立起来的,反映了有关因素间的一种笼统的直接因果关系。特点。原创 2024-06-10 18:07:42 · 1169 阅读 · 0 评论 -
生物神经网络 原理分析研读02
上述四篇文章,已经足够指出类脑计算的窘境,但值得注意的是造成其困境的根源本质还是来自于实现智能的复杂性。虽然当前深度学习发展感觉距离智能触手可及,但实际上却并没有这么乐观,更不用说AGI了。相对生物神经网络,深度学习实现智能的效率很低!一个典型的例子就是秀丽隐杆线虫,仅300个神经元便可完成一系列复杂的生物行为,其效率令人吃惊,更不必说人脑这种更高级的网络。相对生物神经网络,深度学习能量利用有效率很低!原创 2024-06-04 21:31:05 · 775 阅读 · 2 评论 -
异构计算智能模型
将传统编程和神经网络结合起来可以创造出强大而灵活的系统,其中传统编程提供了规则和逻辑,而神经网络则提供了学习和模式识别的能力。传统编程方法提供了医学专家的规则和经验,而神经网络则通过学习大量的医疗数据来发现潜在的疾病模式和特征。传统编程用于制定风险评估的规则和标准,而神经网络则用于检测隐藏在大量数据中的复杂模式和异常情况,提高了风险控制的精度和效率。在现实世界中,有许多复杂系统成功地实现了传统编程和神经网络的结合,这些实际应用展示了传统编程和神经网络结合的优势,为复杂系统的设计和实现提供了新的思路和方法。原创 2024-05-13 15:17:56 · 437 阅读 · 0 评论 -
随机梯度下降SGD的理解和现象分析
在某次瞎炼丹的过程中,出现了如下令人疑惑的损失值变化图像:可以明显看到两列出现递减的子序列:奇数序列和偶数序列。奇数序列的损失值为;奇数序列的损失值为。事出反常必有妖,那么究竟是什么样的东西导致如此的怪象?在尝试找具体的原因之前,我们先把涉及的具体参数描述清楚。网络结构就是两层重复结构,单层为一个矩阵乘法层MatMul加上一个激活函数Sigmoid,两层计算完后用均方误差MSE计算损失值,其中参数W1W2。原创 2024-05-09 18:24:14 · 767 阅读 · 0 评论 -
神经网络模型里面权重衰减的理解
神经网络模型里面,如果少部分参数的绝对值相对其他值过大,就会造成模型过度依赖于某些特征(由这些较大值所代表),从而更容易产生过拟合问题。因而,我们有必要针对权重设置一种衰减措施,避免其与大多数参数的绝对值产生较大的偏差,即。权重衰减通过向损失函数添加一个惩罚项,促使模型选择较小的权重值。这个惩罚项通常是权重的 L2 范数的平方与一个权重衰减系数的乘积。因此,权重衰减可以减小权重的绝对值,但更重要的是,它可以防止模型过度依赖于某些特征,减小模型的复杂度,提高泛化能力。原创 2024-05-06 00:37:11 · 772 阅读 · 0 评论