- 博客(353)
- 收藏
- 关注
原创 NVIDIA PyTorch Docker 镜像安装
是一个 NVIDIA 提供的 PyTorch Docker 镜像,其中包含了 PyTorch 以及与 NVIDIA GPU 相关的库,这个过程可能会需要一些时间,取决于你的网络速度和镜像大小。运行此命令后,你将进入容器的 bash shell。表示将容器的8888端口映射到宿主机的8888端口,这样就能从宿主机访问容器中的服务。参数指定使用所有可用的 GPU,如果你想使用特定的 GPU,可以例如使用。如果需要挂载宿主机的目录到容器中,可以使用。如果想要使用指定的端口,需要增加。表示这个镜像的版本号,
2025-01-15 21:38:47 457
原创 Docker新手使用教程
在你项目的根目录创建一个名为 Dockerfile (注意没有文件后缀) 的文件。在 Dockerfile 中写入构建镜像的指令。在你项目根目录下,使用。
2025-01-15 21:37:37 674
原创 深度学习与浮点数精度问题探究
符号位(Sign bit):1位,用来表示数的正负。0表示正数,1表示负数。指数部分(Exponent):11位,允许表示一个更宽范围的指数值。指数采用偏置(Bias)表示法,对于双精度浮点数,偏置值为1023。尾数部分(Mantissa 或 Fraction):52位,加上隐含的前导1,实际上可以提供53位的有效数字精度。−1sign×2×1mantissa−1sign×2×1mantissasign是符号位,0或1;exponent是指数部分的实际二进制值;
2025-01-14 14:34:04 618
原创 python命令行参数
模块可以让你轻松地定义程序期望接收的参数,并自动生成帮助信息。位置参数是必须传递的参数,并且其顺序很重要。在 Python 中,你可以使用。可选参数不是必须的,通常使用。模块来处理命令行参数。方法来添加命令行参数。将上述代码保存为例如。
2025-01-13 17:46:44 333
原创 论文阅读:《Whole-animal connectomes of both Caenorhabditis elegans sexes》
这项研究首次完整地绘制了秀丽隐杆线虫(C. elegans)的雄性和雌雄同体的全动物连接组,为我们提供了该模式生物两种性别所有神经元及突触连接的详细图谱。研究人员利用连续切片电子显微镜技术对雄性和雌雄同体线虫进行了高分辨率扫描,并结合人工注释和三维重建技术,精确地追踪了神经元的结构和连接。通过比较不同性别连接组,研究揭示了两者神经回路的相似之处和性别特异性差异,尤其在与交配相关的神经回路中发现了显著的差异。此外,研究还在雄性线虫中发现了先前未知的神经元类型和连接模式。
2025-01-12 23:33:46 1153
原创 DeepSpeed多卡高性能训练框架
随着深度学习模型规模的日益增大,训练这些模型所需的计算资源和时间成本也随之增加,传统的单机训练方式已难以应对大规模模型的训练需求。分布式训练作为一种有效的解决方案,通过将模型和数据分布到多个计算节点上,实现了并行计算,从而显著提高了训练速度。DeepSpeed是由微软开源的深度学习训练优化库,专为分布式训练场景设计,旨在提高大规模模型训练的效率和可扩展性。DeepSpeed 的核心理念是通过提供一系列优化技术,让大规模深度学习模型的训练变得更高效、更易用。
2025-01-10 15:32:39 1006
原创 Linux服务器安装Anaconda与环境管理
如果你有特定的 Python 版本需求,可以在安装后创建新的 conda 环境来指定 Python 版本。:如果你只需要一个轻量级的 Python 环境管理工具,考虑安装 Miniconda,它提供了与 Anaconda 相同的包管理功能但体积更小。指定了该环境中使用的 Python 版本。这将显示所有环境的列表以及每个环境的位置。请注意,下载链接中的版本号应替换为最新发布的版本号。将输出的哈希值与提供的哈希值进行比较,以确认文件完整性。的环境中安装 Python 3.9 和指定的软件包。
2025-01-08 17:49:54 916
原创 大型模型Transformer提示词类型
系统提示词定义了模型的整体行为和输出风格,是模型运行的基础。用户提示词是用户提出的具体问题或请求,直接决定了模型此次交互的主题。助理提示词则是模型依据前两者生成的回答,体现了模型的理解能力和表达能力。通过合理配置这三类提示词,可以有效地指导大型语言模型产生更加准确、有用且符合预期的结果。在实际应用中,系统提示词往往由开发团队精心设计,而用户提示词则来自终端用户的即时输入,助理提示词则是模型基于这些输入自动生成的输出。
2025-01-08 15:13:53 243
原创 Python Json格式数据处理
确保你的 JSON 文件是以 UTF-8 编码保存的,并且没有 BOM(字节顺序标记)。如果你必须处理包含多个独立 JSON 对象的文件,可以逐行读取文件并解析每一行作为单独的 JSON 对象。当你运行上述 Python 程序,并按照提示进行操作时,你可以查看这个 JSON 文件的内容,并对其进行编辑,比如修改。如果你确实需要存储多个 JSON 对象,考虑将它们放入一个数组中,或者每个对象保存为单独的文件。:JSON 文件中可能包含了多于一个顶级对象或数组,或者有额外的字符(如注释、多余的逗号等)。
2025-01-08 11:58:38 940
原创 基于RSA的Linux服务器SSH登录配置
为了生成 SSH 公钥,Python 可以使用paramiko或者等库。不过,最简单的方法是直接调用系统命令来生成密钥对。下面将给出一个简单的 Python 脚本示例,它会调用系统的ssh-keygen命令来生成 SSH 密钥对,并说明如何在 Linux 上使用这些密钥进行登录。
2025-01-08 11:20:08 371
原创 大型模型transformers加载与使用
可以看到,其实参数规模为1.3B的模型还是挺傻的,要正常进行对话估计参数规模得10B上下,此时常规消费级显卡的显存肯定不够用了。确保你已经从 Hugging Face 下载了必要的文件,并将它们放在本地的。变量设置为你下载模型文件的文件夹路径。基本配置:RTX 4060(8GB),推理过程最高显存占用为3GB。作为参数,从本地文件夹加载模型,并配置 FP16。作为参数,从本地文件夹加载 tokenizer。其他代码部分与之前的示例相同,用于推理和生成文本。文件夹中(或你指定的路径)。
2025-01-07 18:55:12 535
原创 投机采样EAGLE2深入研究
现代大型语言模型(LLMs)的推理计算成本高昂且耗时,而投机采样已被证明是一种有效的解决方案。大多数投机采样方法(如 EAGLE)使用静态草稿树,隐含地假设草稿 token 的接受率仅取决于它们的位置。有趣的是,作者发现草稿 token 的接受率也依赖于上下文。在论文中,作者基于 EAGLE 提出了 EAGLE-2,它在草稿建模中引入了一种新的上下文感知动态草稿树技术。这一改进利用了 EAGLE 的草稿模型具有良好校准性的事实:来自草稿模型的置信度分数能够以较小的误差近似接受率。
2025-01-07 11:55:34 669
原创 投机采样EAGLE详解精读
自回归解码是指模型逐个生成词语(token),每个词语的生成都依赖于之前生成的所有词语。当使用KV Cache加速技术后,解码阶段的每次矩阵-矩阵乘法运算被简化矩阵-向量乘法。矩阵-向量乘法相对矩阵-矩阵乘法,计算访存比更低,这导致整个运算过程的性能瓶颈卡在数据传输上面。因此,自回归解码这种串行的生成方式是 LLM 推理速度慢的主要瓶颈。
2025-01-06 14:27:44 1251
原创 推理加速:投机采样经典方法
SpecInfer 投机采样利用多个小型模型(SSM)快速生成“草稿”(Draft),然后由大型模型(LLM)验证并选择,从而加速文本生成。SSM1matSSM1核心思路为:通过一系列小模型 SSM(Small Speculative Model)联合预测 LLM 输出,并将这些小模型的预测输出组织为 Token 树,树中每个分支表示一个候选 Token 序列。
2025-01-02 22:00:41 880
原创 大型模型推理加速入门
除此之外,Transformer 模型中的另一个关键组件 FFN 中主要也包含两个矩阵乘法操作,但是 Token 之间不会交叉融合,也就是任何一个 Token 都可以独立计算,因此在 Decoding 阶段不用 Cache 之前的结果,但同样会出现矩阵乘矩阵操作降级为矩阵乘向量。推理加速技术是提升大型语言模型(LLM)和其他深度学习模型性能的关键,旨在减少生成预测所需的时间和计算资源,同时保持或尽量减少对输出质量的影响。这些技术覆盖了从硬件层面的优化到软件算法的改进,以及两者之间的协同工作。
2025-01-02 17:03:39 935
原创 大型模型K V Cache机制详解
在生成每个 token 时,都需要对整个已生成的序列进行一次自注意力计算。这意味着,对于序列中的每个 token,我们都需要重复计算 Q、K 和 V 矩阵,而其中 K 和 V 矩阵是基于已经生成的 token 计算得到的,每次计算都是冗余的。KV Cache 通过缓存中间计算结果 K 和 V 矩阵,显著减少了重复计算,加速了 Transformer 模型在生成式任务中的推理速度。KV Cache 的实现方式很简单,主要思想就是将每次计算得到的 K 和 V 矩阵存储下来,在下一次计算时直接使用。
2025-01-02 16:04:11 835
原创 大型模型Transformer掩码机制与计算细节
对于因果掩码,我们创建一个形状同样为[T, T]的下三角矩阵,其中主对角线及其以下的所有元素都为0(或者任何非负数,因为它们会被保留),而上三角部分则填充非常大的负数(如-1e9)。接下来就是应用掩码的地方。当我们在解码过程中处理序列时,例如生成一句话,我们希望模型在预测第t个词的时候,只能够考虑从第一个词到第(t-1)个词的信息,而不应该受到尚未生成的词的影响。因此,在计算查询(Q)、键(K)和值(V)之间的点积注意力时,我们需要对注意力分数施加限制,使得那些不应该被考虑到的词元不会影响当前的预测。
2025-01-02 15:29:28 313
原创 大模型推理加速的基础
启动阶段是大型语言模型推理过程的开端,它为解码阶段准备了必要的输入和内部状态。这个阶段涉及将用户提供的上下文或提示(prompt)转换成模型可以处理的形式,并初始化一些关键的数据结构和参数。下面是启动阶段更详细的计算细节和过程:首先,当用户向模型提供一个任务或问题时,这段文本需要被预处理。预处理包括分词(tokenization),即将文本分解为模型能够理解的最小单元——词元(tokens)。这些词元可以是单词、子词或者字符,具体取决于所使用的分词策略。
2025-01-02 15:13:16 456
原创 大型模型运行过程概述
和。这两个过程有着不同的目标、资源需求和技术挑战。大模型的训练是一个复杂且资源密集的过程,它首先需要收集和准备大量的高质量数据,这些数据经过清洗和预处理后将被用来指导模型学习。在模型设计阶段,工程师们会选择或开发适合任务需求的神经网络架构,对于大型语言模型来说,这通常意味着采用深度多层的解码器结构如Transformer。初始化之后,模型开始接受数据输入,在前向传播过程中生成预测输出,并通过损失函数对比预测与真实标签之间的差异来计算误差;
2025-01-02 14:31:02 489
原创 大模型入门基本概念,术语
多层感知机(Multilayer Perceptron, MLP)是一种前馈神经网络,它由多个层次的节点(或称为神经元)组成,每个节点都与相邻层的所有节点相连。MLP 至少包含三层:一个输入层、一个或多个隐藏层和一个输出层。它是由单层感知机改进而来(一种简单的线性分类器), MLP 通过添加更多层和非线性激活函数扩展了单层感知机的能力。:梯度反向传播算法(Backpropagation Algorithm)是训练神经网络的核心机制之一,它用于计算损失函数相对于每个权重的梯度。
2024-12-20 14:21:38 660
原创 Markdown流程图的简单使用
A -. 描述 .-> B: A 用带箭头的虚线指向 B 并在中间加上文字描述。A == 描述 ==> B: A 用加粗的箭头指向 B 并在中间加上文字描述。A – 描述 --> B: A 带箭头指向 B 并在中间加上文字描述。A – 描述 — B: A 不带箭头指向 B 并在中间加上文字描述。A -.-> B:A 用带箭头的虚线指向 B。A ==> B:A 用加粗的箭头指向 B。A --> B:A 带箭头指向 B。A -.- B:A 用虚线指向 B。带文本的不对称的矩形。
2024-10-25 17:52:55 828
原创 秀丽隐杆线虫的基础认识
秀丽隐杆线虫(Caenorhabditis elegans,)是一种非寄生性线虫,以大肠杆菌等微生物为食,,主要分布在温带地区的土壤中。秀丽隐杆线虫有和两种性别,在自然条件下,雌雄同体占大多数,可自体受精,也可接受雄虫的精子产生后代。自20世纪60年代,悉尼·布伦纳利用线虫研究细胞凋亡遗传调控的机制之后,秀丽隐杆线虫逐渐成为分子生物学和发育生物学研究领域中最常用的之一。
2024-10-18 15:36:59 1429
原创 Python代码调用CPP代码 简单易用 无需过多配置
pybind11是一个用于在 C++ 和 Python 之间创建绑定的库,使得 C++ 函数和类可以被 Python 脚本调用。下面是一个简单的步骤指南,展示如何使用pybind11来创建一个扩展模块,该模块包含一个简单的 C++ 函数,并在 Python 中调用它。
2024-08-30 23:12:12 719 1
原创 cmake,make,makefile之间的关系
CMake用于生成 Makefile,它允许开发者以一种更抽象的方式定义构建规则。Make是一个构建工具,用于解析 Makefile 并执行构建过程。Makefile是 Make 工具使用的配置文件,其中包含了具体的构建规则和依赖关系。通过使用 CMake 和 Make,开发者可以方便地管理和构建复杂的软件项目,同时保持构建过程的一致性和可移植性。
2024-08-28 15:31:41 619
原创 C/C++ 汇编基础知识概述
了解汇编基础可以提高C/C++的运用能力,但是我们不需要,也没有必要精通汇编语言,只需要大概理解汇编的基本思想,通过了解C/C++的底层实现去更好发挥这一门编程语言的极致性能,如果不是为了追求速度与效果,完全可以使用更容易进行问题建模的高级语言,比如Python或者Java。
2024-08-28 15:08:00 1327
原创 C/C++ 数学运算与数学函数
C 标准库 ()C++ 标准库 ()三角函数:指数与对数函数:幂和根函数:取整和取余函数:其他函数:C 和 C++ 支持多种基本的数学运算符,这些运算符可以用来执行常见的算术操作。下面是 C/C++ 中的一些基本数学运算符及其用途:加法 ():减法 ():乘法 ():除法 ():取模 ():自增 ():自减 ():前缀自增 ():后缀自增 ():前缀自减 ():后缀自减 ():除了上述基本运算符之外,C/C++ 还支持一些复合赋值运算符,这些运算符结合了赋值运算符和算术运算符,例如:示例:
2024-08-15 19:32:54 1042
原创 论文阅读:基于生物神经元的模拟游戏世界感知与学习
合成生物智能SBI(Synthetic Biological Intelligence):合成生物学与人工智能交叉领域,是未来脑科学发展一个可能大热的风口,这篇论文属于SBI领域。生物神经网络BNN(Biological Neuronal Network):生物神经网络基于动物神经元发展,人工神经网络基于神经元数学模型发展,两者原理上存在较大差异。体内生物智能和体外生物智能。像脑机接口等等更多像体内生物智能,生物神经网络主要存活在生物体内;
2024-07-30 20:55:41 829 1
原创 计算模型 系统控制架构
系统控制架构是指用于设计和组织控制系统的结构和组件的方式,它定义了系统如何收集信息、处理数据、制定决策并执行控制动作。控制架构的选择直接影响到系统的性能、可扩展性、可靠性和维护性。
2024-06-24 16:59:16 632
原创 生物神经网络 原理分析研读04
在实际中,一般人脑对图像的处理路径都比较深,对声音的处理路径相对较浅,这往往也就意味着在相同计算速度下,声音信息的处理已经早于图像信息的处理,如果没有同步计算机制,我们就会感觉到明显的客观世界声音图像不同步,但实际上并没有发生。例如,视觉处理不仅发生在视觉皮层,还涉及到多个皮层和皮层下区域的协同工作。因为神经网络模型往往最终追求的是对客观规律的建模,所以具有灵活性更高的生物神经网络有天然的优势,因为网状结构有更适合的形式去拟合客观世界的规律,而有些事物的变化可能适合顺序结构拟合,另一些事物又可能不适合。
2024-06-20 15:28:55 912
原创 混合专家系统MOE
混合专家系统(Mixtures of Experts,)是一种集成学习方法,它通过结合多个“专家”模型来解决复杂的学习任务,每个专家专注于数据的不同方面或子空间。这种方法旨在提高模型的适应性和表达能力,尤其适合处理具有高度多样性和复杂性的数据集。
2024-06-17 14:31:11 806
原创 生物神经网络 原理分析研读03
黑箱模型(Black Box),或称经验模型,是一种描述系统或现象的方法,其中系统的内部规律、机制或工作原理尚未完全为人所知或理解。黑箱模型是一种描述系统或现象的方法,其中系统的内部规律尚未完全为人所知。它在环境预测和人工智能等领域有着广泛的应用,但需要注意其局限性和使用条件。定义黑箱模型指的是只知道其输入、输出及这两者的关系,而不知道其内部结构的系统。该模型是变量预测工作中应用较多的一类模型,它是根据输入—输出关系建立起来的,反映了有关因素间的一种笼统的直接因果关系。特点。
2024-06-10 18:07:42 1169
原创 生物神经网络 原理分析研读02
上述四篇文章,已经足够指出类脑计算的窘境,但值得注意的是造成其困境的根源本质还是来自于实现智能的复杂性。虽然当前深度学习发展感觉距离智能触手可及,但实际上却并没有这么乐观,更不用说AGI了。相对生物神经网络,深度学习实现智能的效率很低!一个典型的例子就是秀丽隐杆线虫,仅300个神经元便可完成一系列复杂的生物行为,其效率令人吃惊,更不必说人脑这种更高级的网络。相对生物神经网络,深度学习能量利用有效率很低!
2024-06-04 21:31:05 775 2
原创 生物神经网络 原理分析研读01
具体来说,当我们在事件发生后接受了与事件相关的错误信息,比如虚假的细节或错误的陈述,这些错误信息会影响我们的记忆,导致我们在回忆时出现偏差或错误。首因效应的产生与人类认知机制有关,人的大脑倾向于快速形成概括性的判断以应对大量的信息输入,而最初的信息由于缺乏对比,更容易被接受并存储为关键信息。假设有两个假命题:“桃子是水果”和“桃子是蔬菜”,根据更快速否定假命题的格拉斯现象,人们更容易否定第二个假命题,因为“水果”和“蔬菜”是相似项目,而不同项目的否定则可能需要更多的认知努力。
2024-06-04 11:24:28 466
原创 961组成原理知识总结
计算机=硬件+软件软件=系统软件+应用软件五大结构:运算器,控制器,存储器,输入设备,输出设备之前以运算器为中心(运算器慢),现在以存储器为中心(存储器慢),谁慢谁中心软件层面三大层次:高级语言,汇编语言,机器语言软件层面五大层次:高级语言,汇编语言,操作系统,机器语言,微指令数据库管理系统是系统软件,数据库系统是应用软件处理器包含运算器和控制器,ALU是处理器核心,CPU即处理器原码:首位符号位,0正1负,数值位表绝对值,+0,-0。
2024-06-02 22:12:14 1472
原创 961网络基础知识总结
计算机网络就是一些互连的,自治的计算机系统集合。计算机网络分类作用范围角度:广域网WAN,局域网LAN传输技术角度:点对点网络,点对点网络是否采用分组存储转发与路由选择机制是点对点网络与广播网络的重要区别,广域网基本都属于点对点网络拓扑结构角度:星形网,环形网,总线网络,网状网络(比较不规则的拓扑结构)使用对象角度:公用网,专用网数据交换方式角度电路交换网络:在源节点与目标节点之间建立一条专用的通路用于传送数据,数据传输包括建立连接,传输数据,断开连接三个阶段。最典型的就是传统电话网络。
2024-06-02 21:26:59 1193 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人