梦星辰.-CSDN博客

原创 NVIDIA PyTorch Docker 镜像安装

是一个 NVIDIA 提供的 PyTorch Docker 镜像，其中包含了 PyTorch 以及与 NVIDIA GPU 相关的库，这个过程可能会需要一些时间，取决于你的网络速度和镜像大小。运行此命令后，你将进入容器的 bash shell。表示将容器的8888端口映射到宿主机的8888端口，这样就能从宿主机访问容器中的服务。参数指定使用所有可用的 GPU，如果你想使用特定的 GPU，可以例如使用。如果需要挂载宿主机的目录到容器中，可以使用。如果想要使用指定的端口，需要增加。表示这个镜像的版本号，

2025-01-15 21:38:47 457

原创 Docker新手使用教程

在你项目的根目录创建一个名为 Dockerfile (注意没有文件后缀) 的文件。在 Dockerfile 中写入构建镜像的指令。在你项目根目录下，使用。

2025-01-15 21:37:37 674

原创深度学习与浮点数精度问题探究

符号位（Sign bit）：1位，用来表示数的正负。0表示正数，1表示负数。指数部分（Exponent）：11位，允许表示一个更宽范围的指数值。指数采用偏置（Bias）表示法，对于双精度浮点数，偏置值为1023。尾数部分（Mantissa 或 Fraction）：52位，加上隐含的前导1，实际上可以提供53位的有效数字精度。−1sign×2×1mantissa−1sign×2×1mantissasign是符号位，0或1；exponent是指数部分的实际二进制值；

2025-01-14 14:34:04 618

原创 python命令行参数

模块可以让你轻松地定义程序期望接收的参数，并自动生成帮助信息。位置参数是必须传递的参数，并且其顺序很重要。在 Python 中，你可以使用。可选参数不是必须的，通常使用。模块来处理命令行参数。方法来添加命令行参数。将上述代码保存为例如。

2025-01-13 17:46:44 333

原创论文阅读：《Whole-animal connectomes of both Caenorhabditis elegans sexes》

这项研究首次完整地绘制了秀丽隐杆线虫（C. elegans）的雄性和雌雄同体的全动物连接组，为我们提供了该模式生物两种性别所有神经元及突触连接的详细图谱。研究人员利用连续切片电子显微镜技术对雄性和雌雄同体线虫进行了高分辨率扫描，并结合人工注释和三维重建技术，精确地追踪了神经元的结构和连接。通过比较不同性别连接组，研究揭示了两者神经回路的相似之处和性别特异性差异，尤其在与交配相关的神经回路中发现了显著的差异。此外，研究还在雄性线虫中发现了先前未知的神经元类型和连接模式。

2025-01-12 23:33:46 1153

原创 DeepSpeed多卡高性能训练框架

随着深度学习模型规模的日益增大，训练这些模型所需的计算资源和时间成本也随之增加，传统的单机训练方式已难以应对大规模模型的训练需求。分布式训练作为一种有效的解决方案，通过将模型和数据分布到多个计算节点上，实现了并行计算，从而显著提高了训练速度。DeepSpeed是由微软开源的深度学习训练优化库，专为分布式训练场景设计，旨在提高大规模模型训练的效率和可扩展性。DeepSpeed 的核心理念是通过提供一系列优化技术，让大规模深度学习模型的训练变得更高效、更易用。

2025-01-10 15:32:39 1006

原创 Linux服务器安装Anaconda与环境管理

如果你有特定的 Python 版本需求，可以在安装后创建新的 conda 环境来指定 Python 版本。：如果你只需要一个轻量级的 Python 环境管理工具，考虑安装 Miniconda，它提供了与 Anaconda 相同的包管理功能但体积更小。指定了该环境中使用的 Python 版本。这将显示所有环境的列表以及每个环境的位置。请注意，下载链接中的版本号应替换为最新发布的版本号。将输出的哈希值与提供的哈希值进行比较，以确认文件完整性。的环境中安装 Python 3.9 和指定的软件包。

2025-01-08 17:49:54 916

原创大型模型Transformer提示词类型

系统提示词定义了模型的整体行为和输出风格，是模型运行的基础。用户提示词是用户提出的具体问题或请求，直接决定了模型此次交互的主题。助理提示词则是模型依据前两者生成的回答，体现了模型的理解能力和表达能力。通过合理配置这三类提示词，可以有效地指导大型语言模型产生更加准确、有用且符合预期的结果。在实际应用中，系统提示词往往由开发团队精心设计，而用户提示词则来自终端用户的即时输入，助理提示词则是模型基于这些输入自动生成的输出。

2025-01-08 15:13:53 243

原创 Python Json格式数据处理

确保你的 JSON 文件是以 UTF-8 编码保存的，并且没有 BOM（字节顺序标记）。如果你必须处理包含多个独立 JSON 对象的文件，可以逐行读取文件并解析每一行作为单独的 JSON 对象。当你运行上述 Python 程序，并按照提示进行操作时，你可以查看这个 JSON 文件的内容，并对其进行编辑，比如修改。如果你确实需要存储多个 JSON 对象，考虑将它们放入一个数组中，或者每个对象保存为单独的文件。：JSON 文件中可能包含了多于一个顶级对象或数组，或者有额外的字符（如注释、多余的逗号等）。

2025-01-08 11:58:38 940

原创基于RSA的Linux服务器SSH登录配置

为了生成 SSH 公钥，Python 可以使用paramiko或者等库。不过，最简单的方法是直接调用系统命令来生成密钥对。下面将给出一个简单的 Python 脚本示例，它会调用系统的ssh-keygen命令来生成 SSH 密钥对，并说明如何在 Linux 上使用这些密钥进行登录。

2025-01-08 11:20:08 371

原创 transformers蒸馏版本对话小模型

【代码】transformers蒸馏版本对话小模型。

2025-01-07 20:56:03 567

原创大型模型transformers加载与使用

可以看到，其实参数规模为1.3B的模型还是挺傻的，要正常进行对话估计参数规模得10B上下，此时常规消费级显卡的显存肯定不够用了。确保你已经从 Hugging Face 下载了必要的文件，并将它们放在本地的。变量设置为你下载模型文件的文件夹路径。基本配置：RTX 4060（8GB），推理过程最高显存占用为3GB。作为参数，从本地文件夹加载模型，并配置 FP16。作为参数，从本地文件夹加载 tokenizer。其他代码部分与之前的示例相同，用于推理和生成文本。文件夹中（或你指定的路径）。

2025-01-07 18:55:12 535

原创投机采样EAGLE2深入研究

现代大型语言模型（LLMs）的推理计算成本高昂且耗时，而投机采样已被证明是一种有效的解决方案。大多数投机采样方法（如 EAGLE）使用静态草稿树，隐含地假设草稿 token 的接受率仅取决于它们的位置。有趣的是，作者发现草稿 token 的接受率也依赖于上下文。在论文中，作者基于 EAGLE 提出了 EAGLE-2，它在草稿建模中引入了一种新的上下文感知动态草稿树技术。这一改进利用了 EAGLE 的草稿模型具有良好校准性的事实：来自草稿模型的置信度分数能够以较小的误差近似接受率。

2025-01-07 11:55:34 669

原创投机采样EAGLE详解精读

自回归解码是指模型逐个生成词语（token），每个词语的生成都依赖于之前生成的所有词语。当使用KV Cache加速技术后，解码阶段的每次矩阵-矩阵乘法运算被简化矩阵-向量乘法。矩阵-向量乘法相对矩阵-矩阵乘法，计算访存比更低，这导致整个运算过程的性能瓶颈卡在数据传输上面。因此，自回归解码这种串行的生成方式是 LLM 推理速度慢的主要瓶颈。

2025-01-06 14:27:44 1251

原创推理加速：投机采样经典方法

SpecInfer 投机采样利用多个小型模型（SSM）快速生成“草稿”（Draft），然后由大型模型（LLM）验证并选择，从而加速文本生成。SSM1matSSM1核心思路为：通过一系列小模型 SSM（Small Speculative Model）联合预测 LLM 输出，并将这些小模型的预测输出组织为 Token 树，树中每个分支表示一个候选 Token 序列。

2025-01-02 22:00:41 880

原创大型模型推理加速入门

除此之外，Transformer 模型中的另一个关键组件 FFN 中主要也包含两个矩阵乘法操作，但是 Token 之间不会交叉融合，也就是任何一个 Token 都可以独立计算，因此在 Decoding 阶段不用 Cache 之前的结果，但同样会出现矩阵乘矩阵操作降级为矩阵乘向量。推理加速技术是提升大型语言模型（LLM）和其他深度学习模型性能的关键，旨在减少生成预测所需的时间和计算资源，同时保持或尽量减少对输出质量的影响。这些技术覆盖了从硬件层面的优化到软件算法的改进，以及两者之间的协同工作。

2025-01-02 17:03:39 935

原创大型模型K V Cache机制详解

在生成每个 token 时，都需要对整个已生成的序列进行一次自注意力计算。这意味着，对于序列中的每个 token，我们都需要重复计算 Q、K 和 V 矩阵，而其中 K 和 V 矩阵是基于已经生成的 token 计算得到的，每次计算都是冗余的。KV Cache 通过缓存中间计算结果 K 和 V 矩阵，显著减少了重复计算，加速了 Transformer 模型在生成式任务中的推理速度。KV Cache 的实现方式很简单，主要思想就是将每次计算得到的 K 和 V 矩阵存储下来，在下一次计算时直接使用。

2025-01-02 16:04:11 835

原创大型模型Transformer掩码机制与计算细节

对于因果掩码，我们创建一个形状同样为[T, T]的下三角矩阵，其中主对角线及其以下的所有元素都为0（或者任何非负数，因为它们会被保留），而上三角部分则填充非常大的负数（如-1e9）。接下来就是应用掩码的地方。当我们在解码过程中处理序列时，例如生成一句话，我们希望模型在预测第t个词的时候，只能够考虑从第一个词到第(t-1)个词的信息，而不应该受到尚未生成的词的影响。因此，在计算查询（Q）、键（K）和值（V）之间的点积注意力时，我们需要对注意力分数施加限制，使得那些不应该被考虑到的词元不会影响当前的预测。

2025-01-02 15:29:28 313

原创大模型推理加速的基础

启动阶段是大型语言模型推理过程的开端，它为解码阶段准备了必要的输入和内部状态。这个阶段涉及将用户提供的上下文或提示（prompt）转换成模型可以处理的形式，并初始化一些关键的数据结构和参数。下面是启动阶段更详细的计算细节和过程：首先，当用户向模型提供一个任务或问题时，这段文本需要被预处理。预处理包括分词（tokenization），即将文本分解为模型能够理解的最小单元——词元（tokens）。这些词元可以是单词、子词或者字符，具体取决于所使用的分词策略。

2025-01-02 15:13:16 456

原创大型模型运行过程概述

和。这两个过程有着不同的目标、资源需求和技术挑战。大模型的训练是一个复杂且资源密集的过程，它首先需要收集和准备大量的高质量数据，这些数据经过清洗和预处理后将被用来指导模型学习。在模型设计阶段，工程师们会选择或开发适合任务需求的神经网络架构，对于大型语言模型来说，这通常意味着采用深度多层的解码器结构如Transformer。初始化之后，模型开始接受数据输入，在前向传播过程中生成预测输出，并通过损失函数对比预测与真实标签之间的差异来计算误差；

2025-01-02 14:31:02 489

原创大模型入门基本概念，术语

多层感知机（Multilayer Perceptron, MLP）是一种前馈神经网络，它由多个层次的节点（或称为神经元）组成，每个节点都与相邻层的所有节点相连。MLP 至少包含三层：一个输入层、一个或多个隐藏层和一个输出层。它是由单层感知机改进而来（一种简单的线性分类器）， MLP 通过添加更多层和非线性激活函数扩展了单层感知机的能力。：梯度反向传播算法（Backpropagation Algorithm）是训练神经网络的核心机制之一，它用于计算损失函数相对于每个权重的梯度。

2024-12-20 14:21:38 660

原创 Markdown流程图的简单使用

A -. 描述 .-> B： A 用带箭头的虚线指向 B 并在中间加上文字描述。A == 描述 ==> B： A 用加粗的箭头指向 B 并在中间加上文字描述。A – 描述 --> B： A 带箭头指向 B 并在中间加上文字描述。A – 描述 — B： A 不带箭头指向 B 并在中间加上文字描述。A -.-> B：A 用带箭头的虚线指向 B。A ==> B：A 用加粗的箭头指向 B。A --> B：A 带箭头指向 B。A -.- B：A 用虚线指向 B。带文本的不对称的矩形。

2024-10-25 17:52:55 828

原创秀丽隐杆线虫的基础认识

秀丽隐杆线虫（Caenorhabditis elegans，）是一种非寄生性线虫，以大肠杆菌等微生物为食，，主要分布在温带地区的土壤中。秀丽隐杆线虫有和两种性别，在自然条件下，雌雄同体占大多数，可自体受精，也可接受雄虫的精子产生后代。自20世纪60年代，悉尼·布伦纳利用线虫研究细胞凋亡遗传调控的机制之后，秀丽隐杆线虫逐渐成为分子生物学和发育生物学研究领域中最常用的之一。

2024-10-18 15:36:59 1429

原创 Python代码调用CPP代码简单易用无需过多配置

pybind11是一个用于在 C++ 和 Python 之间创建绑定的库，使得 C++ 函数和类可以被 Python 脚本调用。下面是一个简单的步骤指南，展示如何使用pybind11来创建一个扩展模块，该模块包含一个简单的 C++ 函数，并在 Python 中调用它。

2024-08-30 23:12:12 719 1

原创 C/C++ 编译过程概述

和。

2024-08-28 15:45:08 731

原创 cmake,make,makefile之间的关系

CMake用于生成 Makefile，它允许开发者以一种更抽象的方式定义构建规则。Make是一个构建工具，用于解析 Makefile 并执行构建过程。Makefile是 Make 工具使用的配置文件，其中包含了具体的构建规则和依赖关系。通过使用 CMake 和 Make，开发者可以方便地管理和构建复杂的软件项目，同时保持构建过程的一致性和可移植性。

2024-08-28 15:31:41 619

原创 C/C++ 汇编基础知识概述

了解汇编基础可以提高C/C++的运用能力，但是我们不需要，也没有必要精通汇编语言，只需要大概理解汇编的基本思想，通过了解C/C++的底层实现去更好发挥这一门编程语言的极致性能，如果不是为了追求速度与效果，完全可以使用更容易进行问题建模的高级语言，比如Python或者Java。

2024-08-28 15:08:00 1327

原创油皮抗痘指南

为了科学进行油皮抗痘，我们需要全面的了解里面涉及的知识，做到知己知彼百战百胜。

2024-08-23 15:39:33 463

原创 C/C++ 数学运算与数学函数

C 标准库 ()C++ 标准库 ()三角函数:指数与对数函数:幂和根函数:取整和取余函数:其他函数:C 和 C++ 支持多种基本的数学运算符，这些运算符可以用来执行常见的算术操作。下面是 C/C++ 中的一些基本数学运算符及其用途：加法 ():减法 ():乘法 ():除法 ():取模 ():自增 ():自减 ():前缀自增 ():后缀自增 ():前缀自减 ():后缀自减 ():除了上述基本运算符之外，C/C++ 还支持一些复合赋值运算符，这些运算符结合了赋值运算符和算术运算符，例如：示例:

2024-08-15 19:32:54 1042

原创 C++字符串常见用法总结

【代码】C++字符串常见用法总结。

2024-08-15 13:23:20 288

原创 C/C++ 控制台输入输出

在C语言中，常见的控制台输入输出主要依赖于标准I/O库中的函数。

2024-08-15 12:52:34 1507

原创论文阅读：基于生物神经元的模拟游戏世界感知与学习

合成生物智能SBI(Synthetic Biological Intelligence)：合成生物学与人工智能交叉领域，是未来脑科学发展一个可能大热的风口，这篇论文属于SBI领域。生物神经网络BNN(Biological Neuronal Network)：生物神经网络基于动物神经元发展，人工神经网络基于神经元数学模型发展，两者原理上存在较大差异。体内生物智能和体外生物智能。像脑机接口等等更多像体内生物智能，生物神经网络主要存活在生物体内；

2024-07-30 20:55:41 829 1

原创计算模型系统控制架构

系统控制架构是指用于设计和组织控制系统的结构和组件的方式，它定义了系统如何收集信息、处理数据、制定决策并执行控制动作。控制架构的选择直接影响到系统的性能、可扩展性、可靠性和维护性。

2024-06-24 16:59:16 632

原创生物神经网络原理分析研读04

在实际中，一般人脑对图像的处理路径都比较深，对声音的处理路径相对较浅，这往往也就意味着在相同计算速度下，声音信息的处理已经早于图像信息的处理，如果没有同步计算机制，我们就会感觉到明显的客观世界声音图像不同步，但实际上并没有发生。例如，视觉处理不仅发生在视觉皮层，还涉及到多个皮层和皮层下区域的协同工作。因为神经网络模型往往最终追求的是对客观规律的建模，所以具有灵活性更高的生物神经网络有天然的优势，因为网状结构有更适合的形式去拟合客观世界的规律，而有些事物的变化可能适合顺序结构拟合，另一些事物又可能不适合。

2024-06-20 15:28:55 912

神经元连接-雄性个体线虫.csv

神经元连接-雌雄同体线虫.csv

神经元分类-秀丽隐杆线虫.csv

空空如也