没有合适的资源?快使用搜索试试~ 我知道了~
AI大模型技术方案 目录 1. 概述 1 1.1. 编写目的 1 1.2. 背景 1 1.3. 软件设计目标 1 1.4. 术语定义 1 2. 运行环境 2 2.1. 运行软件环境 2 2.2. 运行硬件环境 2 3. 总体技术方案 2 3.1. 预训练模型 2 3.2. 分词算法 4 3.3. 领域词表扩充 4 3.3.1. BPE词表构建 5 3.3.2. 新词发现 5 3.4. 后预训练 6 3.4.1. 数据处理 6 3.4.2. 训练方法 7 3.5. 指令微调 8 3.5.1. 数据处理 8 3.5.2. 训练方法 12 3.6. 指令对齐 14 3.6.1. 奖励数据集 15 3.6.2. 奖励模型训练 15 3.6.3. 强化学习 16 3.7. 下游任务适配 16 3.7.1. 设计Prompt 16 3.7.2. 参数高效微调 17 3.8. 模型能力评估 19 3.8.1. 通用领域评估 19 3.8.2. 垂直领域评估 20 3.9. 模型量化 20 3.9.1. 后训练量化(PTQ) 20 3.10. 模型部署 21 3.10.1. KV Cache 22 .
资源推荐
资源详情
资源评论
大模型技术方案
二〇二三年八月
大语言模型技术方案
I
目录
1. 概述 ..................................................................................................................................................1
1.1. 编写目的 ................................................................................................................................1
1.2. 背景 ........................................................................................................................................1
1.3. 软件设计目标 ........................................................................................................................1
1.4. 术语定义 ................................................................................................................................1
2. 运行环境 ..........................................................................................................................................2
2.1. 运行软件环境 ........................................................................................................................2
2.2. 运行硬件环境 ........................................................................................................................2
3. 总体技术方案 ..................................................................................................................................2
3.1. 预训练模型 ............................................................................................................................2
3.2. 分词算法 ................................................................................................................................4
3.3. 领域词表扩充 ........................................................................................................................4
3.3.1. BPE 词表构建.............................................................................................................5
3.3.2. 新词发现 ....................................................................................................................5
3.4. 后预训练 ................................................................................................................................6
3.4.1. 数据处理 ....................................................................................................................6
3.4.2. 训练方法 ....................................................................................................................7
3.5. 指令微调 ................................................................................................................................8
3.5.1. 数据处理 ....................................................................................................................8
3.5.2. 训练方法 ..................................................................................................................12
大语言模型技术方案
II
3.6. 指令对齐 ..............................................................................................................................14
3.6.1. 奖励数据集 ..............................................................................................................15
3.6.2. 奖励模型训练 ..........................................................................................................15
3.6.3. 强化学习 ..................................................................................................................16
3.7. 下游任务适配 ......................................................................................................................16
3.7.1. 设计 Prompt .............................................................................................................16
3.7.2. 参数高效微调 ..........................................................................................................17
3.8. 模型能力评估 ......................................................................................................................19
3.8.1. 通用领域评估 ..........................................................................................................19
3.8.2. 垂直领域评估 ..........................................................................................................20
3.9. 模型量化 ..............................................................................................................................20
3.9.1. 后训练量化(PTQ)....................................................................................................20
3.10. 模型部署 ............................................................................................................................21
3.10.1. KV Cache ................................................................................................................22
3.10.2. PagedAttention ........................................................................................................23
3.10.3. 内存共享 ................................................................................................................23
4. 算法应用 ........................................................................................................................................24
4.1. 市场监管问答 ......................................................................................................................24
4.1.1. 数据预处理 ..............................................................................................................24
4.1.2. 数据向量化 ..............................................................................................................25
4.1.3. Prompt 设计 ..............................................................................................................27
大语言模型技术方案
III
4.1.4. 推理流程 ..................................................................................................................27
4.1.5. 模型效果 ..................................................................................................................28
4.1.6. 后续工作 ..................................................................................................................29
大语言模型技术方案
第 1 页,共 31 页
1.概述
1.1.编写目的
本方案的编写目的是为了提供一个详尽的指南,以便团队成员能够理解和实
施大模型的开发和应用。通过该方案,旨在确保团队在设计、开发和部署大模型
时具备一致的理解和方法,从而提高项目的效率和成功率。
1.2.背景
大模型是指在人工智能领域中,具有庞大参数规模和强大计算能力的深度学
习模型。这些模型通常由多层神经网络组成,通过在大规模数据集上进行训练,
能够学习到丰富的特征表示和复杂的模式,可以应用于各种自然语言处理任务,
如文本生成、文本分类、机器翻译等。
然而,大模型也面临一些挑战和限制。首先,大模型的训练和推断需要大量
的计算资源和存储空间,对硬件设施和成本提出了较高的要求。此外,大模型对
数据的质量和多样性要求较高,需要大规模的训练数据才能发挥其优势。
1.3.软件设计目标
本次软件设计的目标是设计一个完整的大模型训练流程,实现针对特定垂直
领域的大模型开发和应用支持。
1.4.术语定义
序号
术语名称
术语解释
1
LLM
LLM(Large Language Model)是指参数规模庞大的语言模型,
通常达到百亿级别或更高。这些模型通过深度学习技术,使用
大量的训练数据进行训练。LLM 的发展大大提升了语言理解和
生成的能力,在自然语言处理领域展现出了巨大的潜力。
剩余34页未读,继续阅读
资源评论
AI知识研学圈
- 粉丝: 188
- 资源: 175
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Git 分布式版本控制系统常见操作指南
- 电力市场出清程序 IEEE14节点考虑输电阻塞,求解机组边际电价和节点边际电价 采用拉格朗日乘子进行分析计算,目标函数为发电成本最小 运用matlab中的linprog()函数实现此程序,均为m
- 电力电子、电机驱动、数字滤波器matlab simulink仿真模型实现及相关算法的C代码实现 配置C2000 DSP ADC DAC PWM定时器 中断等模块,提供simulink与DSP的联合仿
- 双层优化 大型电动汽车 时空调度 测试环境:MATLAB 关键词:双层优化,电动汽车,时空调度,配电网 考虑电动汽车有序充放电的机组组合和最优趋势,机组组合采用相同的线性化方法,采用二阶锥松弛的
- 基于MATLAB的四旋翼无人机PID控制
- 堆垛机-西门子PLC程序+输送线程序+触摸屏程序 物流仓储 涵盖通信,算法,运动控制,屏幕程序 实际项目程序 西门子S7-1200+G120+ET200S+劳易测激光测距 博途编程 采用用
- 分析储能接入对新能源消纳能力影响 目标函数:系统经济性最优包括燃料成本和弃风惩罚成本 约束:功率平衡,储能约束,机组出力上下限,机组爬坡约束,风电出力约束
- (matlab)三相并网逆变器svpwm控制+PI电流环控制(有参考文献) (1)符合入网电流谐波标准 (2)并网电流和电压同相 (3)采用锁相环PLL
- 三菱PlC程序大型项目QCPU+QD77MS16 项目说明如下: 1.包含一套完整的电气开发系统资料(包含plc程序,触摸屏程序,伺服模块设置程序,程序开发地址规划表) 2.这套开发程序是用一套完
- 基于遗传算法的配电网优化配置 软件:Matlab 介绍:分布式电源、无功补偿装置接入配电网,考虑配电网经济性、环境成本和电能质量为目标函数,使用遗传算法进行优化配置,在IEEE33节点系统进行了仿真验
- 遗传算法求解微电网日前调度 测试环境:MATLAB 用遗传算法求解电力系统简单日前调度问题,考虑微网发电成本的经济性,以微型燃气轮机发电成本、 储能运行维护成本和微网与主网之间买、卖电的交互成本为系统
- 直驱永磁风力发电机,基于Simulink建立了包括风力机、传 动系统、永磁同步发电机、整流逆变、电网等模块的永磁直驱风力发电机控制系统模型 附带文件说明
- 西门子modbus通讯 读取或写入仪表
- 三菱Q程序程序(某集团设备程序) 用三菱Q系列和威纶触摸屏编写 此程序已经实际设备上批量应用,程序成熟可靠,借鉴价值高,程序有注释 由于程序代码可复制发后不可 此款为宏指令未加密
- 考虑降解成本的具有混合储能的微电网两层能源管理系统,采用了模型预测控制的方法
- 综合能源系统仿真,冷热电三联供仿真,simulink仿真
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功