微调
学习目标
学习完本部分,使学习者能够:
- 准备整理微调数据集;
- 使用工具对开源llm进行 微调 。
学习活动
观看视频:吴恩达《微调大型语言模型》| Finetuning Large Language Models(中英字幕)
- 视频时长:1小时
- 视频内容简介:完成这门课程后,您将能够:
- 了解何时在LLM上应用微调
- 为微调准备您的数据 在您的数据上训练和评估LLM
- 通过微调,您可以使用自己的数据对模型进行训练,并更新LLM中的神经网络权重,从而改变模型与提示工程和检索增强生成等其他方法的差异。细调可以使模型学习风格、形式,并通过更新模型以获取新知识来改善结果。
- 视频来源:Deeplearing.ai的课程Finetuning Large Language Models
阅读文档:llama factory 使用指南
A Beginner’s Guide to LLM Fine-Tuning is a detailed guide on finetuning LLMs
A very detailed and simplified read on how to fine-tune LLMs with Hugging Face by Philipp Schmid
4-part blog series by Anyscale is a comprehensive guide on fine tuning and serving LLMs.
实践
补充资料
视频:2024大语言模型构建小指南 by Thomas Wolf
- 视频时长:1小时20分
- 视频内容简介:
- 00:00:00 介绍 00:00:59 大语言模型的工作流程
- 第一部分:训练:数据 00:01:17 数据准备 - 介绍和近期数据准备的良好资源 00:05:28 网络规模的预训练语料库 - 目标和挑战 00:11:29 网络规模数据源 - 关注近期数据集 00:18:01 语言和质量过滤 00:24:34 数据去重深入探讨 00:27:40 训练前的数据最终准备 00:31:31 如何大规模评估数据质量 00:36:29 datatrove和lighteval库
- 第二部分:训练:建模 00:38:18 大语言模型训练的建模技术介绍 00:39:09 模型过大时:并行处理 00:40:00 数据并行 00:41:18 张量并行 00:44:38 管道并行 00:47:00 序列并行和4D并行的参考资料 00:47:52 同步:GPU-CPU和GPU-GPU的挑战 00:52:14 Flash Attentionv1和v2 00:56:23 稳定训练配方 00:59:12 新架构:专家混合(MoE) 01:03:13 新架构:Mamba 01:04:49 nanotron库
- 第三部分:微调:强化学习人类反馈(RLHF)和对齐 01:06:15 2024年的RLHF 01:08:23 PPO、DPO和REINFORCE
- 第四部分:快速推理技术 01:11:23 量化、猜测解码和编译:概述和资源
notebook:在单个 GPU 上针对自定义代码微调代码 LLM