网站首页 > 技术教程 正文
当前2024年,LLM领域发展日新月异,很多新的实用技术层出不穷,个人认为要跟上LLM的发展,需要掌握以下内容,并需要不断地跟踪学习。
入门LLM前置基础
- 深度学习基础知识:推荐李宏毅的深度学习课程
- Python和numpy:推荐菜鸟教程
- Pytorch框架的使用:推荐官方的60分钟教程
以上这些是敲门砖,默认已经掌握。大模型书籍获取:公煮号:【AI智能江河】
理论基础
- Transformer:LLM基础组件,必需掌握
- The Illustrated Transformer:图解Transformer,配合论文一起食用效果更佳
- RoPE:当前大模型必备的位置编码
- RMSNorm:LayerNorm的升级版(简化版),LLM最常用的归一化方法
- GPT:GPT系列鼻祖论文
- GPT2:Language Models are Unsupervised Multitask Learners
- GPT-3:第一个千亿大模型,大力出奇迹
- InstructGPT:ChatGPT前身
- GPT4:OpenAI技术报告
- LLama:最热门的开源LLM
- LLama2:最热门的开源LLM,结合代码学习效果更好
掌握以上内容基本就能理解当前LLM的原理,对模型的计算过程有一个整体上的认识,就能知道为什么LLM的回答是一个接着一个输出的。
进阶知识
如果需要利用LLM完成应用或者对模型进行改进,就需要更加深入一点的了解。要掌握模型的训练推理过程,常见的加速方法以及前沿方向。
- ZeROZeRO-Offload、ZeRO-Infinity:大模型训练微调最常用的DeepSpeed框架的基础
- FlashAttention:现代LLM加速必备,白给的加速谁会不要?
- PagedAttention:灵感来源于操作系统的LLM显存管理算法,把LLM显存开销打下来了
- MQA、GQA:针对Attention模块的优化算法,多个Query共享Key和Value,加速推理
- LoRA:低资源微调模型的方法,让没有A100的“科研平民”也能上手LLM微调的神器
- MoE:混合专家模型,当前研究的热点,未来LLM的潜在新形态
- ...
实操教程
推荐以下三个项目:
nanoGPT:以GPT-2为Baseline,详细地介绍了LLM训练和推理的过程,代码简洁易懂,极适合入门实操。K神出品,必属精品
LLMs-from-scratch:一本正在连载中的书籍配套项目,从零开始教你如何实现并训练推理LLM,每一部分都有详细的notebook,可以单步执行,了解每一步模型都做了什么,把LLM拆开了揉碎了展现在你面前。
llama.cpp:一个没有第三方依赖的纯C++的高性能LLM推理框架,也能训练。支持当前大多数主流LLM,内容很丰富,上手使用也算简单。不过由于涉及底层优化,想要优化该项目的话需要一定的计算机底层知识,适合有一定经验的选手学习。
再推荐一本人大出版的大模型电子书籍《大语言模型》,详细介绍了语言模型的发展脉络和知识,不仅包含算法原理模型结构,还包含了数据处理和训练推理步骤讲解,甚至连代码都有中文注释,对新手友好。书中详细地介绍了LLM的训练、推理和评价阶段,训练阶段包含预训练、指令微调、偏好对齐等阶段步骤和数据处理,推理阶段介绍了解码算法、量化、蒸馏、剪枝等加速手段,评测部分介绍了常见的评测任务和指标,非常适合系统地入门学习LLM,这是我读过最适合新手的LLM书籍~
封面
大模型书籍获取:公煮号:【AI智能江河】
猜你喜欢
- 2024-11-26 正点原子STM32F4/F7水星开发板资料连载第四十四章NAND FLASH实验
- 2024-11-26 动画制作软件Flash软件Adobe Animate AN CC 2020
- 2024-11-26 每日一练|教育公共基础知识
- 2024-11-26 FANUC 系统操作基础(三)
- 2024-11-26 pr剪辑必备新手教程:PR软件中的基础知识
- 2024-11-26 阿波罗 STM32F767 开发板资料连载第四十六章 NAND FLASH 实验
- 2024-11-26 正点原子STM32F4/F7水星开发板资料连载第四十六章 汉字显示实验
- 2024-11-26 Flash在2020年底停止更新,为何会遭到Adobe抛弃?
- 2024-11-26 嵌入式开发入门指引
- 2024-11-26 新手攻略!入门ARM必须要理解的22个常用概念
你 发表评论:
欢迎- 04-27spring框架怎么实现依赖注入?
- 04-27卸载 Mac 应用程序的 4 种基础方法
- 04-27用户界面框架jQuery EasyUI示例大全之Application
- 04-27win7 64位 server.CreateObject("excel.application")
- 04-27SpringCloud的配置文件bootstrap和application的区别
- 04-27Excel VBA小技巧:用Application.Version判断用户Excel版本
- 04-27JSA宏教程——应用程序(Application)对象事件
- 04-27详解flink 1.11中的新部署模式-Application模式
- 最近发表
-
- spring框架怎么实现依赖注入?
- 卸载 Mac 应用程序的 4 种基础方法
- 用户界面框架jQuery EasyUI示例大全之Application
- win7 64位 server.CreateObject("excel.application")
- SpringCloud的配置文件bootstrap和application的区别
- Excel VBA小技巧:用Application.Version判断用户Excel版本
- JSA宏教程——应用程序(Application)对象事件
- 详解flink 1.11中的新部署模式-Application模式
- 为什么CEO念“C~E~O”,而APP却不能念A~P~P?
- 汇川技术|Inoproshop软件中Application简介及常用功能
- 标签列表
-
- sd分区 (65)
- raid5数据恢复 (81)
- 地址转换 (73)
- 手机存储卡根目录 (55)
- tcp端口 (74)
- project server (59)
- 双击ctrl (55)
- 鼠标 单击变双击 (67)
- debugview (59)
- 字符动画 (65)
- flushdns (57)
- ps复制快捷键 (57)
- 清除系统垃圾代码 (58)
- web服务器的架设 (67)
- 16进制转换 (69)
- xclient (55)
- ps源文件 (67)
- filezilla server (59)
- 句柄无效 (56)
- word页眉页脚设置 (59)
- ansys实例 (56)
- 6 1 3固件 (59)
- sqlserver2000挂起 (59)
- vm虚拟主机 (55)
- config (61)
本文暂时没有评论,来添加一个吧(●'◡'●)