wordpress 生成cookie深圳网站搜索优化工具

张小明 2026/1/8 20:23:25
wordpress 生成cookie,深圳网站搜索优化工具,在萍乡谁可以做网站,厦门网络推广公司一、背景介绍#xff1a;为什么需要 LISA#xff1f; 在大语言模型微调中#xff0c;显存往往是最大的门槛。 以一个常见的 7B 参数量模型为例#xff0c;如果采用全参数微调#xff08;Full Fine-tuning#xff09;#xff0c;显存占用通常在 80GB 左右#xff0c;基…一、背景介绍为什么需要 LISA在大语言模型微调中显存往往是最大的门槛。以一个常见的7B 参数量模型为例如果采用全参数微调Full Fine-tuning显存占用通常在80GB 左右基本需要一张完整的A100 80G显卡。这对于大多数研究者和工程团队来说成本较高。因此社区中逐渐出现了以LoRA为代表的轻量化微调方法通过引入低秩矩阵来减少可训练参数从而显著降低显存需求。但 LoRA 也并非完美参数更新空间受限在某些任务上性能仍与全参微调存在差距LISALayerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning正是在这一背景下提出的一种新方法。它的核心目标是在保持“全参数训练表达能力”的前提下大幅降低显存占用和训练开销。实际效果非常亮眼全参训练 7B 模型≈80GB 显存使用 LISA 后≈30GB 显存这意味着40G A100、24G A10甚至 RTX 3090 都有可能进行“近似全参”的训练论文地址https://arxiv.org/abs/2403.17919二、技术背景理解 LISA 前需要知道什么如果你对深度学习和大模型训练还不够熟悉建议先快速浏览以下入门教程本文默认读者已具备以下基础认知Transformer 的 layer 结构全参数训练 vs LoRA 微调反向传播与梯度更新三、LISA 的核心思想并不是所有 Layer 都“同样重要”1️⃣ 一个关键观察不同 Layer 的“更新强度”差异很大LISA 的作者首先做了一件非常直观、但很少有人系统分析的事情对比 LoRA 训练与全参数训练时各个 layer 参数更新的 L2 范数作者在GPT-2和LLaMA-2-7B上统计了不同训练 step 中各层参数更新的平均 L2 范数。图示不同 layer 在 LoRA / Full FT 下的 L2 范数对比得到的重要结论是在LoRA 训练中由于低秩矩阵的限制 参数更新集中在“特定方向”在全参数训练中 虽然所有参数都可训练但并不是所有 layer 的更新幅度都很大特别是中间层的参数更新 L2 范数明显更小底层和顶层对模型行为影响更显著这说明一个事实即便在全参数训练中大量 layer 的“实际贡献”是有限的2️⃣ 一个大胆假设能否“只训练一部分 Layer”基于上述观察作者提出了一个非常自然的想法如果在全参数训练中只让一部分 layer 参与反向传播是否能模拟 LoRA 的更新特性同时保留全参模型的表达能力于是LISA 的基本策略就诞生了每隔 K 个 step随机选取 γ 个 layer只对这些 layer 执行反向传播其余 layer 冻结图示LISA 的 layer 采样与更新流程从长期训练视角来看所有 layer 都会被更新但每一时刻显存中只需维护少量 layer 的梯度显存需求 ≈ γ / 总 layer 数四、LISA 的算法流程可以将 LISA 理解为一种“时间维度上的 Layer 轮流训练”策略具体流程如下初始化模型与全参数训练完全一致每训练 K 个 step随机采样 γ 个 Transformer layerForward所有 layer 都参与前向计算Backward只对被选中的 layer 计算梯度其他 layer 参数保持冻结重复以上过程直至训练结束这样做带来的直接收益是显存显著降低Backward 计算更快无需额外参数结构不同于 LoRA五、官方实验结果显存、速度、效果全面对比1️⃣ 显存占用对比图示Full FT / LoRA / LISA 显存占用结论非常直观LISA 的显存占用甚至低于 LoRA2️⃣ 训练速度对比图示Forward / Backward 时间对比由于反向传播的 layer 更少LISA 的Backward 时间显著短于 LoRA整体训练速度更快3️⃣ 微调效果对比在不同规模的微调任务中发现LISA 在多个数据集上性能优于 LoRA在部分设置下接近甚至达到全参训练效果六、LISA 的两个关键超参数LISA 只有两个非常直观的超参数参数含义γ每次参与反向传播的 layer 数K重新采样 layer 的步数间隔消融实验结果表明图示γ、K 不同取值的性能对比最佳组合为γ 8K 5七、实测实验基于 SWIFT 框架为了验证 LISA 在真实工程环境中的效果我们基于魔搭社区 SWIFT 框架进行了实验SWIFT 已原生支持 LISA并提供以下参数lisa_activated_layers→ γlisa_step_interval→ K1️⃣ 训练命令# pip install ms-swift -U sft.py \ --model_type qwen-7b-chat \ --dataset ms-agent \ --train_dataset_mix_ratio 2.0 \ --batch_size 1 \ --max_length 2048 \ --use_loss_scale True \ --gradient_accumulation_steps 16 \ --learning_rate 5e-05 \ --use_flash_attn True \ --eval_steps 2000 \ --save_steps 2000 \ --train_dataset_sample -1 \ --val_dataset_sample 5000 \ --num_train_epochs 2 \ --check_dataset_strategy none \ --gradient_checkpointing True \ --weight_decay 0.01 \ --warmup_ratio 0.03 \ --save_total_limit 2 \ --logging_steps 10 \ --sft_type full \ --lisa_activated_layers 2 \ --lisa_step_interval 20 对比实验包括全参数训练无 LISAFull LISA不同 γLoRAr82️⃣ 实验结果汇总exp_namememorytrainspeedtrain_losseval_lossgsm8karccevalfull73.53GiB1.430.540.950.3430.5360.495fulllisa_231.11GiB2.660.621.060.3490.6530.592fulllisa_431.87GiB2.630.631.060.3770.6560.607lora (r8)32.35GiB0.950.531.010.4620.6760.304八、实验现象与分析 显存全参 ≈ 2 × LISA / LoRAγ 越小显存越低 训练速度LISA LoRAγ 增大会略微降低速度 训练 Loss全参最低LISA 略高但可接受图示LISA vs LoRA loss 曲线可以观察到LISA 的 loss 曲线更“抖动”推测原因是每次反向传播的 layer 是随机采样的梯度路径存在随机性九、总结与思考LISA 是一种非常“工程友好”的新型 tuner✅ 不引入额外参数结构✅ 显存占用极低✅ 训练速度快✅ 在多个任务上达到甚至超过 LoRA它也引出了许多值得进一步研究的问题能否基于参数范数 / 特征值智能选择 layer是否可以在更细粒度QKV / MLP / LN上控制反向传播是否能与 LoRA、Adapter 等方法结合如果你已经在实际项目中尝试过 LISA欢迎一起交流讨论。推荐继续阅读我的文章点击合集大模型原理照着做玩转大模型一张图讲透大模型玩转智能体由于篇幅所限后续会介绍更多大模型基础知识喜欢的朋友可以点赞、收藏、转发有什么的不懂的欢迎在留言评论区提问欢迎加入我的知识星球——大模型公社这里不仅有我亲自整理的大模型学习视频和代码资料还会定期分享前沿技术实践与经验心得。如果你想深入理解大模型、提升实战能力这里会是你最值得加入的学习社群。和一群志同道合的伙伴一起进步少走弯路快速掌握核心知识。现在就加入开启你的大模型成长之旅 目前星球已分享了大量视频学习资料和代码资料永久有效进群即可学习小提示领取优惠券更划算哦~!如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

申请做网站 论坛版主万网做的网站咋样

在构建现代Web服务时,超时配置是确保系统稳定性的关键因素。ngx_http_proxy_connect_module作为Nginx的CONNECT方法扩展模块,为HTTPS连接提供了专业的超时管理方案。本文深度解析proxy_connect_data_timeout指令的技术原理与实战应用。 【免费下载链接】…

张小明 2026/1/9 16:32:24 网站建设

北京网站建设报价网站上传的图片怎么做的清晰

甲醛消除材料行业深度分析:恒清石技术突破与市场实践行业痛点分析当前甲醛消除材料领域面临三大技术挑战:长效性不足、环境适应性差、安全性存疑。传统活性炭材料吸附饱和后易二次释放,测试显示其有效吸附周期普遍不超过30天;光触…

张小明 2026/1/7 18:27:20 网站建设

江苏环泰建设有限公司网站小孩子做手工做游戏的网站

微服务时代的测试范式转变随着企业数字化转型的深入,微服务架构已成为现代软件系统的主流设计模式。相较于传统的单体架构,微服务通过将应用拆分为一组小而自治的服务,带来了开发敏捷性、技术多样性和可扩展性等优势。然而,这种架…

张小明 2026/1/7 18:25:17 网站建设

网站怎么绑定域名莆田市城厢区建设局网站

EmotiVoice语音合成在音乐剧配音中的创造性应用 在一场即将上演的原创音乐剧中,导演需要为主角录制一段充满悲愤情绪的独白:“你竟用谎言将我推入深渊!”然而,原定配音演员突发疾病无法进棚。时间紧迫,重找声优成本高…

张小明 2026/1/7 18:23:15 网站建设

广州网站ui设计网站推广计划机构

还在为文本搜不到图、图片找不到相关描述而头疼吗?🤔 Qdrant向量数据库正在用"万物皆可向量"的理念,彻底改变传统搜索的游戏规则!作为新一代AI原生向量数据库,Qdrant让文本、图像、音频等不同模态的数据在同…

张小明 2026/1/7 18:21:13 网站建设

有专门做电商网站的CMS吗装修案例图

S-UI Windows版快速部署指南:10分钟完成专业网络面板搭建 【免费下载链接】s-ui 项目地址: https://gitcode.com/GitHub_Trending/su/s-ui 还在为Windows平台网络服务部署而烦恼吗?S-UI Windows版提供了一键式安装体验,让你快速搭建功…

张小明 2026/1/7 18:19:10 网站建设