蒸馏训练是什么意思

资讯

人工智能知识蒸馏技术是怎样的
它是由Google Brain的Hinton等人在2015年提出的。知识蒸馏技术可以帮助解决模型在资源受限的设备上的应用问题，并可以有效地提高模型的泛化能力。
格物信息
揭秘DeepSeek-V3“物美价廉”的背后：蒸馏技术存在天花板，依赖合成数据训练有风险
每经记者：郑雨航每经实习记者：岳楚鹏每经编辑：兰素英最近大火的深度求索DeepSeek-V3模型仅用557万美元的训练费用，就达到了顶尖模型的效果，而且产品价格低廉，因此被网友们戏称为大模型界的“拼多多”。
每日经济新闻
109评论
今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？
论文中描述的带 Resoning 的 CoT 参与 SFT 和 Warm-up/RL 的两阶段微调，和 OpenAI 在 demo 里提出的概念和方法非常相似，这也给 o1 的技术复现提供了更明确的理论支撑。
夕小瑶科技说
5评论
对话 APUS 李涛：全面转型做 AI，蒸馏法训练大模型，沉淀中小模型
走进融新科技中心A座23层，映入眼帘的是绿植、野营桌椅帐篷，在如此轻松的环境下，雷峰网见到了APUS创始人李涛，他着一身休闲装，显得尤为放松。
AI科技评论
1评论
模型也可以上网课？！一文看懂服务型蒸馏训练方案
其中知识蒸馏这一概念是由Hinton等人在2015年发表的《Distilling the Knowledge in a Neural Network》论文中提出的一个黑科技，一种非常经典的模型压缩技术，是将知识从一个复杂模型迁移到另一个轻量级模型上的方式来实现模型压缩。
量子位
DeiT：注意力也能蒸馏
DeiT:使用Attention蒸馏Transformer。Hinton， Geoffrey， Oriol Vinyals， and Jeff Dean. “Distilling the knowledge in a neural network.” arXiv preprint arXiv:1503.02531 2.7 .
ZOMI酱
1评论
数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了
这就是知识蒸馏，一种模型压缩/训练方法。这不，谷歌最近就提出了两种新的数据集蒸馏方法，在推特上引起了不小反响，热度超过600:
量子位
39评论
深度学习中的3个秘密：集成，知识蒸馏和自蒸馏
训练好的模型，用自己蒸馏一下，就能提高性能，是不是很神奇，这里面的原理到底是什么呢，这要从模型集成开始说起。
布道师Peter
有了这份大厂AI大模型高频常问面试题宝典，面试不愁了！
在面试前期准备阶段，如果你发现自己在AI大模型等基础技能考核中表现不佳，原因往往归结为两个方面:一、基础知识体系尚未系统完善。
AI大模型-小智
知识蒸馏相关技术「模型蒸馏、数据蒸馏」以ERNIE-Tiny为例
模型蒸馏原理可参考论文 ERNIE-Tiny : A Progressive Distillation Framework for Pretrained Transformer Compression 2021。
汀丶人工智能
3评论
深度学习三大谜团：集成、知识蒸馏和自蒸馏
来源 | 智源社区集成（Ensemble，又称模型平均）是一种「古老」而强大的方法。只需要对同一个训练数据集上，几个独立训练的神经网络的输出，简单地求平均，便可以获得比原有模型更高的性能。甚至只要这些模型初始化条件不同，即使拥有相同的架构，集成方法依然能够将性能显著提升。
AI科技评论
16评论
BERT 能否被“平替”？作业帮文本分类场景下的一次尝试
因此，从场景特征出发，本文借鉴蒸馏中 teacher-student 的思想以及主动学习的方法，探索了 TextCNN 替换 BERT 的效果。
InfoQ
1评论
谷歌两小时I/O大会提了“AI”121次，发布了十余项更新及新品，却“缺乏惊喜”
·本次开发者全程两个小时，谷歌CEO共提及“AI”121次，此次开发者大会，谷歌将搜索业务做了最彻底的AI改造，还更新升级了Gemini1.5Pro版本，同时推出Gemini1.5Flash轻量化小模型。此外，推出自称效果超过Sora的生成视频模型Veo。
澎湃新闻
2评论
总结了6种卷积神经网络压缩方法
student 模型的实际模型结构和小模型一样，但是损失函数包含了两部分，分类网络的知识蒸馏 mxnet 代码示例如下:tensorflow代码示例如下:tf.scalar_mul 函数为对 tf 张量进行固定倍率 scalar 缩放函数。
华为云开发者联盟
11评论

加载更多

视频