通信人家园
标题:
Llama系列上新多模态,3.2版本开源超闭源,还和Arm联手搞了手机优化版
[查看完整版帖子]
[打印本页]
时间:
2024-9-27 15:59
作者:
see122
标题:
Llama系列上新多模态,3.2版本开源超闭源,还和Arm联手搞了手机优化版
在多模态领域,开源模型也超闭源了!
就在刚刚结束的Meta开发者大会上,Llama 3.2闪亮登场:
这回不仅具备了
多模态能力
,还和Arm等联手,推出了专门为高通和联发科硬件优化的“移动”版本。
01 首个视觉
有关Llama 3.2具体能做什么,这次官方也释出了不少demo。
先看个汇总:Llama 3.2 11B和90B支持一系列多模态视觉任务,包括为图像添加字幕、根据自然语言指令完成数据可视化等等。
Llama 3.2 11B和90B也是首批支持多模态任务的Llama系列模型,为此,Meta的研究人员打造了一个新的模型架构。
在Llama 3.1的基础之上,研究人员在不更新语言模型参数的情况下训练了一组适配器权重,将预训练的图像编码器集成到了预训练的语言模型中。
这样,Llama 3.2既能保持纯文本功能的完整性,也能get视觉能力。
训练过程中,Llama 3.2采用图像-文本对数据进行训练。训练分为多个阶段,包括在大规模有噪声数据上的预训练,和更进一步在中等规模高质量领域内和知识增强数据上的训练。
在后训练(post-training)中,研究人员通过监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)进行了几轮对齐。
02 专为端侧打造的“小”模型
至于1B和3B这两个轻量级模型,目的更加清晰:
随着苹果Apple Intelligence的推出,对于电子消费市场而言,手机等终端上的生成式AI已经成为标配。
而脱离云端独立运行在终端上的模型,无论是从功能还是从安全的角度,都是终端AIGC落地的关键。
Ollama、Groq等也已第一时间更新支持。
参考链接:
[1]https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
[2]https://www.cnet.com/tech/mobile/meta-and-arm-want-to-bring-more-ai-to-phones-and-beyond/#google_vignette
[3]https://news.ycombinator.com/item?id=41649763
时间:
2024-9-27 16:12
作者:
laozhu
用来干啥的
通信人家园 (https://www.txrjy.com/)
Powered by C114