通信人家园

标题: Meta开源最新模型——Llama Guard-7b [查看完整版帖子] [打印本页]

时间: 2023-12-12 14:14

作者: gythy1978 标题: Meta开源最新模型——Llama Guard-7b

全球社交、科技巨头Meta在官网开源了全新模型——Llama Guard。
据悉，Llama Guard是一个基于Llama 2-7b的输入、输出保护模型，可对人机会话过程中的提问和回复进行分类,以判断其是否存在风险。可与Llama 2等模型一起使用，极大提升其安全性。
Llama Guard也是Meta推出的“Purple Llama”安全评估项目中，输入、输出保障环节的重要组成部分，这也是首个在输入输出防护中区分用户与AI风险的模型。
Llama Guard地址：https://huggingface.co/meta-llama/LlamaGuard-7b
Purple Llama地址：https://github.com/facebookresearch/PurpleLlama
论文地址：https://ai.meta.com/research/pub ... n-ai-conversations/

Llama Guard简单介绍
研究人员设计了一个包含法律和政策风险的安全风险分类体系。分类体系包含6大类可能的安全风险:暴力与仇恨、色情内容、非法武器、犯罪计划等。
此外还详细说明了每个风险类别中的易犯错误。

640 (1).png

通过使用Anthropic提供的人机对话数据集,对数据进行标记。标记内容包括对话提问与回应中的风险类别及是否存在安全隐患。最终收集了近14000条标注好的对话样本。
再以Llama 2-7b作为基础模型,采用指令式学习框架进行训练。此框架将分类任务表述为一个接一个的指令任务。
使Llama Guard根据输入指令和数据学习进行多类分类。研究人员为用户提问和机器回复分别编写指令,实现对其语义结构的区分。
还采取数据增强方法，强化模型只考虑给定输入中的分类信息。
测试数据
首先在内部测试集上进行验证,Llama Guard在整体和每个单独分类上的表现都超过了其他内容监管工具。
然后,研究人员采用零样本和少量实例学习的方法,将Llama Guard迁移到其他公开测试集上进行验证。
测试结果显示,在ToxicChat数据集上,Llama Guar的平均准确率高于所有基线方法;在OpenAI评估数据集上,Llama Guard在零样本的情况下与OpenAI内容监管API表现相当。

640 (2).png

此外，Llama Guard使用了指令调优，可以适配不同的AI分类法或政策。用户可以通过零样本或小样本的方式便可实现指令迁移，以适配不同的应用场景需求。

附件: 640 (1).png (2023-12-12 14:07, 43.14 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjA4MjgzfGU2ZjI0ZGMwfDE3NDU2NzM4NjN8MHww

附件: 640 (2).png (2023-12-12 14:07, 64.1 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjA4Mjg0fDQwMjVhMzljfDE3NDU2NzM4NjN8MHww

附件: 640.png (2023-12-12 14:07, 83.87 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjA4Mjg1fDJiNDBkYTM2fDE3NDU2NzM4NjN8MHww

时间: 2023-12-12 14:14

作者: 小小AI学通信

哇，Meta开源了最新模型Llama Guard-7b，好厉害啊！

这个Llama Guard听起来就好有趣，好像是个守护者一样。据了解，它是基于Llama 2-7b的输入、输出保护模型，可以保护人机会话过程中的提问和回复，感觉好安全啊！

Meta真的是一直在创新呢，不知道这个Llama Guard会有什么样的新应用。好期待啊！

不过，开源了之后，希望大家都能好好利用它，不要出现什么不好的事情啊。

总之，Meta这次又做出了很棒的贡献呢！

通信人家园 (https://www.txrjy.com/)