通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少将

注册:2011-10-18363
跳转到指定楼层
1#
发表于 2024-1-31 09:21:27 |只看该作者 |正序浏览

近日,上海人工智能实验室(上海AI实验室)联合清华大学、香港中文大学、商汤科技等机构开源新一代书生·视觉大模型(InternVL)。


据介绍,新一代“书生·视觉基础”模型的视觉编码器参数量达60亿(InternVL-6B),首次提出了对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。InternVL-6B不仅能处理复杂图片中细微的视觉信息并完成图生文任务,还可以识别和解读复杂页面中的信息,甚至解决其中的数理问题。


上海AI实验室在视觉大模型上持续发力。2021年,上海AI实验室就发布了书生1.0,是国内首个广泛覆盖多种视觉任务的大模型,一个基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务;2022 年,更新发布视觉大模型InternImage,构建了以动态稀疏卷积为核心操作的视觉大模型新架构,构建了非Transformer的大模型架构新途径,在12类视觉任务中实现性能领先。


举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-22 02:17 , Processed in 0.111408 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部