通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  上校

注册:2015-1-2852
跳转到指定楼层
1#
发表于 2023-12-19 13:30:07 |只看该作者 |倒序浏览
12月15日,来自谷歌、加州大学圣地亚哥分校的团队发布论文,介绍了PixelLLM(像素对齐语言模型),该模型可以提供对图像上具体某个位置的详细描述,并精确指出其位置。该项目的目标是开发一种视觉语言模型,可以将位置(例如一组点或框)作为输入或输出。将位置作为输入时,模型会执行位置条件字幕,为指定对象或区域生成字幕;当生成位置作为输出时,模型会对语言模型生成的每个输出词进行像素坐标回归,从而执行密集词接地。该模型在本地化叙事数据集上进行了预训练,该数据集包含来自人类注意力的像素字对齐字幕。研究表明,PixelLLM可以应用于各种位置感知视觉语言任务,包括指代定位、位置条件字幕和密集物体字幕,并在RefCOCO和Visual Genome上取得了最先进的性能。
项目地址:
https://jerryxu.net/PixelLLM/
论文地址:
https://arxiv.org/abs/2312.09237



举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-5-20 17:45 , Processed in 0.112490 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部