通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少将

注册:2015-1-2880
跳转到指定楼层
1#
发表于 2024-2-20 11:20:40 |只看该作者 |倒序浏览
谷歌发布Gemini 1.5那天遭遇了滑铁卢,被OpenAI的Sora砸了场子。但Gemini 1.5成为首个支持100万tokens上下文的基础大模型。

这意味着,Gemini 1.5可以一次性处理1小时的视频、11小时的音频或100,000行代码,并衍生出更多的数据分析玩法。

下面「AIGC开放社区」将为大家展示Gemini 1.5,那些超强的数据分析功能。

技术报告地址:https://goo.gle/GeminiV1-5

1.png

超复杂文本分析

Gemini 1.5能对给定提示中的大量内容进行无缝分析、分类和总结。例如,给出阿波罗11 号登月任务的402页记录,它就能对整个文件中的对话、事件和细节进行推理,并找出那些奇特的细节

也能查找、理解并解释PDF中的特定内容。例如,从 DeepMind 的 Gemini 1.5 Pro 论文中提取“表 8”并解释该表的含义。

跨模式理解和推理

Gemini 1.5可以以针对不同的模式(包括视频)执行超复杂的理解和推理任务。

例如,当给出一部 44 分钟的巴斯特-基顿(Buster Keaton)无声电影时,该模型能准确分析各种情节点和事件,甚至能推理出电影中容易被忽略的小细节。

也能分辨视频是否由AI生成,例如,将Sora生成的猫咪视频上传至Gemini 1.5,进行辨别和解读。

解读复杂代码

Gemini 1.5可以一次性解读大约100,000行代码,对其进行修改、注释、优化等。例如,用文字询问,动画Little Tokyo的demo是由什么控制?

Gemini 1.5不仅找到了这个demo,解释了动画嵌入在gLTF模型中,还能根据提示继续撰写功能代码。

Gemini 1.5模型简单介绍

谷歌表示,Gemini 1.5是基于Transformer和MoE架构开发而成。虽然传统的Transformer作为一个大型神经网络运行,但MoE模型则被划分为较小的“专家”神经网络。

根据给定的输入内容类型,MoE模型可以有选择性地仅激活其神经网络中最相关的专家路径,极大地增强了模型的效率。

2.png

与上代1.0相比,Gemini 1.5在数学、科学、推理、多语言、视频理解上实现大幅度提升,并达到Ultra1.0的强度。

测试数据显示,在文本、代码、图像、音频和视频评估的综合测试时,Gemini 1.5 在87% 用于开发大语言模型的基准上都优于1.0 Pro。与Ultra 1.0在相同基准上的表现相比,Gemini 1.5的表现大致相同。

3.png

即使Gemini 1.5的上下文量增加,仍然保持高水平的性能。在“大海捞针”(NIAH)评估中,一个包含特定事实或声明的小片段文本故意放置在一长段文本中,Gemini 1.5在长达100万标记的数据块中,99%的时间内找到了嵌入的文本。


举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-24 14:36 , Processed in 0.134680 second(s), 19 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部