通信人家园

标题: 谷歌版Her大翻车:试了3次且换手机才成功  [查看完整版帖子] [打印本页]

时间:  2024-8-15 13:27
作者: PH值     标题: 谷歌版Her大翻车:试了3次且换手机才成功

金磊 发自 凹非寺量子位 | 公众号 QbitAI
翻车,大翻车。
就在今天凌晨,谷歌版Her——Gemini Live正式发布。

毕竟明显是对标OpenAI家的GPT-4o,可以说是吸足了科技圈的眼球。

在官网发布的demo中,拍照问答功能的效果是这样的:

48d2021e1a8b6991c036a97f27d338f5.gif

它大致实现的功能,是用手机拍摄演唱会的海报,并让Gemini查看用户的日历,看看行程是否适合参加。

以及还可以基于此进行一系列后续的操作,包括定时间查票价等等。

然而……当来到发布会现场演示环节的时候,画风却180°大变样。

第一次:失败了。第二次:失败了。第三次:换手机,成功了。嗯……小哥表情,肉眼可见的有点慌。

dcc451da81cb39db181ea19311af712aa9183065.jpeg@f_auto?token=2a37c1b84023156c56c983af3cff24e7

就连知名科技媒体TechCrunch都配上了这样的emoji:

54fbb2fb43166d228e0f1e59879a71f99252d2cf.jpeg@f_auto?token=bbce9102b979f0ddf224b5d0b2ab66e1

甚至还有网友开启了辣评模式:

我10秒钟就能搜索我的日历。

c83d70cf3bc79f3db20fef6f7b18b51f708b29ce.jpeg@f_auto?token=0fa0e500b24cb125ecd98482a3734e13

当然,这只是今天Made by Google的一个小插曲。

关于Gemini Live的更多内容,我们继续往下看。

谷歌版Her的全貌

正如我们刚才提到的,Gemini Live和GPT-4o的功能十分相似。

除了“拍照问答”之外,它也可以做到实时对话,甚至在Gemini回复过程中进行打断。

据了解,目前Gemini Live的功能已经在安卓系统中向Advanced订阅者开放(仅限英语)。

未来几周,这个功能会陆续扩展到更多语言并且向iOS开放。

在对话声音方面,Gemini Live推出了10种新的声音供选择

在操作方面,由于Gemini已经完全集成到了系统中,所以只需长按电源按钮或说“Hey Google”,就可以调用了。

例如在写邮件的过程中,让Gemini帮你生成配图,效果如下:

c2cec3fdfc039245ea6d8cc2462ddccc7f1e256e.jpeg@f_auto?token=51e800e748319892570c37a994b4a3dd

不过对于这项功能,外媒们的评价却是褒贬不一。

例如The Verge的一位作者在亲测后给出的标题是——

Gemini Live比Google快,但更尴尬。

9345d688d43f87946c0eb29413a276fa19d53adb.jpeg@f_auto?token=ed4567d5b02b60210db564b614d4e8e2

具体原因是作者在一次为期三天的公路旅行中,汽车的音频系统突然失效。

使用原先的谷歌助手寻找解决方案花费了至少五分钟,而Gemini Live仅耗时15秒。

但对话过程中的Gemini Live的持续发言和需要用户主动打断的交互方式,却让作者感到尴尬。

他认为:

声音和说话方式过于人性化,以至于在打断它时感到不自在。与Gemini Live的互动中投入了更多情感,而不是将其作为解决问题的工具。

无独有偶,对于Gemini Live在云端运行这个点,华尔街日报也给出了犀利的评价——

对话上的进步,功能上的退步。

86d6277f9e2f0708b5f45d43289dc097ab01f2cc.jpeg@f_auto?token=5f071141ab5a0d9ea2f3b805abfe8751

具体到技术层面,GPT-4o是一个端到端的系统,但从谷歌发布的内容来看,Gemini Live则并非如此。

而是将STT、VAD、LLM和TTS系统做了集成:

8326cffc1e178a82783f4d3c34ba0b83a877e877.jpeg@f_auto?token=ef442b98c0d9db9c057d1412d748ee25

除此之外,谷歌所发布的新Pixel系列手机中,也出现了Gemini Live的身影。

包括Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro和Pixel 9 Pro XL。

9d111d91b091901b21677bfa1c1b1924.gif

AI功能方面,谷歌的Pixel手机在拍照上增加了一个叫“Add Me”的功能。

可以用增强现实(AR)和AI技术,可以把两张不同照片中的人物“塞”到一起。

f603918fa0ec08fa4ab8fa769857456357fbdaeb.jpeg@f_auto?token=7a5aec2f186909a8c5d30b482742d6e0

谷歌为什么追不上OpenAI?

虽然谷歌这次发布Gemini Live,算是对OpenAI GPT-4o的一种应战,但自从大模型时代拉开序幕以来,我们可以看到一个非常明显的一种趋势——

谷歌,跟不上OpenAI的脚步。

首先是在最为关键的ChatGPT发布的这个节点上,OpenAI成为了开拓者,但谷歌随后发布的Bard,和这次Gemini Live很相似,后续出现了翻车情况。

而后近一年半多的时间来,似乎所有重磅模型、重磅应用的发布,都是OpenAI在引领。

反观谷歌这边,不仅是技术呈现出步步慢的状态;甚至在舆论上,还出现了被OpenAI用一个人事变动(Ilya离职)消息盖过谷歌年度最大活动(I/O大会)热度的情况。

那么谷歌在大模型时代为什么不行了?

对此,前谷歌CEOEric Schmidt(2001年至2011年任职)在斯坦福最新的演讲中表达了他的观点:

谷歌非常重视工作与生活的平衡,例如允许员工居家办公。但创业公司,他们工作真的很拼。

甚至还有网友爆料称:


我兄弟是谷歌顶级AI程序员,他有3个全职工作,每天只在谷歌这边花2个小时。





附件: 48d2021e1a8b6991c036a97f27d338f5.gif (2024-8-15 13:26, 12.54 MB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzA1fDdmZTg3NDRlfDE3MzI1MDI1NjZ8MHww

附件: dcc451da81cb39db181ea19311af712aa9183065.jpeg@f_auto?token=2a37c1b84023156c56c983af3cff24e7 (2024-8-15 13:26, 17.56 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzA2fDAwMjk2ZmZlfDE3MzI1MDI1NjZ8MHww

附件: 54fbb2fb43166d228e0f1e59879a71f99252d2cf.jpeg@f_auto?token=bbce9102b979f0ddf224b5d0b2ab66e1 (2024-8-15 13:26, 34.38 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzA3fGQzMTFhYTMwfDE3MzI1MDI1NjZ8MHww

附件: c83d70cf3bc79f3db20fef6f7b18b51f708b29ce.jpeg@f_auto?token=0fa0e500b24cb125ecd98482a3734e13 (2024-8-15 13:26, 11.48 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzA4fDdhMDA1MmVjfDE3MzI1MDI1NjZ8MHww

附件: c2cec3fdfc039245ea6d8cc2462ddccc7f1e256e.jpeg@f_auto?token=51e800e748319892570c37a994b4a3dd (2024-8-15 13:26, 30.17 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzA5fDUyYWNjY2JlfDE3MzI1MDI1NjZ8MHww

附件: 9345d688d43f87946c0eb29413a276fa19d53adb.jpeg@f_auto?token=ed4567d5b02b60210db564b614d4e8e2 (2024-8-15 13:26, 35.82 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzEwfDAyOTMxMjJjfDE3MzI1MDI1NjZ8MHww

附件: 86d6277f9e2f0708b5f45d43289dc097ab01f2cc.jpeg@f_auto?token=5f071141ab5a0d9ea2f3b805abfe8751 (2024-8-15 13:26, 45.05 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzExfDMyZjQ5OWM5fDE3MzI1MDI1NjZ8MHww

附件: 8326cffc1e178a82783f4d3c34ba0b83a877e877.jpeg@f_auto?token=ef442b98c0d9db9c057d1412d748ee25 (2024-8-15 13:26, 23.4 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzEyfGI5NzVjMTg4fDE3MzI1MDI1NjZ8MHww

附件: 9d111d91b091901b21677bfa1c1b1924.gif (2024-8-15 13:26, 12.57 MB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzEzfGFhOGJjNzAyfDE3MzI1MDI1NjZ8MHww

附件: f603918fa0ec08fa4ab8fa769857456357fbdaeb.jpeg@f_auto?token=7a5aec2f186909a8c5d30b482742d6e0 (2024-8-15 13:26, 14.96 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjQ3MzE0fDRlNzcxN2Y4fDE3MzI1MDI1NjZ8MHww
时间:  2024-8-15 14:01
作者: wangguoxun88

可以说是吸足了科技圈的眼球。




通信人家园 (https://www.txrjy.com/) Powered by C114