设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

发布时间: 来源: 量子位

大佬1小时演讲1分钟搞定d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型Gemini 1.5 Pro今天起,“全面”对外开放。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AI Studio中直接体验。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

(Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人,刚刚跳槽到谷歌。)d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最让人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无论是财报电话会、电视节目还是大神演讲,不需要我们再提供字幕文档它就可以直接解读了。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

如下图所示:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

上传Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就完成了解析。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放,因此它可以处理的最长音频约为11小时,最长视频则为1小时,相当够用。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们也赶紧实测了一把,结果是真香。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Gemini 1.5 Pro开放API了

谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它主要面向开发者,可在谷歌AI Studio中获得API密钥:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

目前最引人注目的音频理解功能还没添加到API中,但据说很快就会补上。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

问题不大,我们可以先在Google AI Studio中直接体验:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

在实测中,我们上传了比尔盖茨1995年做客Late Show节目的一段音频,时长1分钟。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

我们没有提示这段音频的任何背景信息,Gemini 1.5 Pro直接就听出来了是谁。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并在10s左右精准整理出了全对话的精华部分,一点“正确的废话”都没有:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

表现令人折服。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,来个更具挑战的,Andrej Karpathy1小时长的大模型科普教程。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

我们提取音频文件,足足10万多个token(这种在UI里直接显示当前消耗token数量的方法也广受好评)。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

Gemini 1.5 Pro最终在53s内按要求给出了10个亮点分析:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以说一分钟就让我们对1小时的演讲内容有了整体认知,再也不用费劲扒字幕文件了。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

继续回到API本身。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除了音频理解,为了让开发者更好地控制模型输出,Gemini 1.5 Pro还提供了另外3项新功能/改进:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先是系统指令d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们可以自定义一些特殊用例,包括它们的角色、输出格式/风格/语气、目标和规则等等。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

设置完成后,这个指令就会应用于接下来的整个请求。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

示例如下:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

其次,JSON模式d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是可以指示模型仅输出JSON对象了,非常方便我们从文本或图像中提取结构化数据。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第三,函数调用上也有改进d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了提高可靠性,Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后,还没完,从今天起,开发者还能通过该API调用谷歌的下一代文本嵌入模型:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

text-embedding-004(又名“Gecko”)。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该模型在MTEB基准上实现了非常强大的检索性能,优于可比维度的所有对手。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

两个月前诞生的谷歌最强大模型

Gemini 1.5 Pro于2月15日发布,距今还不到两个月。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它是Gemini Pro的升级版,多模态多语言,最大的亮点无疑是上下文窗口长度:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从128k到最多100万。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

100万个token相当于可处理70万个单词或约3万行代码,折合成音频就是约11小时,视频约1小时。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无疑是很大的一个量级了(现在则完全在API中开放)。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

当时官方的演示包括用它搜索阿波罗11号登月的电视转播信息,一共402页文字记录。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

模型的响应时间大约在20s到1分钟。稍微有点慢,但谷歌承诺会优化延迟时间。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而Gemini 1.5 Pro发布之后,网友也很快分享了一些还不错的内测结果,包括:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

鉴别Sora视频是否AI生成,给出关键证据;d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

在一场14分钟的NBA扣篮视频中,判断出哪个扣篮得分最高, 并给出其中扣篮细节;d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

还有分析比较《星际穿越》和《星际探索》两个完整的电影脚本,合起来接近10万token,结果三十几秒内就给出了完整详尽的报告。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

可以说,这次谷歌整体是没有让大伙失望的。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最高能的是,它还能看录像改BUGd45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有网友在编写一个网页的代码时故意留了3个bug,并分别录制了3个bug视频,外加代码库打包成文件一同丢给Gemini 1.5 Pro,结果全部分分钟给出正确代码。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

这位网友当时就表示:这“小伙子”前途不可限量啊。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在今天,随着Gemini 1.5 Pro API的“全面”开放,大伙可以更进一步地感受其厉害了。d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

咳咳,就是目前速率限制还有点高:d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

每分钟请求量为5次,每分钟token为1000万个,每日请求量为2000个~d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

友情链接:
https://aistudio.google.com/app/prompts/new_chatd45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
参考链接:
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.htmld45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://twitter.com/OfficialLoganK/status/1777733743303696554d45速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这导致部分家庭近来用电量增加。最近,一款名为 据一项在本周举行的美国心脏协会会议上提交的新研究,每天进食时间控制在8小时内的间歇性禁食方法可能与心脏病死亡风险上升相关。近年来越来越流行的间歇性禁食指限制进食时间,在每天或每周的 3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12月新增网民2480万人,互联网普及率达77.5%。截 3月23日消息,vivo X Fold3系列将于3月26日正式发布,成为全球首款骁龙8 Gen3折叠屏电话。现在这款新机外观已经解禁,下面为大家带来图赏。vivo X Fold3提供了薄翼黑和轻羽白两种配色,后壳手感顺滑,触感 在日常生活中,隧道可以帮助人们翻山越岭。在植物细胞内,当内部物质穿过细胞膜时,往往也会通过类似的“隧道”。记者从中国科学技术大学获悉,该校孙林峰团队在第六大植物激素——油菜素 今年3月23日是第64个世界气象日,主题是“气候行动最前线”。面对愈加频繁的极端天气和全球变暖等气候危机,减缓气候变化已刻不容缓。发展新能源是应对气候变化的重要举措之一,而气象服务对于新 。

本文链接:谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用http://www.sushuapos.com/show-2-4737-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: AI算力提高,高能耗和难散热问题如何突破?

下一篇: 离谱!AI超市「无人」收款,1000个印度人藏在背后……

热门资讯

  • 云南首批621座变电站实现人工智能巡检

    “远方巡视启动!”南方电网云南保山220千伏大寨变电站日前启动首次全套智能巡视,109个摄像头快速旋转,10套在线监测系统开始收集数据,变电站的无人机机

  • AI领域,重磅消息传来!

    AI领域,一则重磅消息传来!最新消息,全球最知名的AI公司——OpenAI将在几个月内发布新版大型语言模型GPT-5,性能将有大幅跃升。目前,ChatGPT使用

  • 海龟深潜时一分钟心跳只有两次

    据《日本经济新闻》3月19日报道,东京大学副教授坂本健太郎等人研究发现,海龟下潜时心率将急剧下降。海龟与鲸等哺乳类动物同样,心率随下潜深度加深而

  • 日学者提出“深海激励化学”新概念

    日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温

  • 睡不够很焦虑?专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,今年中国主题为“健康睡眠 人人共享”。人的一生约有三分之一的时间是在睡眠中度过,睡眠、运动、营养被视为保障机体正常发育和

  • 借AI“慧眼”鉴别可疑论文图片

    今年1月,英国分子生物学家肖尔托·戴维发表文章,指控美国哈佛大学医学院附属丹娜-法伯癌症研究所科学家通过修改图片伪造数据。随后该研究所正

  • 最小资源消耗的量子态分辨实现

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展:他们在最小资源消耗的量子态分辨问题中首次提出了全局最优

  • 来看金星土星“亲密一刻”

    3月22日黎明,太阳系中最明亮的行星金星与太阳系中拥有最多卫星的行星土星将在东南方低空近距离相伴,上演“结伴游”。北京星空摄影爱好者王俊峰2023

  • 新疆筹建国家级融合算力中心

    记者从近日举办的新疆筹建融合算力中心研讨会上获悉,新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底,建成超算算力(FP64)不

  • 达摩院AI加速农业新品种培育 全球23家科研机构“尝鲜”

    记者3月21日获悉,全球植物科学期刊《分子植物》刊载了中国科学家的最新研究,中国农业科学院作物科学研究所、国家南繁研究院与阿里达摩院(湖畔实验室)

  • 植物避盐性的关键基因被发现

    记者3月21日从安徽农业大学获悉,该校生命科学学院韩毅教授课题组与国内外专家合作,发现了植物避盐性的关键基因。该研究对于提高植物耐盐性,帮助盐碱

  • 2999元!xiaomiCivi 4 Pro供不应求:春野绿配色好多门店缺货

    3月22日消息,xiaomi集团的许斐在微博上表示,xiaomiCivi 4 Pro的预售业绩远超预期,尤其是春野绿配色,许多门店都出现了缺货情况。据了解,xiaomiCivi 4 Pro的

推荐资讯

  • 日榜
  • 周榜
  • 月榜