设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

发布时间: 来源: 量子位

大佬1小时演讲1分钟搞定0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型Gemini 1.5 Pro今天起,“全面”对外开放。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AI Studio中直接体验。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

(Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人,刚刚跳槽到谷歌。)0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最让人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无论是财报电话会、电视节目还是大神演讲,不需要我们再提供字幕文档它就可以直接解读了。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

如下图所示:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

上传Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就完成了解析。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放,因此它可以处理的最长音频约为11小时,最长视频则为1小时,相当够用。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们也赶紧实测了一把,结果是真香。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Gemini 1.5 Pro开放API了

谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它主要面向开发者,可在谷歌AI Studio中获得API密钥:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

目前最引人注目的音频理解功能还没添加到API中,但据说很快就会补上。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

问题不大,我们可以先在Google AI Studio中直接体验:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

在实测中,我们上传了比尔盖茨1995年做客Late Show节目的一段音频,时长1分钟。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

我们没有提示这段音频的任何背景信息,Gemini 1.5 Pro直接就听出来了是谁。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并在10s左右精准整理出了全对话的精华部分,一点“正确的废话”都没有:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

表现令人折服。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,来个更具挑战的,Andrej Karpathy1小时长的大模型科普教程。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

我们提取音频文件,足足10万多个token(这种在UI里直接显示当前消耗token数量的方法也广受好评)。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

Gemini 1.5 Pro最终在53s内按要求给出了10个亮点分析:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以说一分钟就让我们对1小时的演讲内容有了整体认知,再也不用费劲扒字幕文件了。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

继续回到API本身。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除了音频理解,为了让开发者更好地控制模型输出,Gemini 1.5 Pro还提供了另外3项新功能/改进:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先是系统指令0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们可以自定义一些特殊用例,包括它们的角色、输出格式/风格/语气、目标和规则等等。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

设置完成后,这个指令就会应用于接下来的整个请求。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

示例如下:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

其次,JSON模式0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是可以指示模型仅输出JSON对象了,非常方便我们从文本或图像中提取结构化数据。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第三,函数调用上也有改进0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了提高可靠性,Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后,还没完,从今天起,开发者还能通过该API调用谷歌的下一代文本嵌入模型:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

text-embedding-004(又名“Gecko”)。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该模型在MTEB基准上实现了非常强大的检索性能,优于可比维度的所有对手。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

两个月前诞生的谷歌最强大模型

Gemini 1.5 Pro于2月15日发布,距今还不到两个月。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它是Gemini Pro的升级版,多模态多语言,最大的亮点无疑是上下文窗口长度:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从128k到最多100万。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

100万个token相当于可处理70万个单词或约3万行代码,折合成音频就是约11小时,视频约1小时。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无疑是很大的一个量级了(现在则完全在API中开放)。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

当时官方的演示包括用它搜索阿波罗11号登月的电视转播信息,一共402页文字记录。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

模型的响应时间大约在20s到1分钟。稍微有点慢,但谷歌承诺会优化延迟时间。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而Gemini 1.5 Pro发布之后,网友也很快分享了一些还不错的内测结果,包括:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

鉴别Sora视频是否AI生成,给出关键证据;0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

在一场14分钟的NBA扣篮视频中,判断出哪个扣篮得分最高, 并给出其中扣篮细节;0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

还有分析比较《星际穿越》和《星际探索》两个完整的电影脚本,合起来接近10万token,结果三十几秒内就给出了完整详尽的报告。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

可以说,这次谷歌整体是没有让大伙失望的。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最高能的是,它还能看录像改BUG0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有网友在编写一个网页的代码时故意留了3个bug,并分别录制了3个bug视频,外加代码库打包成文件一同丢给Gemini 1.5 Pro,结果全部分分钟给出正确代码。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

这位网友当时就表示:这“小伙子”前途不可限量啊。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在今天,随着Gemini 1.5 Pro API的“全面”开放,大伙可以更进一步地感受其厉害了。0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

咳咳,就是目前速率限制还有点高:0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

每分钟请求量为5次,每分钟token为1000万个,每日请求量为2000个~0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

友情链接:
https://aistudio.google.com/app/prompts/new_chat0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
参考链接:
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html0de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://twitter.com/OfficialLoganK/status/17777337433036965540de速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI  《科创板日报》3月18日讯(编辑 宋子乔) 似乎是为了表明自己始终坚持对AI模型开源,马斯克做出了与阿尔特曼全然不同的选择。3月17日,马斯克宣布开源Grok-1,这 记者从国家航天局获悉,3月20日8时31分,探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。科技日报记者 付毅飞 摄火箭飞行24分钟后,星箭分离,将鹊 我国制氢加氢一体站建设有了团体标准。记者从中国石化获悉,为推动我国氢能交通产业发展,中国石化联合国内数十家氢能头部企业发布了国内首个《制氢加氢一体站技术指南》团体标准。该标准的制定 记者3月21日从安徽师范大学获悉,该校生命科学学院张方教授课题组通过野外自然抱对、控制实验下抱对以及视频回放等实验手段,证实他们前期提出的,眨眼行为可能在雌性凹耳蛙性选择中起着重要作用   30台发动机助进阶版“鹊桥”升空  中新社西安3月20日电 (记者 张一辰)3月20日8时31分,长征八号遥三运载火箭在中国文昌航天发射场顺利升空,成功将“鹊桥二号”卫星送入预定轨道。作为公共中继星平台,“鹊桥二号” 3月22日记者获悉,中国移动北京公司(北京移动)已于近日在北京亦庄高级别自动驾驶示范区永昌路段完成5G-A网络精品覆盖。这也是北京首条同时部署了5G-A网络和车网算力协同技术的车联网试验道路,为 。

本文链接:谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用http://www.sushuapos.com/show-2-4737-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: AI算力提高,高能耗和难散热问题如何突破?

下一篇: 离谱!AI超市「无人」收款,1000个印度人藏在背后……

热门资讯

推荐资讯

  • 1―2全国规模以上工业企业利润增长15.2%

      中新经纬3月27日电 据国家统计局网站27日披露,1―2月份,全国规模以上工业企业实现利润总额10245.6亿元,同比增长15.2%(按可比口径计算)。  1―2月份,规模以上工业企业中,国

  • 三大运营商豪气分红!中国移动全年拟派息超千亿

      中新经纬3月26日电 三大运营商2025年成绩单出炉。  中国移动26日在港交所披露《2025年年度业绩》称,2025年公司营运收入稳健增长,达到10502亿元,同比增长0.9%;股东应占利

  • 外媒:Meta与谷歌因社交媒体成瘾被判赔偿600万美元

      中新经纬3月26日电 据路透社25日报道,洛杉矶一陪审团周三裁定,Meta和Alphabet旗下的谷歌因旗下社交媒体存在对青少年有害的设计,被判赔偿600万美元。这一判决有望成为众多

  • 瑞银:2027年初黄金目标价5900美元

      中新经纬3月26日电 (罗琨)26日,中新经纬获悉,瑞银财富管理投资总监办公室(CIO)发表机构观点称,黄金仍将发挥对冲作用,预期黄金2027年初目标价将在每盎司5900美元。  本周

  • 外媒:欧洲天然气库存快空了

      中新经纬3月25日电 据彭博社报道,欧洲即将进入天然气储备季,但储罐已快耗尽,这意味着它将需要与亚洲买家竞争以确保供应。  报道称,根据欧洲天然气基础设施公司的数据,目前

  • 德邦股份3月31日终止上市

      中新经纬3月25日电 德邦股份25日晚间公告,上海证券交易所于2026年3月24日作出公司股票终止上市的决定,公司股票将于2026年3月31日终止上市暨摘牌。  德邦股份称,根据《上

  • 沪指收复3900点!券商:A股仍处牛市,大盘蓝筹有较好安全边际|宅男财经

      【宅男财经|首席面对面】25日,沪指高开后持续拉升,盘中重回3900点,超5000股上涨,玻璃纤维、CPO、高速铜连接等算力硬件题材活跃。  昨日,A股在地缘政治风险缓和预期的背

  • 官方:深入整治“内卷式”竞争,推进涉企收费全链条治理

      中新经纬3月24日电 据国家市场监管总局微信号24日消息,3月24日,全国市场监管系统价格监督检查和反不正当竞争工作座谈会在北京召开。会议总结2025年价监竞争工作,部署2026

  • 泸州银行管理团队变阵,行长、副行长同日辞任

      中新经纬3月24日电 (魏薇)泸州银行23日公告称,董事会接到行长刘仕荣的书面辞呈。刘仕荣因临近退休年龄,辞去行长之职务,自书面辞呈送达董事会时生效。同日,泸州银行副行长薛

  • 事关业绩补偿,迅游科技执行申请被驳回

      中新经纬3月24日电 23日,四川迅游网络科技股份有限公司(下称“迅游科技”)披露关于重大仲裁的进展公告,公司提出的执行申请被驳回。  公告提到,迅游科技2017年以发行股份

  • 国家数据局局长:将加快建立全国统一数据产权登记制度

      中新经纬3月24日电 国新办24日举行新闻发布会,介绍第九届数字中国建设峰会有关情况。国家发展改革委党组成员、国家数据局局长刘烈宏在发布会上表示,将加快建立全国统一的

  • 纳睿雷达终止收购,股价高开低走

      中新经纬3月24日电 24日,纳睿雷达股价高开超4%,此后迅速翻绿,截至发稿跌超2%。  3月23日,纳睿雷达发布公告称,鉴于市场环境变化等因素,董事会审议通过了终止发行股份及支付

  • 日榜
  • 周榜
  • 月榜