2025-05-05 15:08来源:量子位
近年来,随着视频数据的爆炸式增长,超长视频理解成为了研究热点。来自上海交通大学、北京智源研究院和特伦托大学的联合研究团队推出了一种名为Video-XL-Pro的模型,实现了超长视频理解的SOTA性能刷新。 Video-XL-Pro模型采用了一种名为“重构式token压缩”的技术,通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。该模型在多个基准评测上超越了之前发布的meta模型Apollo-7B以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等,并且项目代码、模型和训练数据均已开源。 Video-XL-Pro的核心在于其提出的重构性token压缩技术(ReCoT),该技术通过时空注意力块对token进行压缩,有效捕捉视频中的动态运动,同时通过自适应掩码策略减少冗余视觉token,优化重构学习过程。这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。 为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。同时,为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。 在多个主流的视频理解评测基准上,Video-XL-Pro展现了卓越性能。在MLVU、VideoMME、LongVideoBench、TempCompass和VNbench等评测基准中,Video-XL-Pro均取得了第一名的好成绩。特别是在最新的长视频时间基准测试V-STaR中,Video-XL-Pro的mIoU得分达到了25.07%,在IoU>0.7时仍能达到15.58%的准确率,远超过了同领域的知名开源模型,包括InternVL2.5-8B和Qwen2.5-VL-7B等。这表明Video-XL-Pro在长视频时间理解方面具有卓越的能力。 总的来说,Video-XL-Pro模型利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。该模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为长视频理解助手。目前,模型、代码、训练数据均已开源,以促进长视频理解社区的合作和发展。
近日有外媒报道称,Meta公司旗下旗舰AI模型"Behemoth"的研发遇到瓶颈。由于工程师团队在提升模型性能方面进展缓慢,原定于6月发布的计划被迫推迟至秋季,甚至可能更晚。这一延期引发了公司内部对AI研发投入产出比的担忧。Meta在今年4...
TechWeb.com.cn | 2025-05-18 20:07
据华尔街日报5月15日报道,Meta公司推迟了其旗舰AI模型"Behemoth"的发布计划。这一延期引发了公司内部对数十亿美元AI投资方向的担忧。知情人士透露,"Behemoth"大语言模型在开发过程中遇到了技术瓶颈。工程师团队难以显著提升...
IT之家 | 2025-05-18 20:07
2025年的AI行业正在经历一场深刻变革,竞争焦点已经从单纯的技术研发转向实际应用落地。过去企业比拼的是大模型参数规模和算力投入,如今更看重如何将AI技术转化为用户真正需要的产品和服务。这场变革标志着行业从"实验室时代"进入"工程平台时代"...
零态LT | 2025-05-18 20:07
巴西足协于5月12日正式宣布,现任皇家马德里主教练安切洛蒂将出任巴西国家队新任主帅。尽管安切洛蒂与皇马的合同要到2026年才到期,但巴西足协已迫不及待地公布了这一消息。安切洛蒂是欧洲足坛的传奇教练,曾在意甲、英超、法甲、西甲和德甲五大联赛均...
环球网资讯 | 2025-05-18 20:07
美国石油行业正面临严峻挑战。彭博社报道指出,受政府关税政策和油价下跌的双重影响,该行业特别是中小型生产商正陷入困境。由于石油设备主要依赖进口,关税导致管材价格预计将在第四季度同比上涨40%,行业人士对此表示强烈不满。相比大型石油公司,独立生...
央视新闻客户端 | 2025-05-18 20:07
美国俄勒冈州立大学的研究团队在IEEE定制集成电路会议上发布了一项重要成果。他们成功开发出一种新型AI芯片,能够将大语言模型的能耗降低50%。这一突破性进展为解决当前大语言模型高能耗问题提供了新的技术路径。目前,以GPT-4为代表的大语言模...
科技日报 | 2025-05-18 20:07
近期教育行业年报显示,人工智能已成为企业战略布局的核心方向。2024年教育大模型产品集中亮相,包括豆神教育的"豆神AI"、科大讯飞的智慧教育产品体系、希沃教学大模型等,这些产品在批改、辅导、测评等场景实现深度应用。值得注意的是,教育公司的A...
21世纪经济报道 21财经APP | 2025-05-18 20:07
近年来,中国科技企业在海湾地区的基础设施建设中扮演着越来越重要的角色。随着"数字丝绸之路"的推进,华为、阿里巴巴、腾讯等中国企业正通过5G网络、云计算、人工智能等技术,深度参与该地区的智慧城市建设。这些合作不仅涉及硬件设备供应,还包括数据主...
| 2025-05-18 20:07
美国俄勒冈州立大学的科研团队近日取得了一项重要突破,成功开发出一种能够大幅降低大语言模型能耗的新型AI芯片。该成果已在波士顿举办的IEEE定制集成电路会议上正式发布,为解决当前大语言模型高能耗问题提供了创新方案。研究团队发现,现有大语言模型...
| 2025-05-18 20:07
OpenAI近日宣布推出新一代GPT-4.1模型,为用户带来全新体验。此次更新采用分级推送方式,付费订阅用户可优先使用完整版GPT-4.1,而所有用户都能体验轻量级GPT-4.1 mini版本。旧版GPT-4.0 mini将正式退出市场。从...
快科技 | 2025-05-18 20:07
在2025年5月7日举办的"理想AI Talk第二季"活动中,理想汽车董事长兼CEO李想详细介绍了公司最新研发的VLA司机大模型技术。这项技术旨在将人工智能从辅助工具升级为真正的生产工具,让AI能够像人类司机一样独立完成驾驶任务。李想将AI...
车质网 | 2025-05-18 20:07
巴西足协于5月12日正式宣布,现任皇家马德里主教练安切洛蒂将成为巴西国家队新任主帅。虽然安切洛蒂与皇马的合同要到2026年才到期,但巴西足协已经迫不及待地公布了这一消息。安切洛蒂是欧洲足坛最成功的教练之一,曾在意甲、英超、法甲、西甲和德甲五...
羊城晚报 | 2025-05-18 20:07