冰球突破九五至尊他们发现机器在预测下一个图片块时-冰球突破九五至尊(官方)下载网站IOS/安卓版/手机版APP下载

冰球突破九五至尊(官方)下载网站IOS/安卓版/手机版APP下载

你的位置：冰球突破九五至尊(官方)下载网站IOS/安卓版/手机版APP下载 > 资讯 >

发布日期：2025-12-24 08:59 点击次数：160

冰球突破九五至尊

这项由密歇根大学的徐念念翰、马子乔，纽约大学的谢赛宁、于星，以及普林斯顿大学的柴文浩、弗吉尼亚大学的陈绪威、金伟阳等商量者合营完成的商量，发表于2025年12月的arXiv预印本平台（论文编号：arXiv:2512.16922v1）。有兴味深入了解技艺细节的读者不错通过这个编号查询竣工论文。

往日几年里，东说念主工智能在领会图片方面获得了惊东说念主跨越，但这种跨越时时依赖复杂的历练方法。商量团队陡然领会到一个问题：为什么不成像东说念主类学谈话那样，让机器通过简便的"预测下一个"游戏来学会看懂图片呢？这个看似简便的办法，却带来了一场视觉东说念主工智能领域的翻新。

当咱们看一张图霎时，大脑会天然地从一个区域移动到另一个区域，预测接下来会看到什么内容。商量团队受到这种融会历程的启发，设立了一种名为NEPA（Next-Embedding Predictive Autoregression，下一镶嵌预测自转头）的技艺。这个技艺的中枢念念想就像教孩子认字一样简便：给机器看图片的一部分，让它估量下一部分会是什么神志。

统共这个词历程不错比作拼图游戏。当你拿到一盒拼图时，时时会先找边际部分，然后把柄依然拼好的部分来预测下一块应该放在那里。NEPA技艺亦然这么责任的：它把一张竣工的图片切割成好多小块，就像把拼图分红些许片断，然后让机器按规定不雅察这些片断，每看到一派就预测下一派应该是什么神志。

这种方法的好意思妙之处在于，机器不需要从头构建整张图片的每个像素点，而是在一种叫作念"镶嵌空间"的轮廓层面进行预测。不错把镶嵌空间遐想成一个翻译器，它把复杂的图像信息迁徙成机器更容易领会的数字表示。就像咱们在心里形色一张图霎时，会用"蓝色的天外"、"绿色的草地"这么的意见，而不是记着每个像素的真的颜料值。

更令东说念主印象深远的是，NEPA技艺只需要在ImageNet-1K这个包含一百多万张图片的数据集上进行历练，就能达到令东说念主得志的成果。这就像一个学生只需要看过一百多万张图片，就能掌捏识别多样物体的能力。比较之下，以往的技艺时时需要更复杂的历练历程，包括对比不同图片的相似性，或者试图重建图片的每个细节。

商量团队在实验中发现，使用NEPA技艺历练的机器在ImageNet-1K图片分类任务上达到了83.8%的准确率（使用ViT-B模子）和85.3%的准确率（使用ViT-L模子）。这个得益与当今开始进的方法终点，但历练历程却简便得多。

为了考据这种技艺的通用性，商量团队还在语义分割任务上测试了NEPA技艺。语义分割就像给图片中的每个像素贴标签，比如这个像素属于"天外"，阿谁像素属于"汽车"。在ADE20K这个复杂的场景分解数据集上，NEPA技艺雷同进展出色，基础模子达到了48.3%的平均交并比，大型模子达到了54.0%。

NEPA技艺的架构遐想也体现出检朴之好意思。它采选表率的Vision Transformer手脚主干收罗，这是当今最顺利的图像惩办架构之一。但与其他方法不同的是，NEPA不需要罕见的解码器或复杂的预测头，统共这个词系统就像一个精简的预测引擎。

在历练历程中，商量团队采选了一种叫作念"罢手梯度"的手段。这就像在学习历程中给谜底加上一层保护膜，防患机器偷懒地径直复制谜底，而是真的学会预测的能力。同期，他们使用因果掩码确保机器在预测下一个图片块时，只可看到之前的内容，不成偷看后头的部分，这么才能真的学会预测能力。

商量团队还在架构中融入了几个当代化的阅兵手段。他们使用了旋转位置编码（RoPE）来匡助机器更好地领会图片中各个部分的空间关系，就像给拼图的每一块标注上它在整幅画中的相对位置。层级缩放（LayerScale）技艺则像退换学习的设施，确保历练历程沉稳进行。SwiGLU激活函数和查询键表率化（QK-Norm）则进一步提高了模子的性能和沉稳性。

当机器经过NEPA技艺历练后，商量团队发现了一个意旨的状态：机器学会了像东说念主类一样关爱图片中的蹙迫区域。通过分析注重力求，他们发现机器在预测下一个图片块时，会自动将注重力蚁集在语义研究的区域上。比如，当看到动物的头部时，机器会自动关爱体格的其他部分；当看到建筑物的一角时，会关爱建筑的举座结构。

这种活动全王人是机器自愿学习到的，莫得东说念主为遐想。这标明NEPA技艺不仅简略识别图片，还能领会图片中对象之间的关系和举座结构。更意旨的是，当商量团队分析机器预测的镶嵌向量时，发现这些向量在相似物体之间进展出高度相似性，在不研究物体之间则各别彰着，这阐发机器真的学会了轮廓的视觉意见。

从盘算遵循角度来看，NEPA技艺也进展出彰着上风。传统的对比学习方法需要在每个历练才调中惩办普遍的正负样本对，而掩码重建方法需要复杂的解码器来重建图片细节。比较之下，NEPA技艺只需要一次前向传播，不需要罕见的解码器或复杂的采样计谋，这使得统共这个词历练历程愈加高效。

商量团队还发现，NEPA技艺在不同范围的模子上王人进展出高超的膨胀性。跟着模子参数目的加多和历练时刻的延伸，性能不息提高，莫得出现过拟合状态。这种高超的膨胀特色意味着，跟着盘算资源的加多，NEPA技艺有望达到更高的性能水平。

在履走运用中，经过NEPA预历练的模子不错很容易地适配到多样下流任务。关于图像分类任务，只需要在模子输出层添加一个简便的线性分类器。关于语义分割任务，不错连气儿表率的UperNet解码器。这种天真性使得NEPA技艺简略粗俗运用于多样盘算机视觉任务。

值得注重的是，商量团队在微调阶段发现了一个意旨的状态：天然NEPA是用因果注重力历练的（即只可看到前边的内容），但在微调时使用双向注重力（不错看到一说念内容）简略进一步提高性能。这阐发自转头预历练学到的表示具有很好的泛化能力，简略顺应不同的注重力格式。

现时的商量还揭示了NEPA技艺的一些局限性。在线性探伤实验中，NEPA的进展不如一些专门遐想的表示学习方法。这是因为NEPA的输出表示相配接近原始的镶嵌层特征，主要的表示能力存储在预测器部分。这种遐想选拔是特意为之的，因为它使得统共这个词系统愈加松懈斡旋。

商量团队还分析了一些失败案例，发现NEPA技艺在惩办包含复杂反射、暗影和庇荫的场景时仍有阅兵空间。在多物体访佛的复杂场景中，模子未必会产生不一致的预测。这些问题反应了现时历练数据集的局限性，也为明天的阅兵指明了标的。

从更宏不雅的角度来看，NEPA技艺代表了盘算机视觉领域的一个蹙迫回荡。传统的方法时时专注于学习静态的视觉表示，而NEPA技艺将要点转向学习预测模子自己。这种范式回荡与天然谈话惩办领域的发展轨迹相呼应，谈话模子的顺利恰是基于这种生成式预历练的念念想。

这种斡旋的预历练范式还示意着更深广的可能性。商量团队指出，当代大型谈话模子越来越多地采选绑定镶嵌的遐想，即输入和输出镶嵌矩阵分享参数。这种遐想履行上等于在镶嵌空间中进行下一个token预测，与NEPA的中枢念念想全王人一致。这意味着，不同模态的数据可能不错在斡旋的框架下进行历练，为多模态东说念主工智能的发伸开导了新的说念路。

研讨明天，NEPA技艺还具有向生成式建模膨胀的后劲。通过与符合的图像解码器或扩散模子采集，吞并个自转头镶嵌预测器不错用于图像生成或剪辑任务。这种斡旋的架构简略在表示学习和生成建模之间架起桥梁，为构建愈加通用的视觉智能系统提供可能。

归根结底，NEPA技艺的顺利阐发了一个蹙迫不雅点：未必候，最简便的办法时时最有用。通过转头到最基本的预测旨趣，商量团队创造出了一种既简便又宏大的视觉学习方法。这种方法不需要复杂的工程手段或者小巧的表面遐想，只是诚实地效法了东说念主类视觉融会的基本历程。正如商量团队在论文中所说，他们提供的不单是是一个新算法，更是一种新的视角：自转头预测的松懈性，当适当地运用于视觉领域时，简略匡助斡旋不同模态之间的预历练范式。这种斡旋性可能是东说念主工智能向更通用智能发展的关节一步。

Q&A

Q1：NEPA技艺是怎样责任的？

A：NEPA技艺像拼图游戏一样责任，把图片切成小块，让机器按规定不雅察这些片断，每看到一派就预测下一派应该是什么神志。机器不需要重建每个像素，而是在轮廓的"镶嵌空间"进行预测，就像咱们用意见形色图片而不是记着每个细节。

Q2：NEPA技艺比其他图像识别方法有什么上风？

A：NEPA最大的上风是简便高效。它只需要一次前向传播，不需要复杂的解码器或对比学习的负样本，历练历程比传统方法简便得多。同期它在ImageNet分类上达到了83.8%到85.3%的准确率，与开始进方法终点，但架构更松懈。

Q3：NEPA技艺能运用到哪些履行场景中？

A：NEPA技艺不错粗俗运用于多样盘算机视觉任务。它依然在图像分类和语义分割任务上获得优秀进展，明天还可能膨胀到图像生成和剪辑领域。由于其松懈的架构遐想，它不错很容易地适配到不同的运用场景中。