这项由Baitedan和M-A-P团队共同进行的研究于2025年8月25日发布。研究团队由Jihan Wang,Ziaz Chen和其他研究人员组成。有兴趣获取更多信息的读者可以使用项目的主页https://huggingface.co/datasets/mm-a-a-a-p/aethecode访问完整的研究数据集和纸质详细信息。近年来,大型语言模型在编程能力中的表现为人们的眼睛提供了。在一些著名的编程测试中,最先进的AI模型可以达到90%以上的精确率。这使许多人思考。在编程竞赛中,AI是否已经超越了人类,这个领域需要高逻辑思维?但是在这个显然令人着迷的评级背后,我们可能不想承认的真理。玩具,因为学生总是在定期测试中获得完美的品牌,并且在真正的大学入学考试中执行中等的执行情况,现有的编程测试可以是太容易真正反映了真实编程级别的AI。绑定研究团队注意到了这个问题,并决定给AIS进行“真正的考试”。他们创建了一个名为Aethercode的新测试参考点,该参考点不再使用相对简单的编程问题,而是直接使用全球主要编程竞赛的真实问题,例如国际计算机奥运会(IOI)和国际大学编程竞赛(ICPC)。这是让第一个学生直接在奥林匹克数学考试实验室中的小学数学考试中获得完美品牌的方法。会发生什么?答案可能会让许多人感到惊讶。研究团队不仅重新设计了考试问题,而且还完全改革了考试标准。在传统的编程测试中,问题中的许多测试用例非常困难,并且使用一些简单的示例来确定学生是否真正获得了数学知识。 aen醚码,reseaRCH团队使用了67位具有丰富竞争经验的编程专家,包括具有超过2600码的国际编程教师来仔细设计每个测试案例。他们收集了30,000多种解决方案,以解决人类程序员,包括正确和错误的响应,以确保他们设计的测试案例可以区分100%精确且错误的响应。这种严谨的水平就像金肝检查员一样,它使您甚至可以识别错误的黄金,并且永远不会错过网络。当研究人员使用此新标准测试最先进的AI模型时,结果使人们对现实感到清晰。即使是最好的性能模型也面临着这些真正具有挑战性的编程问题,其成功率突然降低了。好像有人习惯于在游泳池里游泳,突然扔进了崎rough的大海。 1。重新定义AI编程特征的评估标准。如果您重新Ally想了解IA编程功能,您必须首先了解现有测试标准的局限性。用于评估AI编程技能的大多数测试与使用小学的数学才能评估人的数学人才一样精确。以众所周知的HumanVal和MBPP测试为例,这些测试的编程问题的多数需要相对简单的任务,例如分类和翻转列表。在当今的AI模型中,这些问题就像制作“ 1+1是相同的”一样简单。如果IA在这些测试中获得了超过90%的高分,那么很容易获得AI主导编程本质的幻想。但是问题在于,真正的编程挑战远远超出了这一点。能够烹饪大量的面条并能够制作复杂的法国菜肴是完全不同的技能。简单的编程任务只能证明AI主导了P的基本语法重新编程语言,但无法评估它们是否有能力解决复杂的逻辑问题。更重要的是,现有测试中的另一种死亡率是缺陷是测试案例的质量。测试用例是对考试的标准回应。如果存在问题与标准响应本身有关,则整个考试将失去其含义。许多现有测试使用非常困难的测试用例,有些测试有错误。研究人员发现,在测试的测试点上的许多测试用例都是随机生成的,而无需考虑极限条件或特殊情况。这就像一位数学老师,他使用一些简单的例子来确定学生是否真正理解数学概念,而忽略了他揭示自己对理解的理解的重要案例。在编程竞赛中,该计划不仅应该在正常情况下正确执行,而且还应处理各种极端进入情况。看似正确的专业人士克可以在99%的案件中给出正确的答案,但在该重要的1%情况下失败了。正是这种1%的差异区分了常规程序员的好程序员。更令人担忧的是,我们知道现有测试数据集的证明案例甚至可以违反问题本身的局限性。这就像一项数学考试,本身具有标准响应,这种考试显然无法评估学生的真实水平。这恰恰基于这种理解,即派研究团队已决定从根本上重新设计评估AI编程功能的标准。他们不再对这些小型简单的编程练习感到满意,但是他们直接使用了真正的问题,例如世界主要编程竞赛的证明内容。 2。我们将面临更高竞争的真正挑战。真正测试AI的编程功能的最佳方法是参加真正的编程竞赛。 to gual要测试一个人的篮球水平,最好的方法是不要看看他们是否可以赢得罚球,而是让他们在正式比赛中与真正的对手竞争。 Aethecode选择了世界上最负盛名的编程竞赛系列作为其主题的来源。首先是针对高中生的更高编程竞赛,这是一系列国际奥运会计算机竞赛(IOI),被称为编程世界。 “奥运会。”可以在IOI获得奖牌的学生通常具有逻辑思维和算法设计技能的非凡技能。第二个是该学院的国际学生编程系列(ICPC),这是一项针对大学生的世界阶级编程竞赛。 ICP的特征是球队的战斗。每个团队都有三个成员,需要在五个小时内解决10-13个编程问题复杂。这项竞争测试不仅可以进行个人编程技能,还可以进行团队和时间法力的协作饮食技巧。这些竞争问题的设计具有独特的特征。它们不是简单的代码实施练习,而是针对真实算法的设计挑战。在每个问题中,竞争对手必须首先了解复杂问题的解释,然后设计有效的算法,最后使用代码精确地实现该算法。整个过程就像侦探解决需求的过程一样,这需要细致的逻辑推理和创新思想。以IOI问题为例,参与者必须在五个小时内解决三个问题。每个问题都可以包括高级算法的知识,例如图形理论,动态编程和计算几何形状。这些问题正确地签署了这些问题,甚至世界上主要的高中程序员都必须尽一切可能完成。图片的挑战更加复杂。与团队竞争一样,问题的设计要求您从相对简单的介绍性问题到极为困难的最终问题,越来越多的困难。团队成员必须快速分析每个问题的难度,合理地分配任务并保证代码的质量。这是因为小错误可能导致整个团队的障碍。为了构建以太代码数据集,研究团队进行了一个很棒的项目。它们在全球范围内,包括IOI,区域ICPC,决赛以及来自几个国家的国家团队的选择。主题是从主要的编程比赛中系统地收集的。这个收集过程是如何收集世界上最珍贵的宝石,每个问题都是精心设计和验证的智慧的结晶。收集过程面临的第一个挑战是格式转换。这些竞争性问题中的大多数最初以PDF格式存储,包括复杂的公式,图形和数学格式。研究员S必须将这些PDF文档转换为适合AI理解的降价格式,同时保留所有数学表示和逻辑结构。这个过程需要非常仔细的注意力,转换错误可以改变问题的最初意图。更重要的是质量控制。研究团队手动校准了转换的每个问题,以确保不会丢失信息或错误。这就像还原旧文档,需要所有详细的卓越。除了这些问题本身,研究团队还编辑了许多解决人类问题的解决方案。总共有30,000多个由真正的程序员在这些比赛中发送的代码,包括正确的答案和不正确的尝试。这些代码就像一个大案例库,当他们遇到复杂问题时,记录了人类程序员的常见错误。这个巨大的代码库为后续的测试案例提供了宝贵的参考。分析这些错误时,研究人员S能够识别程序员更可能犯下的错误类型,并设计了更严格,更积分的测试用例。 3。建立历史上最严格的测试标准。如果选择高级竞争性问题是增加考试的难度,那么重新设计测试案件是提高考试的股权和精度。在竞争过程中,测试案例的质量直接决定了结果的可靠性。传统的编程测试通常取决于保证质量的数量,我们认为测试用例越多,越好。但是,研究人员发现,这种方法就像尝试具有重复和简单问题的学生的数学技能,并且他们无法实际评估技能的差异。重要的不是测试用例的数量,而是答案是正确和不正确的。如果您可以准确区分答案。研究小组为E提出了一个新标准证据案例的估值。他们将完整的测试用例集视为二进制分类器,即任务,是区分正确和错误的程序。像医院疾病测试设备一样,适当的测试系统无法诊断出您健康的人为患者(假阳性)或健康(假阴性)。根据这个概念,研究人员定义了两个重要指标:真实利率(TPR)和真负率(TNR)。如果测试案例可以正确识别所有正确的程序,而真正的负费率衡量测试案例是否可以正确识别所有不正确的程序,则进行实际费率衡量。这两个指标的理想测试集必须为100%。为了达到这一非常高的标准,研究人员采用了一种混合方法。首先,我们使用称为“生成验证剂系统”的自动工具来生成测试用例。该系统就像一台智能的问题配置机,并且可以自动生成大量的测试数据根据问题的限制满足他们的要求。但是,仅信任工具态还不够。正如人工智能可以提高的一样,从创造力和直觉的角度来看,人类的取向也需要人工学位,证明案例的设计也需要人类专家的智慧。研究团队招募了67位具有丰富竞争经验的编程专家,以参与证据设计。这些专家不是常见的程序员,其中大多数在CodeForces平台上的得分超过2,000。这相当于编程竞争行业中最好的球员。其中一位专家获得了2600多分,并赢得了“国际编程大师”的头衔。这些专业人士的工作就像一位高级命题老师。他们必须设计基于多年竞争经验的计划缺陷更有可能暴露计划的测试用例。在解决Prcomplex Ondems时,他们更有可能犯错。专业人员的工作过程如下:首先,我们分析了收集的30,000多个人类解决方案,并确定这些不正确程序的共同特征和失败模式。接下来,对于每个常见错误,他们仔细设计了用例的特定测试,请确保这些测试用例“暴露”了不正确的程序。这个过程需要极高的技能和经验。有时,程序可以在99%的案件中给出正确的答案,并且只有在某些限制条件下犯错误。专家的任务是找到可以证明这些极端情况的这些重要限制条件和设计用例。为了保证质量,研究团队还建立了一个精英审核团队。他的每个团体成员至少赢得了三枚ICPC金牌,并且至少拥有两年的建立竞争问题的经验。他的工作是对所有测试案例进行最终质量审核,并保证遗漏。经过如此严格的DE之后符号和修订过程,以太代码最终取得了前所未有的结果。测试案例的真实和真实负率达到100%,收集了30,000多个人类解决方案。这意味着所有正确的程序都可以批准测试,并且该测试将找到所有不正确的程序。这项成就的重要性是深刻的。不仅可以保证测试结果的可靠性,而且还可以在AI评估领域建立新标准。除奥运会建立了体育竞赛的最高标准外,以太代码还建立了对AI的功能评估的最严格标准。 4。启示的真实水平:AI和人类之间的差距仍然很大。当研究人员使用这种新的严格标准来测试最复杂的模型时,结果使每个人都清楚地实现了现实。这些AI模型在传统测试中效果很好,当他们面对CH时,成功率的强劲下降会大大降低所有的编程问题。研究人员测试了13个不同的AI模型,其中包括具有推理功能和五个传统非参与模型的八个模型。这些模型代表了AI技术的最高水平,包括来自Openai的O4-Mini-High,Google的Gemini-2.5-Pro构想,该想法拥有SEED-1.6。结果表明,即使是最佳性能模型O4-Mini-High,在EtherCode测试中的一般批准率也仅为35.5%。此数字似乎并不太低,但应该知道,经过许多尝试,它是最先进的AI模型的最佳结果。更令人震惊的是不同水平的难度差异很大。研究人员将问题分为四个困难。简单,中等,困难,极端困难。在一个简单的问题中,O4-Mini-High的批准率为65.3%,这是相当不错的。但是,如果难度水平增加到平均水平,则L速率下降到32.1%。一旦达到难度水平,批准率将额外降至8.0%。对于极其困难的问题,批准率仅为3.8%。这种成功率曲线的难度迅速下降,清楚地说明了AI模型解决复杂逻辑问题的局限性。相同的表现,例如学生面临不同的事物,适用于数学问题。可以解决简单的添加和减法,但是当它们遇到复杂的几何测试问题时,它们是毫无防备的。更有趣的是推理和非发电模型之间的对比。推论模型是AI最近发展的重要方向。这些模型在回答问题之前实现了更详细的“思想”,类似于人类的思维过程,以解决复杂的问题。传统的非发电模型类似于条件反射的响应。在Aethecode测试中,推论E模型显示出明显的优势。即使具有小参数的推理模型也可以克服具有较大参数的非自发模型。就像一个有思想的学生,他没有与他人相同的记忆,但是在解决probloblex emas时效果更好。即便如此,最佳非明显模型GPT-4.1的批准率只有10.5%,但与最佳推论模型的差距仍然很大。这解决了复杂的编程问题,表明“思考”的能力比简单的知识保护区更为重要。研究人员还发现了一个有趣的现象。上层模型表现出多次尝试改善的可能性。如果允许四次尝试,则O4米尼高的批准率从35.5%增加到46.6%,增加了11.1个百分点。弱模型在多次尝试中有了很大的改善。这表明较高级别的模型具有更强的“学习”和“自适应”技能。不同的绩效分析算法字段还重新考虑了结果。所有AI模型都可以在处理相对简单的任务时提高性能,例如基本算法和连锁处理,无论推论是否推断。这些任务是关于模式识别和代码实现的,并且是AI模型更好的领域。但是,大多数模型在需要非常抽象思想的领域(例如计算几何图形和树木结构问题)方面工作非常糟糕。这些领域不仅需要代码实现功能,还需要深厚的数学理解和空间想象力。尤其值得一提的是,即使在动态编程和数学等领域,非限制模型的性能也不令人满意,据信这更适合AI处理。这在复杂的编程问题方面更加确认了传统AI方法的基本局限性。这些结果传递了明确的信息。尽管进步和非AI的编程功能取得了长足的进步,但他们与主要的人类程序员面临着真正具有挑战性的编程问题时之间仍然存在很大的差距。这个差距不仅是定量的差异,而且是包括中央人类智能特征的定性差异,例如抽象思维,创新能力和复杂的问题解决能力。 5。这项研究的普遍影响。地架的解放不仅是新的测试参考点的诞生,而且就像呼吁关注整个AI调查领域一样。这项研究传递了一个事实,没有回应,即我们可以高估了AI的能力。首先,这项完整的研究了解了AI的编程功能。我改变了一切。过去,当我在HumaneVal等测试中获得超过90%的高测试时,可以想象AI正在接近或克服编程领域的人类。 hOWEVER,以乙醚的结果清楚地表明,这种乐观的估计是基于严格严格的证据标准。这种认知偏见是有深刻的理由。在AI研究的早期阶段,研究人员倾向于设计相对简单的测试任务。这对于培训模型很有用,易于看到的研究结果。但是,随着AI能力的快速提高,这些简单的测试不再足以区分不同模型的实际特征。正如它无法区分数学的天才和小学数学考试中的普通学生一样,简单的编程考试也不能真正反映AI编程级别。其次,这项研究为AI调查的未来地址提供了重要的指导。结果表明,推理能力是管理AI中复杂编程问题的重要因素。凭借推理技能,这些模型在各个级别的难度上都超过了传统模型。这表明AI未来研究的重点应该是提高模型的逻辑推理和抽象思维能力。该发现具有重要的技术意义。传统的AI模型取决于模式识别和统计学习,但是竞争性问题需要对算法和逻辑推理功能进行实践设计。这两个功能之间的差距可能是AI技术需要破坏的重要瓶颈。第三,EtherCode在AI评估领域建立了新标准。案例的质量标准尝试100%TPR和100%TNR代表最高的测试设计水平。该标准的建立鼓励其他研究人员采用更严格的评估方法,从而提高整个领域研究结果的可靠性。此标准化的重要性不仅限于编程领域。 AI应用的其他领域,例如对自然语言和图像的理解gnition,严格测试不足。 Aethecode的经验是在这些领域制定试验标准的有用参考。我们可以提供借用。从更广泛的社会角度来看,这项研究还有助于对AI发展的观点更合理。随着目前的IA繁荣,许多人对AI能力的期望过于乐观。我还担心AI会很快克服所有领域的人。但是,Aethecode的结果提醒我们,AI在某些任务中效果很好,但是有很长的路要走,可以引起需要深入思考和创新的复杂问题。这种更合理的意识将有助于制定更合适的AI开发策略。一方面,我们需要继续投资资源来促进AI技术的发展,尤其是在推理和抽象思维的能力方面。另一方面,我们不能过分信任AI,但是我们必须继续关注人类专家的角色,ESPEC在需要创新思想和复杂判断的领域。这项研究为编程教育带来了宝贵的影响。真正的编程能力表明,不仅主导了编程语言的语法,而且更重要的是培训。获取逻辑思维,算法设计和解决问题的能力。这些能力正是当前AI模型所缺乏的,也是人工智能程序员的核心优势。最后,EtherCode为世界上的AI研究人员提供了一个公平而严格的比较平台,作为开源测试点。这有助于促进整个领域的健康发展,并避免由不一致的测试标准引起的混乱和误解。最终,这项研究的最重要贡献不是要发现AI的局限性,而是为理解对AI的实际能力的理解提供更清晰,更精确的观点。它仅基于对C的精确理解我们可以发展更多理性的研发目标,并最终促进一个对人类真正有益的单向技术的发展。这就像为太安全的学生进行真正的参考考试。结果可能不是预期的,但是这种简单的理解是迈向进步的第一步。通过严格的测试标准,例如Aethecode,IA研究人员可以发现更好的问题并建立目标,我们可以开发具有真正强大的编程功能的AI系统。 Q AQ1:以太代码和现有编程测试有什么区别?答:以太代码和传统编程测试之间的最大区别是问题和测试标准的来源。传统的测试(例如人类使用者使用相对简单的编程练习),而EtherCode直接使用世界一流编程竞赛(例如IOI和ICPC)的真实问题。更重要的是设计测试CA的编程SES确保准确地以100%确定正确和错误的程序,但是传统测试的质量相对困难。 P2:为什么IA模型在EtherCode中如此糟糕?答:主要原因是以太代码不是一个简单的代码实现,而是设计证明和真实算法的逻辑推理功能。最佳模型O4-Mini的一般批准率仅为35.5%,非常困难的问题仅为3.8%。这表明,尽管AI可以处理盖章的编程任务,但对于需要深入思考和抽象推理的复杂问题仍然存在重要的局限性。 P3:有关AI未来发展的这项研究的指南是什么?答:研究表明,推论AI模型远远超过了传统模型,这是必不可少的,即未来的AI的发展应着重于提高逻辑推理和抽象思维能力。同时,Aethecode建立了更严格的A我评估标准。这有助于研究人员更精确地了解AI的实际能力,避免过于乐观的估计并建立更多理性的研究目标。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:先前的内容(如果有)是社交媒体平台,仅提供信息存储服务。