Poetiq.ai 在 ARC-AGI-2 基准上实现 SOTA 方法综述

GalaxyDetective

2025年12月03日 15:57

收录于文集

共7篇

Poetiq.ai 团队近期在 ARC-AGI（Abstract Reasoning Corpus for AGI）基准测试的第一版和第二版上取得了新的状态-of-the-art (SOTA) 成绩，显著提高了当前 AI 系统在抽象推理任务上的性能和效率[1]。ARC-AGI 是一套源自 François Chollet 提出的彩色网格抽象推理挑战，用于评估 AI 适应新情景和推理复杂规则的能力，是人工智能领域公认的难题[2][3]。Poetiq.ai 的方案不仅超越了以往的最佳成绩，还超过了人类平均水平，在成本和效率上也建立了新的标杆[4]。下面将从模型架构、训练策略、数据与任务建模、推理执行机制、评估结果以及开源与应用进展六个方面，对其方法的理论基础与实践技术进行详细介绍。

模型架构设计

Poetiq.ai 提出了一个灵活的模块化“元系统”架构，可以“搭载”任意大型语言模型（LLM）以执行复杂推理[5][6]。该架构的核心是一种自我递归改进的机制，体现为“自审计”(self-auditing) 的迭代求解回路[7][8]。具体而言，系统并非一次性通过单个提示完成回答，而是让一个模型先产出初步解答或草稿（包括可能的代码方案），然后将该草稿交由另一个模型或同一模型的不同实例充当“审阅者”进行检查[9]。审阅模型会根据反馈判断解答中的不足，生成改进建议或要求模型重试。接着，初始模型结合反馈进行逐步 refinement（优化），再次提出改进的解答。如此循环往复，通常进行3～5次迭代，直到系统自动判定解答已充分完善或达到收敛标准，再终止过程输出最终答案[10][9]。这一多轮问答式的自我完善过程，相当于让模型自己反思并改进，从而逐步逼近正确答案。

架构中的“自审计”模块使系统能够自主监控解决进度，判断何时信息已足够、答案已令人满意，从而自适应地决定停止迭代[8]。这种自我终止机制对于避免无效循环计算、降低推理成本至关重要[8]。值得注意的是，Poetiq 的元系统还能动态选择模型和策略组合：根据任务需求和资源约束，不仅可以灵活调用不同的LLM（如最新的 Google DeepMind Gemini 3 或 OpenAI GPT-5.1），还会决定是否需要编写程序代码来辅助求解，以及将哪部分任务分配给哪个模型来处理[6]。例如，在其公开的配置中，Poetiq 系统整合了 Gemini 3 与 GPT-5.1 模型的优势，两者协同以提升准确率[11]；又例如，针对成本敏感的场景，系统可以仅用开源中型模型（如 GPT-OSS-120B）多次调用，通过程序化手段逐步逼近答案，以极低开销取得最佳性价比解[12][13]。

整体而言，Poetiq.ai 的架构没有引入全新的神经网络模块，而是在现有大模型之上构建了一个通用智能的“控制层”。这个控制层通过提示编排和模块组合实现了前所未有的性能：小团队借助此架构，能够快速适配最新最强的大模型（如几小时内接入新发布的 Gemini 3 和 GPT-5.1）并立即取得SOTA结果[5]。Poetiq 称其架构“LLM all the way down”，即从构建、改进到执行几乎全程由LLM驱动[7]。这种强大、递归的体系结构使他们的方案在短时间内取得一系列SOTA成绩成为可能[7]。

训练方法

Poetiq.ai 在训练和开发过程中综合运用了强化学习、合成任务训练、测试时学习等多种策略，辅以链式思维提示和系统1/系统2分离的思想，打造出高效的解题代理。其方法论可以概括为以下几个要点：

强化学习与策略搜索：Poetiq 团队采用了强化学习或类似的自动化搜索来发现最优的推理策略。据报道，他们在使用开源模型对公开训练集任务反复试验的过程中，不断调整算法结构，相当于让系统通过“试错”来优化自身[14]。这种过程类似于策略梯度优化或进化算法，在不给定明确算法的情况下自动发现有效的解题步骤组合。正如他们所强调的，Poetiq 的元系统并未预先硬编码具体的推理链，而是通过自动化适应过程“发现”出适应特定模型和任务的最优策略[15]。这种自适应方法论是其理论基础的一部分：LLM 已蕴含大量知识，但需要通过学习找到合适的方法将碎片化知识拼装起来[16]。Poetiq 将这一过程自动化，大幅减少了人工设计提示的需求。
合成数据与课程学习：为提高模型的泛化能力，Poetiq 可能利用了合成的ARC风格任务数据来丰富训练分布（尽管ARC官方只提供有限的训练任务）。社区推测，不少公开ARC题目已出现在模型预训练语料中或被人为“刷题”练习，使模型对公共集有记忆偏差[17]。Poetiq 声明他们并未使用 ARC-AGI-2 的任何题目进行训练，所有系统适应都基于ARC-AGI-1或类似风格的数据，并主要使用开源模型完成，以避免对新题的泄漏[18]。这意味着他们可能通过生成与ARC相似的合成任务或利用ARC-AGI-1公开训练集（1000道任务）进行Curriculum Learning（课程学习），从简单模式逐步提升难度，让元系统学会应对复杂规则组合[19][20]。随着系统能力增强，再迁移到更复杂的ARC-AGI-2任务上零样本直接应用，表现依然出色[18]。这一过程体现了一定的课程学习思想，使系统对“如何学习解决新任务”具备了一定的通用能力。
链式思维提示 (Chain-of-Thought)：Poetiq 的解题流程天生具有链式思维特征。在提示设计上，他们鼓励模型逐步推理、分解问题，再通过多轮对话逐步得到完整解答[10]。例如，在代码生成求解时，模型先产出代码草案，然后逐步调试修正。这种显式的思路链有助于模型将复杂推理分解为易于处理的步骤，避免一蹴而就导致的错误。Poetiq 官方表示，他们在优化系统时开发了更好的策略来决定“问什么、怎样连问”，并创造新方法来组装中间答案[21]——这正是链式提示与推理路径优化的体现。
测试时训练 (Test-Time Training)：Poetiq 的方案中一个引人注目的技术是在推理过程中进行微调。据报道，他们的代码里包含了一段仅约30行的Python+JAX代码，可以在解题时临时训练一个小型网络，将当前任务视为训练集做快速梯度下降调整[22]。也就是说，在模型解某一道题时，当场对模型的某些参数或子模块做几十步微调，以更好适应该题的特殊模式，从而使准确率额外提高显著（据称提升约8个百分点）[22]。这种“边考边学”的测试时训练违反了传统机器学习“训练结束后模型固定” 的常规，被 Chollet 称为“考试时改基因”式的骚操作[23]。尽管这不符合人类直觉中的推理方式，但实践证明它有效提升了模型对当前任务的契合度[24]。Poetiq 运用了此技术，在不泄露答案的前提下对模型进行快速自适应，进一步提高了解题成功率。
代码生成与程序执行：针对ARC这类需要符号操作和规则应用的任务，Poetiq 大胆地将代码生成引入解题流程[14]。受到先前 Jeremy Berman 等方案的启发[25]，他们利用 LLM （如GPT-5.1或GPT-OSS开源模型）根据任务训练对例生成 Python 程序，让程序去执行颜色网格的变换，寻找能将输入转化为输出的规则[26]。Poetiq 系统让模型提出多种候选程序（类似元编程或程序综合），然后在沙盒中跑这些代码验证其对训练例的正确性[27]。对于错误的尝试，系统通过审计模块将运行反馈（例如输出与期望不符的差异）提供给生成模型，从而指导其改进代码[28]。这一过程相当于模型在充当系统2：先快速凭直觉给出某种解法草稿（系统1的直觉反应），再经由代码执行得到精确反馈，用以理性地调整方案（系统2的分析校正）。Poetiq 将符号推理转换成代码搜索问题，使得复杂的视觉谜题可以用确定的程序逻辑来解决，大幅提升了准确率[29]。这种方法也被形容为将“抽象推理降维为搜索+暴力枚举”[29]，充分利用计算力量化穷举可能的解法，再由智能策略筛选最优答案。

综合以上策略，Poetiq.ai 实现了多层次的训练改进：一方面利用离线阶段的强化学习、自监督和合成数据，使元系统学会如何高效利用LLM解决此类任务；另一方面在在线推理时通过链式思维提示、代码执行和局部微调进一步自适应优化。正如他们自己所言：“提示只是接口，智能不在提示中，而在持续的推理过程中”[28]。凭借这些理论与技术手段的融合，Poetiq 的系统显著超越了以往仅靠单次LLM推断的方案。

数据集与任务建模

ARC-AGI 任务本质上是多对一的映射归纳问题：每道题提供若干训练示例（彩色方格输入->输出的对照），要求AI推断其中隐含的转换规则，并应用于给定的新输入以产出正确输出[30][31]。Poetiq.ai 在数据和任务建模方面做出了巧妙的设计，使其元系统能够有效理解并解决这些抽象任务：

任务表示与解析：ARC任务原始数据为JSON格式的整数网格，可以渲染为彩色图案[32]。Poetiq 系统需要将这种视觉/符号任务转化为模型可处理的输入形式。一般而言，有两种思路：(1) 直接将网格编码成文本，例如用数字矩阵或特定符号表示图案结构，然后提供给LLM分析；(2) 以程序抽象表示，例如将输入输出网格读入Python中的二维数组，让模型编写操作数组的代码来实现转换。结合他们重视代码生成的策略，Poetiq 很可能采用了程序化表示：将ARC任务的示例读取为数组/矩阵，在提示中描述任务要求，然后请模型生成程序函数来实现从输入到输出的映射[25]。这种建模方式将视觉任务转化为了逻辑/代码任务，使LLM更擅长运用其训练中学到的编程和推理技能。
隐含规则的模块化：ARC任务往往涉及颜色、形状、位置等多种规则组合。Poetiq 系统可能借鉴了 DreamCoder 等项目的思路[33][34]，在任务建模中分解规则并重用子方案。例如，通过库函数或模板，先检测图案中的某种符号意义，再应用对应转换（如“找到所有红色方块并镜像翻转”之类的子任务）。他们开源代码中包含一个扩展的程序库来存放学到的概念[33][34]，这一点从 Pang 等人的高效方案中也有所体现（Pang 的系统会将已学会的程序片段存入不断扩充的库，以在更难任务中复用）[34]。Poetiq 的方法同样将复杂任务模块化，利用前面迭代中总结出的中间结果或代码片段，在后续推理中调用，从而将任务求解转化为搭积木式地组装已知操作。这种任务重构使得系统更容易 generalize：即使遇到没见过的新题，也可能由熟悉的子模式组合而成，系统可以识别并处理。
高效评估机制：在任务求解过程中，Poetiq 系统通过不断执行候选方案并比对输出，来评估方案的正确性。这是一种即时的监督信号：每当模型生成一个解法（如一段代码或一系列操作），系统立即在训练对例上测试。如果输出吻合示例，则说明规则假设正确；若不符，差异本身（哪些像素错了、有哪些模式未覆盖）将作为反馈信息，用于引导下一步模型调整思路[28]。这种紧密结合数据的反馈循环，使任务求解变成一个交互式建模过程：模型不断修正对任务规则的内部表征，直到能解释所有给定示例为止。可以认为，Poetiq 将“推理 = 学习 + 搜索”的思想应用于每道题：把推理过程看作在当前任务上的一次小型训练（搜索假设空间、拟合训练数据）[22]。这种动态任务建模方式突破了静态模型对任务的固定映射限制，让系统在理解任务的过程中逐步完善对规则的模型。

通过上述方法，Poetiq.ai 并未另行构造新的大型数据集，而是深挖现有ARC任务的数据结构。他们有效利用了公共训练集（ARC-AGI-1 提供了1000道训练任务）来训练和调优元系统[19]；在正式求解ARC-AGI-2时，则严格避免使用任何ARC-AGI-2公共评测任务进行训练以防信息泄漏[18]。这种数据使用策略确保了评测的公平性。值得一提的是，由于ARC-AGI官方提供了私有评测集（完全保密，从未泄漏）用于最终检验，一个优秀的方案需要真正理解任务而非记忆答案[35][36]。Poetiq 系统基于任务建模的泛化能力被认为将在私有集上保持相对优势[18]，即便如此，团队也预料到由于公共集存在数据污染，私有集成绩可能比公共集有所下降[37][17]。总体而言，在数据与任务建模上，Poetiq 强调对任务本质的学习而非对题库的简单记忆，通过程序化、模块化的表示和交互式反馈，实现了对抽象规则的高效挖掘。

推理与执行机制

Poetiq.ai 系统在推理阶段结合了多模型协作、代码执行、搜索优化等机制，打造出一个仿佛“思维链+工具”的AI代理，显著增强了推理效果：

多LLM协同与角色分工：Poetiq 的框架支持同时调用多个大模型，各自承担不同角色。例如，一个模型可以负责生成解题方案（如推理步骤或代码），另一个模型负责审阅和反馈[9]。他们报告的配置包括同时使用 Gemini 3 和 GPT-5.1[11]，推测可能是让其中一个模型产生初步方案，另一模型校对监督。这种分工利用了模型之间的多样性：不同架构或训练的模型擅长不同方面，协作可取长补短。另外，Poetiq 的元系统还能自动决定调用哪种模型：例如对简单子任务用较小的开源模型快速处理，对复杂部分调用大型模型确保准确。正如其所示，同一套系统可以无缝替换底层模型，在用 GPT-OSS-120B（开源）时依然能完成ARC任务，只是速度较慢、准确率略低[13]。这种模型无关的推理机制展现了架构的通用性。
程序执行与环境交互：在推理过程中，Poetiq 系统不仅依赖LLM内在的推理能力，还会让模型主动调用外部执行环境。特别是当模型生成了候选程序代码后，系统会立刻在受控的沙盒中运行该代码，将执行结果作为环境反馈提供给模型[27][28]。通过这种“思维-工具”结合，LLM能够利用Python解释器等外部算力完成严格的计算、检验假设。这类似于人类解题时借助笔算或编程来验证思路。Poetiq 系统中，程序执行模块充当了“推理助手”的角色：模型思考出办法->助手尝试执行->报告结果->模型根据结果继续改进。这样的闭环极大提高了推理正确率和可靠性。
搜索与优化策略：为在有限成本下取得最佳结果，Poetiq 实现了一定程度的智能搜索。他们观察到ARC竞赛允许每道题最多两次提交，但Poetiq系统只需一次智能尝试且平均不到两次API请求就能胜过传统两次独立解答的效果[38]。这表明系统在一次解题过程内部已经做了类似多次尝试的工作：可能通过分支探索不同假设或并行生成多个解法，然后择优。OpenAI 早前的方案曾用到64路并行搜索+MCTS树搜索来穷举方案[39]，Poetiq 则找到了更轻量的搜索策略——或许利用LLM的随机性生成多样化的解答，再由自审计过程筛选。这种进化式的推理优化让系统以极少的API调用实现了相当于穷举大量可能性的效果[38]。另外，他们还能通过增大“思考步数”（即迭代轮数）来换取更高准确率，表现出随推理深度提高而渐近收敛的趋势[40]。这种趋势与ARC Prize官方描述的“推理系统趋势线”一致，即增加推理时间通常能提高性能，但收益逐渐减小[40]。Poetiq 的方案精准地踩在这一效率前沿上。
记忆与上下文管理：在多轮推理过程中，系统需要管理生成的中间结果和上下文信息。Poetiq 元系统 likely 维护了一定的内存模块或上下文缓存，将每轮的方案、反馈摘要等保存在提示中供下一轮参考[28]。这相当于一块短期工作记忆，让LLM不会忘记之前尝试过的路径及教训，从而避免重复犯错、逐步收敛。此外，系统可能还有长程记忆用于跨任务迁移，例如保存一些通用有用的代码片段或推理套路，在新任务时直接调用。这部分或体现在开源代码的工具库里，以及Poetiq所说的其方案在多个基准上都适用的能力[41]。

综上，Poetiq.ai 的推理执行机制体现了agent式AI的雏形：通过LLM+工具+反馈环，实现了远超单次LLM应答的复杂推理能力。它将LLM的生成力、外部执行的可靠性和策略调度的灵活性有机结合，在保证高准确率的同时将计算成本压至极低[42]。Poetiq (Grok-4-Fast) 配置每题成本不到0.01美元，而性能接近比它贵两个数量级的模型[43]；最强配置 Poetiq (Mix) 虽融合多大模型但依然保持了Pareto最优的成本效率，比其它单模型方案更划算[12]。这套推理机制充分证明，通过巧妙的架构和执行策略，“小团队也能让现有模型爆发出超越常规的智慧潜力”[7]。

实际效果与评估

在 ARC-AGI 基准测试上，Poetiq.ai 的方法取得了目前公开报道中最优秀的成绩，并重新绘制了性能榜单：

图：Poetiq 系统在 ARC-AGI-2 公开评测集上重新定义了准确率与成本的 Pareto 前沿。紫色点代表 Poetiq 提交的不同配置，绿色点为 Google DeepMind 的 Gemini 3 模型（包括 Deep Think 模式），其他彩色点表示此前各模型或方案的成绩。Poetiq (Mix) 配置在约 $30 成本下达到 ~66% 正确率，已超过人类平均水平（60%虚线）[44][45]。

ARC-AGI-1（第一版）：Poetiq 系统在公开评测集上达到了85.2%的正确率[4]。这一成绩不仅刷新了ARC-AGI-1的SOTA纪录，而且超过了 François Chollet 当初设定的“85%即达到AGI门槛”的传说线[46][47]。此前的最佳方案包括 Jeremy Berman 在2024年底的进化算法（约53.6%）[48]和 OpenAI “o3-preview”模型在2024年末的 75.6%（后者花费了极高计算资源）[49]。Poetiq 一举将成绩推高到接近人类专家水准，并且所需算力成本却低几个数量级——据报道，OpenAI 的方案每题耗费约200美元计算预算，而 Poetiq 方案每题仅 ~$0.007 美元（人民币五分钱）[50][42]。可以说，Poetiq 用“平民价”实现了过去只有烧钱大厂模型才能接近的效果[42]。

ARC-AGI-2（第二版）：在更困难的新任务上，Poetiq 系统同样大放异彩，在公开评测集上取得了61.4%的正确率[4]。这一分数超过了平均人类参赛者的水平（约60%）[51][4]。要知道，在Poetiq出现之前，没有任何前沿模型在ARC-AGI-2上突破30%，许多旗舰大模型如 GPT-5 高算力设定仅得分约9.9%，Claude Opus 4约8.6%，xAI的 Grok-4 也只有16.0%[52]。一位研究者 Eric Pang 此前采用 DreamCoder 风格的程序综合方案取得了26.0%的成绩，被视为当时的领先[53]；而 Poetiq 的61.4%几乎是其两倍有余，标志着巨大的飞跃。[47]甚至打趣道，曾被奉为“人类智力最后堡垒”的ARC，如今也不过是算法工程师眼中又一个可以刷分的目标而已。

值得注意的是，ARC-AGI 官方采用隐藏的私有测试集来最终评估模型的泛化智能[36]。Poetiq 报道的上述成绩均基于公开评测集（可用于验证但可能已部分泄漏给模型）[37]。他们也坦承，当转至完全保密的semi-private或private集合时，模型成绩预计会有所回落——据估计ARC-AGI-1上公共与私有集可能相差高达数十个百分点[17]。这主要是因为公开题目多年来已被反复研究，难免渗入预训练语料，引发数据污染效应[17]。Poetiq 强调其系统并未专门记忆公开题答案，而是构建在通用方法上的；但即便如此，由于底层大模型本身可能“见过”类似题型，在未泄漏的新题上成绩下降是行业普遍现象[37]。因此，目前的61.4%尚不能宣称“ARC-AGI-2 被完全攻克”，最后的验证还有待官方对Poetiq方案在私有集上的测试结果。然而，无论如何，Poetiq 的工作已首次将AI在ARC-AGI-2上的水平提升到接近普通人类，这是一个里程碑式的进步[51]。该团队亦在持续跟进，如果官方评测公布，他们将更新报告实际泛化表现[37]。

总体来说，Poetiq.ai 的方案在准确率和效率两个维度上均远超此前SOTA，重绘了ARC-AGI的性能-成本前沿[54][45]。他们通过不同模型组合实现了一系列帕累托最优解：比如在极低成本（<$0.01/题）区间，Poetiq (Grok-4-Fast) 以不到1美分的代价取得 ~10% 准确率，甚至略高于直接使用该底层模型单独推理的表现[43]；在中等成本区间，Poetiq (Gemini-3-a/b/c) 通过多次调用较新的 Gemini 3 模型，逐步将准确率从30%提高到接近55%[12]；在高精度要求下，Poetiq (Mix) 混合使用 Gemini 3 和 GPT-5.1，最终达到了约66%的顶尖成绩，同时仍保持比同等准确率的其它方案成本更低[11][44]。这些结果充分证明了Poetiq元系统的可扩展性和高效性：无论底层模型是开源还是闭源、小模型还是大模型，经过其优化调度后都能发挥更高效的解题能力[6]。

开源与产品化进展

Poetiq.ai 非常注重科研开放与社区合作。他们在取得成果的同时，第一时间将核心代码开源，供他人复现和学习[55][56]。其GitHub仓库（poetiq-arc-agi-solver）已公开了实现ARC-AGI-1和2解题代理的代码、配置和使用说明[57][58]。用户只需提供所需的大模型API密钥（如Gemini或OpenAI等），即可运行Poetiq的配置来验证ARC任务的解答过程[59][60]。值得一提的是，Poetiq 开源版本中还包含了基于开源模型 GPT-OSS-120B的低成本方案（准确率可达约40%）[61][56]，即使科研资源有限的个人也能在Colab等环境下试验ARC任务求解[56]。有开发者利用低精度微调(QLoRA)将120亿参数模型压缩到16GB显存，在免费GPU上跑出了ARC-AGI-1超过42%的成绩[56]。这表明Poetiq的框架可平民化复现，将原先只有大公司才能问鼎的挑战带入普通研究者的手中。

在产品化和应用方向上，Poetiq.ai 虽然尚未明确推出商业产品，但其技术潜力引人注目。作为一家由前DeepMind工程师创立的初创公司（核心团队仅6~12人）[62][42]，Poetiq 专注于解决 AI 推理和知识提取中的基础问题，旨在提升 AI 在有噪声和不确定性环境下的决策能力[62]。他们的元系统思想可以看作一种通用的AI“大脑”增强层，未来有望应用于各种需要复杂推理的场景：例如机器人规划、自动代码生成与调试、更高级的对话助理、复杂问题求解等。Poetiq 官方表示，ARC-AGI 只是一个起点，他们已经将该系统应用到其他多个基准上，也取得了同样令人信服的效果[41]。这意味着他们的方法具有一定的普适性，能够适应不同领域的挑战。随着技术成熟，Poetiq 很可能会将其元系统封装成通用推理服务或平台，供业界集成到实际应用中，从而提升现有AI系统在复杂推理任务中的可靠性和效率。

目前，Poetiq.ai 正在积极与社区交流，他们欢迎研究人员提出问题、讨论未来方向，并在官网和社交媒体上分享了这些突破[62][63]。他们的工作不仅向业界证明了通过巧妙的系统设计而非纯粹堆砌模型规模，也能达成人工智能的新高度，还为推进通用人工智能（AGI）迈出了一小步。随着代码开源和思想传播，越来越多开发者参与进来，我们有理由期待 Poetiq 的方法在更多领域开花结果，催生新一代高效推理 AI 应用。正如 Chollet 在看到这些进展后所说：“这或许不是人类习惯理解的‘推理’，但只要能抓住老鼠就是好猫”[64]——无论通过何种巧妙手段，Poetiq.ai 用实绩证明了AI能够在抽象推理方面快速逼近人类水平，为AGI的实现带来了新的希望。

参考文献：

1. Poetiq.ai 官方博客: Traversing the Frontier of Superintelligence[1][6]

2. Reddit 讨论: ARC-AGI 2 is Solved[65]（引自 Poetiq.ai 文档摘录）

3. GitHub - poetiq-ai/poetiq-arc-agi-solver: SOTA Reasoning on ARC-AGI[57][66]

4. 极道网文: ARC神话崩塌：考试评分系统都被AI刷题生们玩坏了[47][9]

5. Eric Pang Substack: [ARC-AGI-2 SoTA] Efficient Evolutionary Program Synthesis[53][52]

6. ARC Prize 官方指南[19][36]

[1] [5] [6] [7] [8] [10] [11] [12] [13] [15] [16] [18] [21] [28] [37] [38] [41] [43] [44] [45] [51] [54] [55] [62] Poetiq | Traversing the Frontier of Superintelligence

https://poetiq.ai/posts/arcagi_announcement/

[2] [4] [9] [14] [17] [22] [23] [24] [27] [29] [39] [42] [46] [47] [49] [50] [56] [61] [64] ARC神话崩塌：考试评分系统都被AI刷题生们玩坏了 - 极道

https://www.jdon.com/83281-ARC-AGI-Benchmark-Shattered.html

[3] [25] [26] [33] [34] [48] [52] [53] GitHub - epang080516/arc_agi: SoTA Approach for ARC-AGI 2

https://github.com/epang080516/arc_agi

[19] [20] [30] [31] [32] [35] [36] ARC Prize - Guide

https://arcprize.org/guide

[40] ARC Prize - Leaderboard

https://arcprize.org/leaderboard

[57] [58] [59] [60] [63] [66] GitHub - poetiq-ai/poetiq-arc-agi-solver: This repository allows reproduction of Poetiq's record-breaking submission to the ARC-AGI-1 and ARC-AGI-2 benchmarks.

https://github.com/poetiq-ai/poetiq-arc-agi-solver

[65] ARC-AGI 2 is Solved : r/singularity

https://www.reddit.com/r/singularity/comments/1p8c6gy/arcagi_2_is_solved/

cv43982073

分享至

投诉或建议