要填补这些能力差距,需要全新的看法和思。更主要的是激励研究人员摸索新思。
很多之前一眼就的问题,正在ARC-AGI-2中,至多需要几分钟的深图远虑——人类测试者平均需要5分钟才能解题。
相较之下,2024年ARC Prize冠军模子(53。5%)却正在新版本测验中,成就仅剩3。5%。
初代ARC-AGI(2019年),曾正在客岁了AI严沉改变,LLM从「纯回忆」向「测试时推理」的进化。
带*的分数,是按照目前收集到的部门成果,还有o1-pro的订价估算出来的。完整成果一出来。
打个例如,锻炼集就像是教你认识小学算术符号,你不克不及靠死记硬背得出谜底,必需把学问矫捷使用到新问题上。
ARC-AGI包含一个锻炼数据集和多个评估集,锻炼集的感化是让模子进修处理评估集中使命所需的焦点学问。
上一篇:你绝对不晓得的AI教育全解析:海盐培训冷艳