어제부터 올라오는 이 그래프
기존 벤치마크의 한계를 극복하고자 제작된 테스트임
일반적인 상황에서 얼마나 잘 굴러가나를 보는거
사람기준으론 직관적이고 쉬운 문제들이지만
Ai 입장에선 풀기어려움
그림을 보고 색별로 정렬하라
이런 느낌
저 테스트는 arc agi-1 버전으로
엄청 쉬운문제들로 구성된 테스트고
인간점수는 85점
o3는 저기서 87점을 맞았음
근데 이 결과를 바탕으로 agi 도달했다는건
좀 무리가 있다고 사람들이 언급중
저 테스트만 통과했다고 agi가 되는건 아니고
다른 일반적인 상황에서도 인간수준으로 수행해야되는데
o3는 아직도 엄청 쉬운문제를 틀리기도 한다고 함
그리고
arc agi-2 버전은
인간은 95점
이전 발생한 o3의 매우 쉬운 실수들로 추측해봤을때
o3는 30점으로 추정된다고 함
결국
미친듯이 발전한건 100% 맞고
agi시작점까지 도달한정도라 보지만
아직 완전히 agi 가 된 것은 아니라는 의미
근데 개인적으로 2년내로 도달하긴 할꺼같음
ㅇㅎ