그래프 기반 추상 추론 능력 종합 평가하는 GraphARC 벤치마크

AI 시스템의 그래프 기반 추상 추론(graph-based abstract reasoning) 능력을 종합적으로 평가하기 위한 벤치마크 GraphARC가 arXiv에 발표됐다. 추상 추론은 구체적인 사례 없이 패턴과 규칙을 파악하는 능력으로, 인간 지능의 핵심 구성 요소 중 하나다. 기존 추상 추론 벤치마크가 주로 2차원 시각 패턴을 중심으로 구성된 것과 달리, GraphARC는 노드와 엣지로 구성된 그래프 구조에서의 패턴 인식, 유추, 규칙 일반화 등을 평가 대상으로 삼는다. 이는 지식 그래프, 분자 구조, 사회 네트워크 등 그래프 표현이 자연스러운 실세계 문제와 직접적으로 연결된다.

GraphARC는 추상화·추론 코퍼스(ARC, Abstraction and Reasoning Corpus)의 소수 예제(few-shot) 변환 학습 패러다임을 그래프로 일반화한다. 각 과제는 몇 쌍의 입력-출력 예시에서 변환 규칙을 추론해 새로운 시험 그래프에 적용하는 방식으로, 국소(local)·전역(global)·계층적(hierarchical) 그래프 변환을 두루 다룬다. 격자 기반 ARC와 달리 다양한 그래프 계열과 크기로 대규모 생성이 가능해 일반화 능력을 체계적으로 평가할 수 있다. 연구팀이 최신 언어 모델(LLM)을 GraphARC로 평가한 결과, 모델은 그래프 속성에 관한 질문에는 답하지만 전체 그래프 변환 과제는 자주 풀지 못하는 ‘이해-실행 격차(comprehension-execution gap)’를 드러냈고, 인스턴스 규모가 커질수록 성능이 더 떨어지는 확장 장벽도 확인됐다.

Abstract design showcasing computing fields with geometric and binary patterns in black and white. — 사진: Google DeepMind / Pexels

Abstract image representing the concept of a multimodal model version 2. — 사진: Google DeepMind / Pexels

이 연구는 그래프 AI 분야에서 평가 기준의 다양화가 필요하다는 인식을 바탕으로 한다. 분자 설계, 신약 발견, 소셜 네트워크 분석, 사이버 보안 침입 탐지 등 그래프 구조를 다루는 AI 응용이 빠르게 성장하는 가운데, 이 모델들이 진정한 구조적 추론 능력을 갖추는지 평가하는 표준 도구가 필요하다. GraphARC는 이 분야 모델 개발에 방향을 제시하는 기준점이 될 수 있다. 다만 벤치마크 과제의 설계가 특정 그래프 유형에 집중될 경우 실세계 다양성을 충분히 대표하지 못할 수 있다는 한계가 있다.

국내 그래프 AI 연구자와 바이오·화학 인포매틱스 분야 연구팀은 GraphARC를 자신들의 모델 역량을 진단하는 도구로 활용할 수 있다. 신약 후보 물질 탐색, 화학 반응 예측, 단백질 상호작용 네트워크 분석 등에서 그래프 AI의 추상 추론 능력이 중요한 만큼, GraphARC가 제시하는 과제 유형을 참고해 더 견고한 모델을 개발하는 방향으로 연구를 진행할 수 있다. 특히 국내 제약·바이오 기업들의 AI 기반 신약 개발 투자가 활발해지는 가운데, 그래프 추론 벤치마크에서의 성과가 실용적 가치로 이어지는 사례가 늘어날 것으로 기대된다.