LLM에서 ASP 규칙을 추출해 시각 질의응답을 강화하는 방법론 제안

LLM(대규모 언어 모델)에서 답집합 프로그래밍(ASP, Answer-Set Programming) 규칙을 추출해 시각 질의응답(VQA, Visual Question Answering) 추론 체계를 확장하는 방법론이 공개됐다. 연구팀은 VQA가 멀티모달 입력과 추론을 통합해야 하는 과제로, 논리 기반 표현을 추론 구성 요소에 통합한 모듈형 접근이 해석 가능성 측면에서 종단간(end-to-end) 학습 시스템보다 우월하다는 점을 강조했다. 그러나 과제 요구 사항이 변경될 때마다 이 표현을 수작업으로 조정하는 부담이 크다는 한계를 지적했다.

제안된 방법론은 LLM에게 ASP 프로그램 형태로 표현된 초기 VQA 추론 이론을 새로운 과제 요건에 맞게 확장하도록 유도하는 프롬프팅 방식을 사용한다. VQA 데이터셋의 예시들이 LLM을 안내하고 결과를 검증하며, ASP 솔버의 피드백을 활용해 잘못된 규칙을 수정하는 반복 과정을 거친다. 실험 결과 다양한 VQA 데이터셋에 걸쳐 접근법의 유효성이 확인됐으며, 특히 소수의 예시만으로도 LLM에서 올바른 규칙을 이끌어낼 수 있음이 확인됐다. 연구팀은 LLM에서의 규칙 증류(rule distillation)가 전통적인 데이터 기반 규칙 학습의 유망한 대안이 될 수 있다고 결론지었다.

a computer generated image of the letter a — 사진: Steve A Johnson / Unsplash

이 연구는 논리 프로그래밍 이론과 실천(TPLP)에 게재 고려 중이다. 뉴로심볼릭 AI는 신경망의 패턴 인식 능력과 기호 논리의 추론 능력을 결합해 해석 가능성과 신뢰성을 높이는 방향으로 주목받고 있다. 기존의 순수 데이터 기반 VQA 모델이 왜 특정 답을 냈는지 설명하기 어렵다는 문제를 극복하는 접근으로서, 의료 영상 분석이나 교육 콘텐츠 이해 등 해석 가능성이 중요한 분야에 적용 가능성이 있다.

LLM이 단순한 텍스트 생성 도구를 넘어 논리 규칙 합성에도 활용될 수 있음을 보여준다는 점에서 이 연구는 의미가 있다. 자동화된 규칙 추출이 가능해지면 VQA 시스템을 새로운 도메인이나 요구 사항에 빠르게 적응시키는 데 드는 개발 비용을 줄일 수 있을 것으로 기대된다.