연구자들이 대규모 언어 모델(LLM, Large Language Model) 에이전트의 추론 과정을 git 저장소 형태로 관리하는 시스템 GitOfThoughts를 제안했다. 2026년 6월 12일 arXiv에 제출된 이 논문은 체인 오브 소트(Chain-of-Thought) 추론이 컨텍스트 윈도우가 닫히면 사라지고 탐색 과정에서 가지치기된 경로는 기록이 남지 않는다는 문제를 지적했다. 코드·인프라·데이터·실험 등 복잡한 소프트웨어 작업에는 버전 관리가 당연히 적용되지만, 추론에는 그렇지 않다는 것이다.
GitOfThoughts는 에이전트의 추론 트리를 git 저장소로 저장한다. 점수가 부여된 각 사고(thought)는 커밋(commit)으로, 점수는 노트(notes)로, 결과는 태그(tags)로 기록된다. 추론 이력을 조회할 때는 “git log” 명령을 그대로 활용한다. 연구팀은 이 방식이 거의 추가 엔지니어링 비용 없이 추론을 재생 가능하고 감사 가능하며 에이전트 간 병합 가능하게 만든다고 설명했다. 그러나 논문의 핵심 발견은 메모리 자체의 효과에 관한 것이다. 연구팀은 메모리 없음·마크다운·벡터·그래프·git 등 5가지 메모리 기판(substrate), 2개 벤치마크, 2가지 모델 규모에서 사전 등록된 복제 실험을 진행했다.
그 결과, 새로운 문제에 대해서는 어떤 메모리 방식도 정확도를 안정적으로 향상시키지 못했다. 연구팀이 제시한 개념인 “복사 가능성 임계값(copyability threshold)”을 기준으로, 검색된 사례와 현재 문제의 유사도가 약 0.8을 넘는 근사 중복 상황에서만 정확도가 뚜렷이 개선됐다. 이 이득은 방법론 이전이 아닌 정답 검색에서 비롯된 것으로, 4.5배 큰 모델이 근사 중복 상황의 이득을 두 배로 높이면서도 풀어진 예시에서 이전 가능한 방법을 추출하지는 못했다. 연구팀은 범용 레버는 추론 시점 샘플링뿐이라고 결론지으며, git 기반의 장점은 정확도가 아닌 감사 가능성·출처 추적·병합 가능성에 있다고 밝혔다. 논문은 사전 등록 복제에서 기각된 가설과 철회된 결과를 명시적으로 기술해 평가 기준의 투명성을 강조했다.














