퍼플렉시티 Brain, AI 에이전트 '자가 학습 메모리' 공개…정확도 25% 향상

퍼플렉시티(Perplexity)가 자사 에이전트 제품 ‘Computer’에 탑재되는 자가 개선 메모리 시스템 ‘Brain’을 2026년 6월 18일 출시했다. Brain은 에이전트가 수행한 작업의 문맥 그래프를 구축하고, 일정 주기마다 그 그래프를 검토해 스스로 성능을 개선하는 구조다. 퍼플렉시티는 초기 내부 측정 결과로 반복 작업 정확도 25% 향상, 히스토리 맥락이 필요한 작업 비용 13% 절감, 재현율(Recall) 16% 개선을 제시했다. 현재 퍼플렉시티 Max 및 엔터프라이즈 Max 구독자를 대상으로 리서치 프리뷰로 배포 중이다.

Brain의 핵심은 사용자가 아니라 에이전트의 작업을 기억하는 데 있다. 기존 AI 메모리 시스템 대부분이 사용자의 선호·성향을 저장해 체감 참여도를 높이는 방향으로 설계됐다면, Brain은 에이전트가 무엇을 했는지, 어떤 방법이 효과적이었는지, 어떤 오류가 발생해 수정이 이뤄졌는지를 추적한다. 기술 구조 면에서 Brain은 LLM(대규모 언어 모델) 위키 형태의 문맥 레이어를 구성한다. 이 위키는 에이전트 샌드박스에 자동으로 로드되며, 사용자 세계에 등장하는 아이디어·인물·프로젝트·관련 요소들을 페이지 단위로 담는다. 업데이트는 주로 야간에 이뤄지며, 사용자 세션·커넥터 결과·소스 문서 변경 사항·사용자가 한 수정 내역을 종합해 위키를 갱신한다. 모든 메모리 항목은 어떤 세션·파일·소스에서 왔는지 역추적할 수 있도록 연결돼 있어 디버깅과 신뢰성 확보에 유리하다. 에이전트는 이 개인화된 정보망을 순회하며 작업에 필요한 맥락을 확보하고, 사용이 반복될수록 어떤 소스가 신뢰할 만하고 어떤 경로가 막혀 있는지를 점차 파악한다.

Brain의 등장은 AI 에이전트 경쟁 구도에서 새로운 변별 포인트를 제시한다. 오픈AI(OpenAI)의 GPT 기반 에이전트, 앤트로픽(Anthropic)의 클로드(Claude) 컴퓨터 유즈 기능, 구글(Google)의 제미나이(Gemini) 에이전트 등 주요 플레이어들은 모두 에이전트의 지속적 개선보다 단일 작업 성능과 멀티모달 역량을 전면에 내세우는 경향이 있었다. 퍼플렉시티는 반복 사용 경험이 축적될수록 에이전트가 더 잘하게 만드는 ‘시간 축의 개선’을 차별화 전략으로 택한 셈이다. 이는 검색 엔진 시장에서 퍼플렉시티가 보여온 ‘결과의 질을 높이는 방향’과 일관된 전략이기도 하다. 에이전트 시장의 구조적 특성도 Brain의 의미를 이해하는 데 중요한 배경이 된다. 현재 AI 에이전트 시장은 단일 태스크 성능 경쟁이 중심이지만, 실제 기업 업무는 장기간 반복되는 작업으로 구성된다. 매주 같은 보고서를 생성하고, 같은 데이터 파이프라인을 점검하며, 같은 유형의 오류를 디버깅하는 상황에서 ‘이번 경험이 다음 작업을 어떻게 개선하는가’가 실용적 가치의 핵심이 된다는 점에서 의미가 있다.

다만 Brain이 제시한 수치를 그대로 받아들이기 전에 몇 가지 맥락을 짚어야 한다. 정확도 25% 향상, 비용 13% 절감은 모두 퍼플렉시티 자체 측정값이며, 독립적인 제3자 벤치마크는 아직 존재하지 않는다. 야간 업데이트 방식은 개선이 실시간이 아니라 다음 날 작업부터 반영된다는 의미이기도 하다. 작업 히스토리를 문맥 그래프로 장기 보존하는 구조는 개인정보와 데이터 거버넌스 측면에서 추가적인 검토가 필요하다. 특히 기업 환경에서 AI 에이전트가 내부 문서, 고객 데이터, 코드 저장소 접근 내역을 누적 학습하는 방식은 정보 보안 정책과 충돌할 가능성도 있다. Brain이 제기하는 더 근본적인 질문은 AI 메모리의 목적이 무엇인가이다. 사용자를 더 잘 이해해서 체감 만족도를 높이는 것이 메모리의 역할이라면, 기존 대부분의 시스템이 충분히 그 방향으로 발전해 왔다. 반면 에이전트가 작업 자체를 더 잘하게 만드는 것이 메모리의 역할이라면, 성능 지표가 시간에 따라 변한다는 것을 의미하고 기존 정적 벤치마크 평가 방식의 한계를 드러낸다.

자가 개선 메모리라는 개념은 기술적으로 매력적이지만, 동시에 ‘오류의 누적’이라는 양날의 위험을 안고 있다는 점도 주목할 대목이다. 에이전트가 스스로 학습한 패턴이 옳다면 시간이 지날수록 성능이 좋아지지만, 잘못된 가정이나 편향이 문맥 그래프에 한번 자리 잡으면 그 오류가 후속 작업에 반복적으로 전파될 소지가 있다. 사람이 일일이 검토하지 않는 자동화 워크플로에서는 이런 누적 오류가 오랫동안 드러나지 않을 위험이 크다. 퍼플렉시티가 모든 메모리 항목의 출처를 역추적할 수 있도록 설계한 것은 이러한 위험을 의식한 장치로 풀이되지만, 자가 개선 시스템이 잘못된 학습을 스스로 교정할 수 있는지는 별개의 검증 과제로 남는다. 결국 ‘스스로 나아진다’는 약속이 ‘스스로 굳어진다’는 함정으로 변질되지 않게 하는 안전장치가 신뢰의 관건이 된다.

경쟁 관점에서 Brain은 메모리를 에이전트 차별화의 핵심 자산으로 끌어올렸다는 점에서 후발 주자들에게 압박으로 작용할 수 있다. 단일 작업 성능은 모델 성능이 평준화될수록 변별력이 떨어지지만, 사용 이력이 쌓인 메모리는 다른 서비스로 그대로 옮기기 어려운 고착 효과를 만든다. 사용자가 특정 에이전트를 오래 쓸수록 그 에이전트만이 보유한 맥락이 두꺼워지고, 경쟁 서비스로 갈아타면 그동안 축적된 학습이 초기화되는 구조이기 때문이다. 이는 에이전트 시장의 경쟁이 일회성 성능 비교에서 장기적 락인 경쟁으로 옮겨갈 수 있음을 시사한다. 다만 이러한 고착이 사용자에게 이점인지 종속인지는 데이터 이동성과 메모리 내보내기 정책이 얼마나 개방적이냐에 달려 있다는 점에서 신중히 따져볼 필요가 있다.

한국 시장에서 Brain의 의미를 짚어보면, 엔터프라이즈 중심의 AI 에이전트 도입이 본격화되는 흐름과 맞닿아 있다. 반복 업무 자동화에 AI 에이전트를 활용하려는 국내 기업들이 늘어나는 가운데, 단순히 ‘무엇을 할 수 있는가’를 넘어 ‘반복 사용할수록 얼마나 더 잘하게 되는가’가 도입 기준으로 부상할 가능성이 높다. 주간 파이프라인 점검, 고객 지원 자동화, 코드 디버깅 등 반복 작업이 많은 IT·금융·제조 분야에서 Brain과 유사한 자가 개선 메모리 구조는 충분한 검토 대상이 된다. Brain이 ‘사용할수록 나아지는 에이전트’를 독립 검증에서도 실증할 수 있다면, AI 에이전트 시장의 경쟁 기준 자체가 정적 성능 평가에서 동적 학습 능력 평가로 이동하는 계기가 될 수 있다. 그 방향에서 Brain은 작지만 의미 있는 첫 걸음으로 판단된다.

장기적으로 자가 개선 메모리가 보편화되면 AI 에이전트의 가치 평가 방식 자체가 바뀔 가능성이 있다. 지금까지 모델 경쟁은 출시 시점의 벤치마크 점수라는 정지된 한 장면으로 우열이 가려졌다. 그러나 시간이 지날수록 성능이 변하는 에이전트가 표준이 되면, 평가의 초점은 ‘처음에 얼마나 똑똑한가’에서 ‘얼마나 빨리, 얼마나 안정적으로 나아지는가’라는 궤적으로 옮겨간다. 이는 구매 기업의 도입 의사결정에도 영향을 미쳐, 단발성 시연 결과보다 일정 기간의 실사용 학습 곡선을 검증한 뒤 채택을 결정하는 흐름을 부추길 수 있다. 동시에 평가 기관과 벤치마크 설계자에게는 시간 축을 반영한 새로운 측정 방법론을 요구한다는 점에서, Brain의 등장은 제품 하나를 넘어 업계의 평가 패러다임에 던지는 물음으로도 읽힌다.