노션, 앤트로픽 모델 접속 장애 후 12시간 만에 복구

생산성 협업 도구 노션(Notion)이 앤트로픽(Anthropic) AI 모델 연동 장애를 겪은 뒤 약 12시간 만에 서비스를 복구했다. 노션은 일요일 이른 아침 공지를 통해 “앤트로픽의 클로드(Claude) 오퍼스(Opus) 4.7과 4.8 모델에서 성능 저하가 발생해 노션 AI에서 해당 모델을 선택한 사용자들의 오류율이 높아지고 있다”고 밝혔다. 이에 따라 노션은 자동화 생산성 도구에서 앤트로픽의 전체 모델 접근을 임시 차단하는 조치를 취했다.

장애 원인을 둘러싸고 소셜미디어에서는 모델 품질 문제라는 해석이 확산됐다. 노션의 관련 게시물이 X(구 트위터)에서 약 1,200회 이상 리포스트되자, 노션 프로덕트 책임자 맥스 쇼닝(Max Schoening)은 “모델 품질 논란을 만들려는 의도로 퍼뜨리는 것에 놀랐다”고 선을 그었다. 그는 “이번 성능 저하는 일시적 서비스 중단이었을 뿐이며, 이런 일은 노션뿐 아니라 깃허브(GitHub), AWS, 그 외 어떤 서비스에서도 발생할 수 있다”고 설명했다.

Network switch and blue ethernet cable with white tips connected to system for maintenance — 사진: Brett Sayles / Pexels

Hands on laptop in a creative workspace with 3D models and prototypes. — 사진: Thirdman / Pexels

앤트로픽은 “짧은 인프라 문제로 다수 클로드 모델에서 일정 시간 오류율이 높아졌으나 이미 해결됐다”는 공식 입장을 냈다. 이번 사건은 AI 기능을 핵심 워크플로에 통합한 SaaS 서비스들이 외부 AI 인프라에 대한 의존도가 높아질수록 단기 장애에 취약해진다는 점을 다시 한번 부각시켰다. 노션은 현재 앤트로픽 모델 접근을 전면 복구한 상태다.

최근 협업·문서 도구를 비롯한 다수의 SaaS 기업은 자체 거대언어모델(LLM)을 개발하는 대신 앤트로픽이나 오픈AI(OpenAI) 같은 외부 모델 제공사의 API를 끌어다 쓰는 구조를 택하고 있다. 개발 비용과 운영 부담을 줄일 수 있다는 장점이 분명하지만, 이번 사례처럼 모델 제공사 측 인프라에 일시적 문제가 생기면 그 영향이 곧바로 최종 사용자에게 전가된다는 약점도 함께 안고 있다. 한 곳의 모델에 장애가 발생했을 때 다른 모델로 즉시 전환할 수 있는 다중화 구조나, 장애 상황을 사용자에게 투명하게 알리는 대응 체계를 갖추는 일이 AI를 전면에 내세운 서비스들의 새로운 과제로 떠오르고 있다.