앤트로픽이 차세대 대규모 언어 모델(LLM) 클로드 오퍼스 4.8을 공개하며 이번에는 성능 수치 대신 ‘정직성’을 전면에 내세웠다. 모델이 충분한 근거 없이 결론을 단정하거나, 진척이 없는 작업을 진척된 것처럼 자신 있게 보고하는 문제를 줄이는 데 초점을 맞췄다는 것이다. 회사는 모든 모델을 뒷받침할 수 없는 주장을 피하도록 정직하게 훈련한다는 원칙을 강조했다.
앤트로픽은 AI 모델의 고질적 문제로 충분치 않은 근거를 두고도 결론으로 비약하거나, 실제로는 진척이 없는데도 작업이 진행되는 것처럼 자신 있게 보고하는 경향을 꼽았다. 오퍼스 4.8은 바로 이 지점을 겨눴다. 회사 평가에 따르면 이 모델은 직전 모델 대비 자신이 작성한 코드의 결함을 지적 없이 통과시킬 가능성이 약 4분의 1 수준으로 낮아졌다. 초기 테스터들은 이 모델이 작업의 불확실성을 먼저 표시하고, 근거가 부족한 주장을 내놓을 가능성이 줄었다고 평가했다. 단순히 정답률을 높이는 대신, 모델이 모르는 것을 모른다고 밝히도록 만드는 데 무게를 둔 셈이다. 코딩 작업에서 모델이 결함을 스스로 알아채고 보고하는 능력은, 사람이 결과물을 일일이 재검증하는 비용을 줄이는 신뢰성 지표로 직결된다.

이번 모델에는 사용자가 작업에 들이는 노력의 양을 직접 조절하는 기능도 추가됐다. 노력 수준을 높이면 더 많은 토큰을 사용해 정교한 응답을 내놓지만, 사용량 한도를 빠르게 소진하고 싶지 않은 경우 낮은 노력 수준으로 응답을 받을 수 있다. 작업 난이도와 비용을 사용자가 저울질하도록 선택지를 넓힌 것이다. 동시에 회사는 ‘다이내믹 워크플로’라는 기능을 리서치 프리뷰로 함께 선보였다.
다이내믹 워크플로에서 클로드는 작업을 스스로 설계한 뒤 한 세션 안에서 수백 개의 병렬 하위 에이전트를 실행하고, 결과를 검증한 다음 사용자에게 보고한다. 오퍼스 4.8에서는 이 에이전트들이 더 오래 작동할 수 있어 한층 큰 규모의 작업을 맡길 수 있다고 회사는 설명했다. AI가 단순히 답을 빨리 내놓는 단계를 넘어, 스스로의 오류를 인정하고 점검하는 신뢰성 경쟁으로 무게중심이 옮겨가고 있음을 보여주는 대목이다. 환각과 과신 문제로 도입을 망설여온 국내 기업·개발자에게도 모델 신뢰성의 기준이 어떻게 진화하는지 가늠할 단서가 된다.


