AI 모델을 학습이 완료된 고정 결과물로만 분석하는 연구 관행을 근본적으로 재고해야 한다는 주장이 나왔다. Stella Biderman, Mohammad Aflah Khan, Niloofar Mireshghallah 등 6인의 연구자들이 arXiv에 공개한 포지션 페이퍼는, 모델이 데이터·목적함수·아키텍처·최적화 동역학에 의해 형성되는 시간적 과정의 산물임에도 불구하고 AI 연구 대부분이 학습 이후의 행동만을 사후 분석한다는 문제를 지적했다. 저자들은 이를 “사후 후처리(fix it in post)” 패러다임이라 부르며 탈피를 촉구했다.
논문은 진정한 AI 과학이 갖춰야 할 조건으로 세 가지 수준의 이해를 제시한다. 첫째, 초기 학습 신호로부터 최종 결과를 예측하는 능력이다. 둘째, 학습 궤적이 잘못된 방향으로 흐를 때 개입·교정할 수 있는 능력이다. 셋째, 원하는 속성을 더 안정적으로 만들어내는 학습 절차 자체를 설계하는 능력이다. 스케일링 법칙(scaling laws)이 손실 예측을 일상적인 수준으로 만들었듯, 이와 같은 성공을 역량·편향·견고성·안전 관련 행동으로 확장해야 한다는 것이 핵심 주장이다.
저자들은 과학사와 과학철학에 기반한 이론 요건을 제시하면서, 현재 진행 중인 메커니즘 해석가능성, 공정성, 기억화(memorization), 단순성 편향 연구들이 이 방향으로 나아가고 있는 사례임을 짚었다. 동시에 아직 해결되지 않은 구체적 미해결 문제들도 명시했다. 특히 안전 관련 행동이 학습 과정에서 어떻게 형성되는지에 대한 메커니즘 규명은 현재 가장 시급한 과제 중 하나로 꼽혔다.
이 페이퍼는 AI 연구 방법론 자체에 대한 메타 비판이라는 점에서 주목받는다. 대형 언어 모델(LLM)의 능력과 한계를 설명하는 데 있어서 학습 이후 프로빙에만 의존해온 관행에 정면으로 문제를 제기하기 때문이다. AI 안전성과 신뢰성이 산업계의 핵심 과제로 부상한 지금, 왜 특정 행동이 나타나는지를 학습 과정에서 예측·통제하는 능력을 키우는 방향으로 연구 패러다임이 전환될 필요가 있다는 논지는 국내 AI 연구 커뮤니티에도 시사점을 던진다.














