연구팀이 대규모 언어 모델(LLM)이 생성하는 전문가 사전 지식(prior)을 다목적 베이즈 최적화에 활용할 때 발생하는 신뢰도 불균형 문제를 해결하는 방법론을 제안했다. LLM은 블랙박스 최적화에서 경험적 조언자로 점점 많이 활용되고 있지만, LLM의 제안과 자체 보고 신뢰도가 실제 목적 함수 값과 반드시 일치하지는 않는다. 여러 목적 함수를 동시에 다루는 경우 한 목적에는 유용하지만 다른 목적에는 오히려 오도하는 전문가가 존재할 수 있어 이 문제는 더욱 복잡해진다.
연구팀은 각 전문가-목적 쌍을 반증 가능한 사전 지식 소스로 취급하는 목적별 평판 시장(reputation-market) 메커니즘을 제안했다. 전문가 가중치는 관측된 목적 함수 피드백으로부터 온라인으로 갱신되고, 시간에 따라 할인되며, 시장 수준의 신뢰도에 의해 제어된다. 여기에 더해 LLM 사전 지식을 신뢰도 없이 사용하거나 신뢰도와 함께 사용하거나 완전히 배제하는 세 가지 선택지를 갖는 분리된 반사실적 게이트(counterfactual gate)를 도입했다.
분자 최적화 벤치마크 세 가지를 포함한 실험에서 목적별 동적 보정이 고정된 LLM 사전 지식 대비 견고성을 높이는 것으로 나타났다. 다만 LLM 신뢰도 자체가 항상 유익한 것은 아니었다. ESOL 벤치마크에서는 신뢰도가 예측 오류와 양의 상관관계를 보였고, FreeSolv에서는 도움이 됐으며, Lipophilicity에서는 신뢰도를 무시하는 것이 가장 강력했다. 이 연구는 LLM의 조언을 최적화 과정에 통합하되 목적 함수마다 독립적으로 검증하는 방식이 필요함을 구체적 실험으로 보여준다.












