칭화대학교(Tsinghua University) 등 공동 연구팀이 텍스트 프롬프트만으로 이미지 내 객체 수를 세는 AI 모델 ‘카운트 애니씽(Count Anything)’을 공개했다. 군중 속 인원, 위성 사진 속 차량, 의료 영상 속 세포, 배양 접시 속 균 집락 등 서로 이질적인 시각 도메인을 단일 모델로 처리하는 것이 핵심이다.
카운트 애니씽은 두 가지 탐지 방식을 병렬로 운용한 뒤 결과를 통합한다. 하나는 크고 선명한 객체에 바운딩 박스를 그리는 방식이고, 다른 하나는 밀집된 소형 객체 위에 점을 찍는 방식이다. 두 예측이 동일 대상을 가리킬 경우 신뢰도가 높은 쪽만 채택해 중복 집계를 막는다. 모델은 메타(Meta)의 사전학습 모델인 SAM3를 기반으로 하며, 전체 파라미터를 재학습하지 않고 소형 어댑터 모듈만 추가해 계산 효율을 높였다.
연구팀은 이 모델을 훈련하기 위해 기존에 목적별로 분산돼 있던 공개 데이터셋을 통합·정제해 CLOC라는 새 데이터셋을 구축했다. CLOC는 일상 사진, 위성·드론 영상, 의료 조직 샘플, 현미경 세포 이미지, 밀이삭 등 농업 이미지, 세균 배양 사진 등 여섯 개 도메인에 걸쳐 약 22만 장 이미지와 619개 범주, 1500만 개 레이블 객체를 포함한다고 연구팀은 밝혔다. 연구팀은 이를 현재까지 가장 큰 텍스트 유도 계수(text-guided counting) 데이터셋으로 소개했다.
팀이 자체 진행한 비교 실험에서 카운트 애니씽은 CountGD, CLIP-Count, Grounding DINO 등 경쟁 모델을 앞섰다. 카운트 애니씽은 이미지당 쿼리 범주 기준 평균 오차가 약 9개인 반면, 최상위 경쟁 모델의 오차는 그 두 배를 웃돌았다. 다만 군중 전용 계수에서는 특화 모델에 비해 소폭 뒤처진다고 연구팀은 인정했다. 객체 개념이 모호하거나 극도로 밀집된 장면에서 예측이 중복되는 한계도 여전히 남아 있으며, 카운트 애니씽의 코드는 깃허브(GitHub)에 공개됐다. 한편 AI의 시각 기초 역량을 검증하는 베이비비전(BabyVision) 벤치마크에서 구글의 제미나이(Gemini) 3 프로를 포함한 최상위 모델들도 만 3세 어린이 평균에 못 미치는 점수를 기록하는 등, 객체 수 세기와 같은 기초 시각 과제가 AI에게 여전히 난제임을 보여주는 결과가 잇따르고 있다.














