알리바바, 멀티모달 에이전트 모델 Qwen3.7-Plus 출시

알리바바(Alibaba)의 Qwen 팀이 이미지·영상 이해 기능과 에이전트 역량을 결합한 멀티모달 대규모 언어 모델 Qwen3.7-Plus를 알리바바 클라우드의 바이롄(Bailian) 플랫폼을 통해 출시했다. 바이롄은 국제 사용자에게 Model Studio라는 이름으로 제공되는 개발자 콘솔로, 외부 개발자를 위한 API 서비스를 제공한다. 이번 출시는 알리바바가 5월에 공개한 Qwen3.7 세대의 뒤를 잇는 제품이다.

Qwen3.7-Plus는 텍스트 전용 모델인 형제 모델 Qwen3.7-Max와 달리 멀티모달 입력을 지원한다. 이미지와 영상을 이해하는 기능이며 생성은 별도 모델 계열이 담당한다. 알리바바는 이 모델의 핵심 역량을 다섯 가지로 정리했다. 깊은 추론(deep reasoning), 자가 프로그래밍(self-programming, 코드를 스스로 작성·수정), 도구 호출(tool invocation, 외부 함수·API 호출), 검증 및 테스트(실행 후 결과 확인), 자율 반복(autonomous iteration, 작업 완료까지 루프 실행)이 그것이다. 에이전트 강화학습(Agentic RL) 메커니즘을 통해 실제 실행 피드백으로 모델 정확도를 지속적으로 개선하며, 자율 도구 운용 범위를 제한하는 안전 가드레일도 바이롄 플랫폼 차원에서 내장됐다.

Stylish woman in a white dress gazing thoughtfully through a window indoors. — 사진: YI REN / Pexels

비전 성능 측면에서 Qwen3.7-Plus의 프리뷰 버전은 LM 아레나가 운영하는 공개 리더보드인 Vision Arena에서 전체 16위를 기록했으며, 이는 알리바바를 비전 분야 5위 연구소로 올려놓는 수치다. 텍스트 전용 모델인 Qwen3.7-Max는 Artificial Analysis Intelligence Index에서 56.6점을 기록해 출시 당시 중국 모델 최고 점수를 달성했다. 다만 공개된 컨텍스트 윈도우 크기, 출력 토큰 한도, 가격표 등 상세 사양은 아직 발표되지 않았으며 가중치도 공개되지 않은 API 전용 모델이다.

이번 출시는 알리바바가 Qwen 모델군을 단순 질의응답 도구에서 장기 작업을 처리하는 에이전트 플랫폼으로 전환하려는 전략의 일환으로 풀이된다. 이미지·영상 분석, OCR(광학 문자 인식), 차트 해석, 코드 실행을 하나의 API로 처리할 수 있어, 복합 미디어 처리가 필요한 기업 워크로드의 통합 백엔드로 활용될 가능성이 있다. 리더보드 수치는 자체 데이터 검증 이전의 참고 지표임에 유의해야 한다.