AI 인프라 스타트업 TinyFish가 자연어 한 문장으로 웹에서 구조화된 라이브 데이터셋을 생성하는 오픈소스 멀티에이전트 시스템 BigSet을 2026년 6월 공개했다. AGPL-3.0 라이선스로 제공되는 이 시스템은 사용자가 원하는 데이터를 문장으로 입력하면 스키마 추론부터 데이터 수집·중복 제거·내보내기까지 전 과정을 자동으로 처리한다.
BigSet은 2단계 에이전트 구조로 작동한다. 첫 번째 단계에서는 Claude Sonnet(OpenRouter를 통해 호출)이 입력 문장을 분석해 열 이름·데이터 유형·기본 키를 포함한 스키마를 추론한다. 이 단계에서는 웹 접근이 전혀 없다. 두 번째 단계에서는 Qwen 기반 오케스트레이터 에이전트가 TinyFish Search로 관련 엔티티를 탐색한 뒤, 엔티티별로 서브에이전트를 병렬로 배분한다. 각 서브에이전트는 한 행(row)을 담당하며 도구 호출 횟수가 최대 6회로 제한된다. 처리 완료 후에는 CSV 또는 XLSX 형태로 내보낼 수 있고, 30분·6시간·일별·주별 등 예약 갱신 기능도 제공한다.


BigSet은 프롬프트 인젝션 위협에 대한 대응도 설계에 반영했다. 서브에이전트가 허가된 데이터셋에만 행을 기록할 수 있도록 데이터셋 ID를 자바스크립트 클로저에 캡처해 LLM이 직접 접근할 수 없게 처리했다. 기술 스택은 Next.js 16, Fastify, Convex(자체 호스팅), Mastra 워크플로 등을 사용하며, Docker로 자체 호스팅이 가능하고 TinyFish API 키·OpenRouter API 키·Clerk 인증 키 세 가지가 필요하다. 기존 Firecrawl이나 Apify가 URL이나 스크레이퍼 설정을 요구하는 것과 달리, BigSet은 데이터 요건 기술만으로 전 과정을 처리한다는 점에서 차별화된다.
스키마 추론에 LLM을 활용하고 에이전트 병렬 처리로 대규모 데이터 수집을 자동화하는 접근은 기업 데이터 파이프라인 구축 비용과 시간을 줄일 수 있는 방향으로 주목받고 있다. TinyFish는 로드맵에 SQL 쿼리 지원과 에이전트 네이티브 API 추가를 예고했다.














