카프카, 계층 스토리지 거쳐 '디스크리스' 클라우드 네이티브로 진화한다

카프카, 계층 스토리지 거쳐 ‘디스크리스’ 클라우드 네이티브로 진화한다

분산 이벤트 스트리밍 플랫폼 아파치 카프카(Apache Kafka)가 클라우드 환경의 비용 부담에 대응하며 디스크에 묶인 시스템에서 고도로 분리된 아키텍처로 변모하고 있다. 카프카는 오랫동안 베어메탈 배치에 최적화된 ‘무공유(shared-nothing)’ 설계에 의존해, 로컬 디스크에 순차 로그를 기록하고 운영체제 페이지 캐시에서 읽어 한 자릿수 밀리초 지연을 달성해 왔다. 그러나 이 하드웨어 기반 구조를 그대로 클라우드로 옮기면 가용영역(AZ) 간 3중 복제에 따른 막대한 네트워크 송신 요금과 프리미엄 블록 스토리지 비용이라는 가혹한 현실에 부딪힌다.

해법의 첫 단계는 계층 스토리지다. 카프카 개선 제안(KIP) 405는 데이터 보존을 지연에 최적화된 로컬 블록 스토리지 계층과 용량에 최적화된 원격 객체 스토리지 계층으로 나눈다. 오래된 로그 세그먼트는 비동기로 아마존 S3 같은 객체 스토리지로 옮겨진다. 효과는 크다. 브로커당 50테라바이트의 감사 로그를 EBS gp3에 3중 복제로 보관하면 월 약 1만2288달러가 들지만, 식은 데이터를 S3 스탠더드로 내리면 월 약 1178달러로 약 90% 절감된다. 다만 객체 스토리지는 저장 용량뿐 아니라 API 호출 건수에도 과금하기 때문에, 수년치 이력을 잘못 설정된 컨슈머가 끌어오면 초당 수천 건의 GET 요청이 발생해 청구액이 폭등하는 ‘요청 증폭’ 위험이 있다.

High-tech server rack in a secure data center with network cables and hardware components. — 사진: Sergei Starostin / Pexels

비용 구조가 바뀌면서 누가 얼마를 쓰는지 추적하는 클라이언트 단위 가시성도 필수가 됐다. 단 한 번의 재처리 작업이 출처를 알기 어려운 청구 급등을 일으킬 수 있기 때문이다. 컴퓨팅 측면에서는 차세대 컨슈머 리밸런싱 프로토콜(KIP-848)이 그룹 전체의 처리 중단을 크게 줄여, 쿠버네티스 기반 자동 확장을 한층 실용적으로 만들었다. 멀티테넌시 문제도 가상 클러스터(KIP-1134)가 별도 인프라 없이 엄격한 격리를 제공하는 방안을 제시했고, 셰어 그룹(Share Groups, KIP-932)은 파티션 수에 묶여 있던 컨슈머 병렬성을 분리해 토픽 재분할 없이 컨슈머를 독립적으로 확장하도록 했다.

다음 단계로 거론되는 것이 ‘디스크리스(diskless)’ 구조다. 디스크리스 토픽 파티션(KIP-1150), 원격 전용 토픽을 통한 디스크리스 브로커(KIP-1176), 디스크리스 복제(KIP-1183) 등 여러 제안이 스트리밍의 비용 구조를 다시 정의하겠다고 나섰다. 다만 설계가 경쟁적으로 갈려 있어 커뮤니티가 아직 단일 방향으로 수렴하지는 못했다. 지연이 매우 민감하거나 데이터 무결성이 중요한 워크로드에는 계층 스토리지와 비용 거버넌스를 결합한 방식이 여전히 검증된 운영 경로로 꼽힌다. 데이터 인프라 운영이 클라우드 단가와 직결되는 시대에, 워크로드를 알맞은 스토리지·컴퓨팅 방식에 정확히 매핑하고 각 제안의 성숙도를 따져 도입하는 안목이 한국 데이터 엔지니어에게도 점점 중요해질 전망이다.