Azure

Fabric 소개 (lakehouse 벤더 비교)

ravon 2025. 10. 31. 14:36

내부 교육 자료의 하나다. 

 

담당 프로그램어는 Fabric 를 2개 사용해서 리소스를 필요한 부분에만 해당 리소스를 사용하게 했다.

 

 

 

 

항목

                         Microsoft Fabric (Capacity Unit)                 Databricks (Computing)              Snowflake (Warehouse)

개념 통합된 컴퓨팅 파워의 공유 풀(Capacity Unit, CU) 기반의 통합형 분석 플랫폼 Apache Spark 기반의 컴퓨팅 클러스터로 데이터 처리 중심 쿼리 실행을 위한 MPP(대규모 병렬 처리) 컴퓨팅 클러스터 기반
아키텍처 통합형 아키텍처: 단일 용량(CU) 풀을 모든 워크로드가 공유함. 저장소(OneLake)와 컴퓨팅이 논리적으로 분리되어 있으나, 컴퓨팅 자원은 통합 관리됨. 작업별 클러스터 아키텍처: 목적별(All-Purpose, Job) 클러스터를 개별 생성해 사용. 저장소(Delta Lake)와 컴퓨팅이 분리되어 있음. 다중 클러스터 공유 데이터 아키텍처: 중앙 저장소에 여러 가상 웨어하우스가 동시에 접근. 저장소와 컴퓨팅이 명확히 분리되어 있음.
자원 관리 **Capacity Unit(CU)**을 사전 구매하여 자동 할당·관리됨. • 자동 스무딩(Smoothing) 및 버스팅(Bursting) 기능으로 작업 부하에 대응.• 관리자는 워크로드 전체에 대한 일괄 용량 제어 가능. 사용자가 직접 클러스터의 유형·크기·정책을 설정해야 함.• 자동 스케일링 설정 가능.• 작업 종료 시 클러스터 자동 종료(Job Cluster). 티셔츠 사이즈(X-Small, Small, Medium 등) 형태의 웨어하우스를 선택.• 필요 시 크기 조정 또는 다중 웨어하우스 병렬 실행으로 부하 대응.

 

 

  1. Fabric은 완전 통합형 구조
    • Databricks나 Snowflake는 컴퓨팅과 저장소를 명확히 분리하지만, Fabric은 하나의 Capacity Unit 풀을 모든 서비스가 공유합니다.
    • 즉, Data Engineering, Data Factory, Power BI, Data Science, Real-time Analytics가 동일한 리소스 풀에서 동작합니다.
  2. 자원 관리의 자동화 수준이 높음
    • Fabric의 CU는 자동 할당/자동 부하 조정(smoothing, bursting) 이 가능해 관리자가 세밀한 설정을 하지 않아도 됩니다.
    • 반면 Databricks는 클러스터 생성·크기 조정·정책을 직접 관리해야 하고, Snowflake는 미리 정의된 웨어하우스 크기를 선택해야 합니다.
  3. OneLake 통합 저장소
    • Fabric의 모든 워크로드는 OneLake을 기반으로 하며, 이는 데이터 이동 없이 바로 분석 가능한 구조입니다.
    • Databricks의 Delta Lake, Snowflake의 중앙 저장소와 달리 Fabric은 Power BI까지 자연스럽게 연계됩니다.

 

 

 

요약내용

Fabric의 핵심 강점 단일 Capacity Unit을 통한 통합 리소스 관리와 OneLake 기반의 완전한 데이터 통합
Databricks의 강점 고성능 Spark 기반의 유연한 클러스터 운영 및 ML 친화적 환경
Snowflake의 강점 단순하고 안정적인 쿼리 중심 구조와 강력한 동시성 처리