Azure
                
              Fabric 소개 (lakehouse 벤더 비교)
                ravon
                 2025. 10. 31. 14:36
              
                          
            내부 교육 자료의 하나다.
담당 프로그램어는 Fabric 를 2개 사용해서 리소스를 필요한 부분에만 해당 리소스를 사용하게 했다.

항목
Microsoft Fabric (Capacity Unit) Databricks (Computing) Snowflake (Warehouse)
| 개념 | 통합된 컴퓨팅 파워의 공유 풀(Capacity Unit, CU) 기반의 통합형 분석 플랫폼 | Apache Spark 기반의 컴퓨팅 클러스터로 데이터 처리 중심 | 쿼리 실행을 위한 MPP(대규모 병렬 처리) 컴퓨팅 클러스터 기반 | 
| 아키텍처 | 통합형 아키텍처: 단일 용량(CU) 풀을 모든 워크로드가 공유함. 저장소(OneLake)와 컴퓨팅이 논리적으로 분리되어 있으나, 컴퓨팅 자원은 통합 관리됨. | 작업별 클러스터 아키텍처: 목적별(All-Purpose, Job) 클러스터를 개별 생성해 사용. 저장소(Delta Lake)와 컴퓨팅이 분리되어 있음. | 다중 클러스터 공유 데이터 아키텍처: 중앙 저장소에 여러 가상 웨어하우스가 동시에 접근. 저장소와 컴퓨팅이 명확히 분리되어 있음. | 
| 자원 관리 | **Capacity Unit(CU)**을 사전 구매하여 자동 할당·관리됨. • 자동 스무딩(Smoothing) 및 버스팅(Bursting) 기능으로 작업 부하에 대응.• 관리자는 워크로드 전체에 대한 일괄 용량 제어 가능. | 사용자가 직접 클러스터의 유형·크기·정책을 설정해야 함.• 자동 스케일링 설정 가능.• 작업 종료 시 클러스터 자동 종료(Job Cluster). | 티셔츠 사이즈(X-Small, Small, Medium 등) 형태의 웨어하우스를 선택.• 필요 시 크기 조정 또는 다중 웨어하우스 병렬 실행으로 부하 대응. | 
- Fabric은 완전 통합형 구조
- Databricks나 Snowflake는 컴퓨팅과 저장소를 명확히 분리하지만, Fabric은 하나의 Capacity Unit 풀을 모든 서비스가 공유합니다.
- 즉, Data Engineering, Data Factory, Power BI, Data Science, Real-time Analytics가 동일한 리소스 풀에서 동작합니다.
 
- 자원 관리의 자동화 수준이 높음
- Fabric의 CU는 자동 할당/자동 부하 조정(smoothing, bursting) 이 가능해 관리자가 세밀한 설정을 하지 않아도 됩니다.
- 반면 Databricks는 클러스터 생성·크기 조정·정책을 직접 관리해야 하고, Snowflake는 미리 정의된 웨어하우스 크기를 선택해야 합니다.
 
- OneLake 통합 저장소
- Fabric의 모든 워크로드는 OneLake을 기반으로 하며, 이는 데이터 이동 없이 바로 분석 가능한 구조입니다.
- Databricks의 Delta Lake, Snowflake의 중앙 저장소와 달리 Fabric은 Power BI까지 자연스럽게 연계됩니다.
 
요약내용
| Fabric의 핵심 강점 | 단일 Capacity Unit을 통한 통합 리소스 관리와 OneLake 기반의 완전한 데이터 통합 | 
| Databricks의 강점 | 고성능 Spark 기반의 유연한 클러스터 운영 및 ML 친화적 환경 | 
| Snowflake의 강점 | 단순하고 안정적인 쿼리 중심 구조와 강력한 동시성 처리 |