패브릭 의사 결정 가이드 - 데이터 저장소 선택 - Microsoft Fabric | Microsoft Learn
문서 개요 & 목적
- Fabric 내 다양한 데이터 저장소 옵션들(Lakehouse, Warehouse, Eventhouse, Fabric SQL Database, Cosmos DB in Fabric, Power BI Datamart 등)을 비교하고,조직의 요구사항 / 기술 역량 / 사용 시나리오에 따라 어떤 저장소를 쓰는 게 적합한지 결정할 수 있도록 돕는 가이드.
- 모든 저장소는 OneLake라는 통합 스토리지 계층 위에서 동작하며, 데이터가 OneLake 안에 “열린 테이블 형식(open table format)”으로 존재한다는 전제가 있음.
저장소 옵션 & 비교 기준
문서에서는 저장소별 특성과 적합한 사용 조건들을 비교 기준(용량, 데이터 유형, 주요 사용자, 스킬셋 등) 중심으로 제시하고 있어요.
아래는 주요 저장소별 특징과 선택 기준을 정리한 표 예시:
저장소 옵션적합한 용도 / 특징주요 사용자 & 기술 스택장단점 포인트
Lakehouse | 빅데이터 / 머신러닝 / 반정형 - 비정형 데이터 처리, 파이프라인 중심 | 데이터 엔지니어, 데이터 과학자 (PySpark, Spark SQL, 노트북 등) | 유연성 큼, 대용량 처리에 강함. 그러나 다중 트랜잭션 또는 엄격한 ACID 보장에는 약할 수 있음. |
Data Warehouse (Fabric Warehouse) | 전통적인 BI, 쿼리 중심, 여러 테이블 간 조인/트랜잭션이 필요한 경우 | 데이터 아키텍트, SQL 개발자, 데이터 엔지니어 | 익숙한 SQL 환경, 최적화된 쿼리 성능. 하지만 비정형 데이터 처리엔 제한 있을 수 있음. |
Eventhouse | 실시간 이벤트 / 스트리밍 / 타임시리즈 / JSON 등 활동 로그 / 이벤트 데이터 | 애플리케이션 개발자, 데이터 과학자 | 낮은 지연 시간, 이벤트 기반 분석에 특화. 다중 테이블 복합 트랜잭션에는 부적합할 수 있음. |
Fabric SQL Database (Preview 기능) | 운영형 데이터베이스 / OLTP + 분석 혼합 시나리오 | 데이터베이스 개발자, 운영자, 앱 개발자 | ACID 보장, 기존 SQL DB와 유사한 개발 경험. 그러나 아직 Preview라 제한사항 존재 가능성 있음. |
Cosmos DB in Fabric (Preview) | NoSQL, 벡터 검색, 비정형 데이터 + AI적 활용 | 앱 개발자, AI 개발자 | 유연한 스키마, 글로벌 분산, 벡터 검색 등 지원 가능. 다만 SQL 계열 쿼리나 정형 분석엔 제한 있을 수 있음. |
Power BI Datamart | 소규모 / 단위 비즈니스 유닛 단위 데이터 분석, 빠른 구축 중심 | 비즈니스 분석가, Power BI 중심 사용자 | No-code / low-code 중심, 빠른 프로비저닝. 하지만 대규모 데이터나 복잡한 처리엔 한계 있을 수 있음. |
주요 비교 고려 항목들도 문서에 함께 제공돼요:
- 데이터 볼륨 / 스케일
- 데이터 유형 (정형 / 반정형 / 비정형)
- 멀티 테이블 트랜잭션 필요 여부
- 읽기 / 쓰기 패턴
- 응용 프로그램 모델 (OLTP vs OLAP vs 스트리밍 등)
- 개발자 역량 / 익숙한 도구 / 인터페이스 (SQL, Spark, KQL 등)
- 보안 / 접근 제어 / 권한 모델
- 지연 시간 / 처리 속도 요구
실제 의사 결정 시나리오 예
문서에서는 몇 가지 현실적인 시나리오를 들어, 어떤 저장소를 선택하면 좋은지 제안하고 있어요:
- Susan
- SQL 중심 개발자. 다중 테이블 트랜잭션 필요.
→ Warehouse 선택 (SQL 친숙성 + BI 쿼리 중심)
- SQL 중심 개발자. 다중 테이블 트랜잭션 필요.
- Rob
- 테라바이트 규모 데이터, PySpark + SQL 혼합 역량.
→ Lakehouse 선택 (Spark 기반 처리 + SQL 소비)
- 테라바이트 규모 데이터, PySpark + SQL 혼합 역량.
- Daisy
- 방대한 행 데이터 + 실시간 / 활동 로그 분석 필요 + 복잡한 쿼리 (지리 공간, 시계열)
→ Eventhouse 선택 (스트리밍 / 빠른 쿼리)
- 방대한 행 데이터 + 실시간 / 활동 로그 분석 필요 + 복잡한 쿼리 (지리 공간, 시계열)
- Kirby
- 운영 애플리케이션 + 높은 동시성 + 완전한 ACID 트랜잭션 필요
→ SQL Database in Fabric 선택 (운영 DB + 분석 연결)
- 운영 애플리케이션 + 높은 동시성 + 완전한 ACID 트랜잭션 필요
요약: 선택 가이드 핵심 팁
- 조직/팀의 기술 역량이 중요: SQL 중심인가, Spark / 노트북 중심인가?
- 트랜잭션 보장 / 복잡한 조인이 필요한 데이터라면 Warehouse 또는 SQL Database 쪽이 유리
- 빅데이터 처리 / 피벗 / ML 유스케이스는 Lakehouse가 더 유연
- 실시간 이벤트 / 로그 분석 / 스트리밍 요구가 있다면 Eventhouse가 적합
- 규모가 작고 빠른 프로토타입 / 분석 중심이라면 Power BI Datamart도 괜찮은 선택