AWS

AWS Redshift란?

박쿠리 2025. 9. 8. 20:39

1. AWS Redshift란?

Amazon Redshift는 AWS에서 제공하는 클라우드 기반 데이터 웨어하우스(DWH) 서비스.
대규모 데이터를 빠르게 분석할 수 있도록 MPP(Massively Parallel Processing, 대규모 병렬 처리) 아키텍처를 사용하며,
SQL 기반 분석을 지원하기 때문에 기존 BI 툴이나 SQL 사용자에게 친숙하다.

 

주요 특징:

  • 고성능: 컬럼 기반 저장, 압축, 병렬 처리로 빠른 쿼리 성능
  • 확장성: 페타바이트 규모까지 확장 가능
  • 호환성: PostgreSQL 기반 SQL 문법 지원
  • 통합성: S3, Glue, QuickSight, Athena, EMR 등과 손쉽게 연동

즉, Redshift는 대용량 데이터를 빠르게 분석하기 위한 클라우드 기반 DWH 솔루션.

 

2. 아키텍처 개념도

                 ┌───────────────────┐
                 │      사용자        │ (BI 툴, SQL 클라이언트)
                 └─────────┬─────────┘
                           │
                           ▼
                  ┌─────────────────┐
                  │   Leader Node   │
                  │ - SQL 파싱      │
                  │ - 실행 계획 생성 │
                  └─────────┬───────┘
                            │
      ┌─────────────────────┴───────────────────────┐
      ▼                                             ▼
┌─────────────┐                               ┌──────────────┐
│ Compute Node│   ... 병렬 분산 처리 ...       │ Compute Node │
│ - 데이터 저장│                               │ - 데이터 저장│
│ - 쿼리 실행  │                               │ - 쿼리 실행  │
└─────────────┘                               └─────────────┘

 

3. 주요 컴포넌트

  1. Cluster
    • Redshift의 기본 단위. Leader Node + 여러 Compute Node로 구성.
  2. Leader Node
    • 클라이언트 요청(SQL)을 받아 쿼리 파싱 및 실행 계획 생성 후, 각 Compute Node에 작업 분배.
  3. Compute Node
    • 실제 데이터를 저장하고 쿼리를 실행하는 노드.
    • 결과를 Leader Node에 전달.
  4. Node Slice
    • Compute Node는 내부적으로 Slice라는 작은 단위로 나뉘어 데이터와 작업을 병렬 처리.

 

4. 데이터 저장 방식

  • 컬럼 기반 저장(Columnar Storage)
    → 같은 컬럼 값들이 모여 저장되어 압축률이 높고, 특정 컬럼만 읽을 때 성능이 뛰어남.
  • 압축(Encoding)
    → 컬럼별 데이터 특성에 맞게 자동 압축.
  • 분산 방식(Distribution Style)
    • KEY: 특정 키를 기준으로 데이터 분산
    • ALL: 전체 데이터를 모든 노드에 복제
    • EVEN: 데이터를 균등하게 분산

 

5. Redshift 예제 (SQL)

아래는 S3 → Redshift COPY → 쿼리 실행 예시.

-- S3 데이터 로딩
COPY sales
FROM 's3://my-bucket/sales_data/'
IAM_ROLE 'arn:aws:iam::123456789012:role/RedshiftCopyRole'
FORMAT AS PARQUET;

-- 데이터 조회
SELECT region, SUM(amount) AS total_sales
FROM sales
GROUP BY region
ORDER BY total_sales DESC;

6. 실무 활용 시나리오

  • 데이터 레이크 분석: S3에 저장된 데이터를 Redshift로 불러와 BI 분석 수행
  • 실시간 + 배치 분석: Kinesis, Glue와 연동하여 실시간 데이터와 배치 데이터를 통합 분석
  • 대규모 BI/리포팅: Tableau, Power BI, QuickSight 등 BI 툴과 연결해 대시보드 구축

 

7. 정리

AWS Redshift는 클라우드 환경에서 대규모 데이터 웨어하우스 구축을 가능하게 하는 서비스.

  • 빠른 쿼리 성능(컬럼 기반 + 병렬 처리)
  • 탄력적인 확장성
  • AWS 생태계와 자연스러운 통합

데이터 엔지니어링, BI, 머신러닝 등 다양한 분석 환경에서 핵심 역할을 한다.

반응형

'AWS' 카테고리의 다른 글

AWS 네트워크 인프라 구축 정리  (0) 2025.09.09
AWS Glue 란?  (0) 2025.09.08