AWS Redshift란?

AWS

AWS Redshift란?

박쿠리 2025. 9. 8. 20:39

1. AWS Redshift란?

Amazon Redshift는 AWS에서 제공하는 클라우드 기반 데이터 웨어하우스(DWH) 서비스.
대규모 데이터를 빠르게 분석할 수 있도록 MPP(Massively Parallel Processing, 대규모 병렬 처리) 아키텍처를 사용하며,
SQL 기반 분석을 지원하기 때문에 기존 BI 툴이나 SQL 사용자에게 친숙하다.

주요 특징:

고성능: 컬럼 기반 저장, 압축, 병렬 처리로 빠른 쿼리 성능
확장성: 페타바이트 규모까지 확장 가능
호환성: PostgreSQL 기반 SQL 문법 지원
통합성: S3, Glue, QuickSight, Athena, EMR 등과 손쉽게 연동

즉, Redshift는 대용량 데이터를 빠르게 분석하기 위한 클라우드 기반 DWH 솔루션.

2. 아키텍처 개념도

                 ┌───────────────────┐
                 │      사용자        │ (BI 툴, SQL 클라이언트)
                 └─────────┬─────────┘
                           │
                           ▼
                  ┌─────────────────┐
                  │   Leader Node   │
                  │ - SQL 파싱      │
                  │ - 실행 계획 생성 │
                  └─────────┬───────┘
                            │
      ┌─────────────────────┴───────────────────────┐
      ▼                                             ▼
┌─────────────┐                               ┌──────────────┐
│ Compute Node│   ... 병렬 분산 처리 ...       │ Compute Node │
│ - 데이터 저장│                               │ - 데이터 저장│
│ - 쿼리 실행  │                               │ - 쿼리 실행  │
└─────────────┘                               └─────────────┘

3. 주요 컴포넌트

Cluster
- Redshift의 기본 단위. Leader Node + 여러 Compute Node로 구성.
Leader Node
- 클라이언트 요청(SQL)을 받아 쿼리 파싱 및 실행 계획 생성 후, 각 Compute Node에 작업 분배.
Compute Node
- 실제 데이터를 저장하고 쿼리를 실행하는 노드.
- 결과를 Leader Node에 전달.
Node Slice
- Compute Node는 내부적으로 Slice라는 작은 단위로 나뉘어 데이터와 작업을 병렬 처리.

4. 데이터 저장 방식

컬럼 기반 저장(Columnar Storage)
→ 같은 컬럼 값들이 모여 저장되어 압축률이 높고, 특정 컬럼만 읽을 때 성능이 뛰어남.
압축(Encoding)
→ 컬럼별 데이터 특성에 맞게 자동 압축.
분산 방식(Distribution Style)
- KEY: 특정 키를 기준으로 데이터 분산
- ALL: 전체 데이터를 모든 노드에 복제
- EVEN: 데이터를 균등하게 분산

5. Redshift 예제 (SQL)

아래는 S3 → Redshift COPY → 쿼리 실행 예시.

-- S3 데이터 로딩
COPY sales
FROM 's3://my-bucket/sales_data/'
IAM_ROLE 'arn:aws:iam::123456789012:role/RedshiftCopyRole'
FORMAT AS PARQUET;

-- 데이터 조회
SELECT region, SUM(amount) AS total_sales
FROM sales
GROUP BY region
ORDER BY total_sales DESC;

6. 실무 활용 시나리오

데이터 레이크 분석: S3에 저장된 데이터를 Redshift로 불러와 BI 분석 수행
실시간 + 배치 분석: Kinesis, Glue와 연동하여 실시간 데이터와 배치 데이터를 통합 분석
대규모 BI/리포팅: Tableau, Power BI, QuickSight 등 BI 툴과 연결해 대시보드 구축

7. 정리

AWS Redshift는 클라우드 환경에서 대규모 데이터 웨어하우스 구축을 가능하게 하는 서비스.

빠른 쿼리 성능(컬럼 기반 + 병렬 처리)
탄력적인 확장성
AWS 생태계와 자연스러운 통합

데이터 엔지니어링, BI, 머신러닝 등 다양한 분석 환경에서 핵심 역할을 한다.

'AWS' 카테고리의 다른 글

AWS 네트워크 인프라 구축 정리 (0)	2025.09.09
AWS Glue 란? (0)	2025.09.08

현재글AWS Redshift란?

쿠리이야기

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

쿠리이야기

AWS Redshift란?

1. AWS Redshift란?

2. 아키텍처 개념도

3. 주요 컴포넌트

4. 데이터 저장 방식

5. Redshift 예제 (SQL)

6. 실무 활용 시나리오

7. 정리

'AWS' 카테고리의 다른 글

'AWS'의 다른글

티스토리툴바

AWS Redshift란?

1. AWS Redshift란?

2. 아키텍처 개념도

3. 주요 컴포넌트

4. 데이터 저장 방식

5. Redshift 예제 (SQL)

6. 실무 활용 시나리오

7. 정리

'AWS' 카테고리의 다른 글

'AWS'의 다른글

관련글

티스토리툴바