본문 바로가기

데이터 엔지니어링

(4)

Airflow 마스터하기: CeleryExecutor와 Redis로 분산 작업 실행! Airflow는 데이터 파이프라인을 프로그래밍 방식으로 작성, 스케줄링, 모니터링할 수 있게 해주는 강력한 플랫폼입니다. 복잡한 데이터 처리 작업을 안정적으로 운영하려면 Airflow의 핵심 구성 요소를 잘 이해해야 합니다. 특히 CeleryExecutor와 Redis를 함께 사용하여 Airflow 작업을 여러 노드에 분산시켜 실행하는 방법은 데이터 엔지니어링에서 매우 중요합니다. 이 글에서는 Airflow가 Celery 및 Redis와 어떻게 통합되어 분산 작업을 처리하는지, 그리고 이 과정에서 개발자가 알아야 할 핵심 내용들을 개발자 주니어 및 개발 입문자의 눈높이에 맞춰 쉽고 자세하게 알아보겠습니다!목차Airflow와 CeleryExecutor: 분산 처리의 시작Celery는 어떤 역할을 할까요?R..

백엔드 개발자를 위한 핵심: 디스크 접근 시간 완벽 이해 (HDD 랜덤 vs. 순차 액세스) 백엔드 개발을 하거나 데이터 엔지니어링 분야에 발을 들이면서, 데이터베이스나 파일 시스템 성능에 대해 고민해 본 적 있으신가요? 특히 하드 디스크 드라이브(HDD)의 성능을 이야기할 때 '디스크 접근 시간'이라는 개념은 매우 중요합니다. 왜 어떤 데이터는 빠르게 읽히고, 어떤 데이터는 느리게 읽히는지 궁금했다면, 이 글이 답이 될 것입니다. 디스크 접근 시간을 구성하는 핵심 요소들과, 랜덤 액세스와 순차 액세스의 차이를 명확히 알려드리겠습니다!목차디스크 접근 시간, 왜 중요할까요?HDD 성능을 좌우하는 두 가지 핵심 시간탐색 시간(Seek Time): 헤드의 움직임회전 지연 시간(Rotational Latency): 플래터의 회전랜덤 액세스(Random Access): 느린 이유 파헤치기순차 액세스(Se..

OLAP의 비밀: 컬럼 기반 저장으로 빅데이터 분석을 빠르게! OLAP(Online Analytical Processing) 시스템은 빅데이터 분석의 핵심 기술 중 하나입니다. 여러분이 데이터 분석가나 데이터 엔지니어링 분야를 꿈꾸고 있다면, OLAP의 효율적인 데이터 저장 방식에 대해 아는 것은 필수적이에요. 특히 OLAP가 데이터를 컬럼 기반으로 저장한다는 사실은 놀라운 분석 성능의 비밀이기도 합니다. 이 글에서는 OLAP의 컬럼 기반 저장 방식이 무엇인지, 왜 이렇게 저장하는지, 그리고 어떤 장점과 단점이 있는지 쉽고 자세하게 알아보겠습니다!목차OLAP란 무엇이며, 왜 특별할까요?OLAP의 핵심: 컬럼 기반 저장 방식 이해하기컬럼 기반 저장 방식은 무엇인가요?왜 컬럼 기반 저장이 분석에 유리할까요? (vs. 행 기반)컬럼 기반 저장 방식의 세 가지 큰 장점!분..

스파크 RDD(메타코드, 데이터 엔지니어링) 스파크 RDD (Resilient Distributed Dataset)란?Apache Spark는 대규모 데이터 처리를 위한 강력한 분산 컴퓨팅 플랫폼입니다. 그 핵심 구성 요소 중 하나인 **RDD (Resilient Distributed Dataset)**는 스파크의 기본 데이터 처리 단위로, 분산 환경에서 데이터를 효율적으로 처리할 수 있도록 설계되었습니다. 이번 포스팅에서는 스파크 RDD의 개념, 특징, 장점 및 주요 API에 대해 살펴보겠습니다.1. RDD란 무엇인가?RDD (Resilient Distributed Dataset)는 불변(Immutable)하고 분산(Distributed)된 데이터셋으로, Spark에서 데이터를 표현하는 기본 단위입니다. RDD는 Spark의 가장 기초적인 데이터..

이전 1 다음

티스토리툴바