메타코드 #데이터엔지니어링 (1) 썸네일형 리스트형 Apache Spark: 주요 개념 정리 (메타코드, 데이터엔지니어링) Apache Spark는 빅데이터 분석과 처리를 위해 설계된 오픈소스 분산 컴퓨팅 프레임워크입니다. 속도, 확장성, 다양한 언어 지원으로 인해 데이터 엔지니어링과 데이터 과학 분야에서 널리 사용되고 있습니다. 본 글에서는 Spark의 주요 개념과 구성 요소를 간략히 정리합니다.1. RDD (Resilient Distributed Dataset)RDD는 Spark의 핵심 데이터 구조로, 분산된 데이터셋을 다룰 수 있도록 설계되었습니다. RDD는 다음과 같은 특징을 가집니다:불변성: 생성된 RDD는 변경할 수 없으며, 변환 작업(transformations)을 통해 새로운 RDD를 생성합니다.분산성: 데이터는 여러 노드에 분산 저장됩니다.내결함성: 노드 장애가 발생해도 복구가 가능하도록 설계되었습니다.RDD.. 이전 1 다음