01 (97) 썸네일형 리스트형 스파크 RDD(메타코드, 데이터 엔지니어링) 스파크 RDD (Resilient Distributed Dataset)란?Apache Spark는 대규모 데이터 처리를 위한 강력한 분산 컴퓨팅 플랫폼입니다. 그 핵심 구성 요소 중 하나인 **RDD (Resilient Distributed Dataset)**는 스파크의 기본 데이터 처리 단위로, 분산 환경에서 데이터를 효율적으로 처리할 수 있도록 설계되었습니다. 이번 포스팅에서는 스파크 RDD의 개념, 특징, 장점 및 주요 API에 대해 살펴보겠습니다.1. RDD란 무엇인가?RDD (Resilient Distributed Dataset)는 불변(Immutable)하고 분산(Distributed)된 데이터셋으로, Spark에서 데이터를 표현하는 기본 단위입니다. RDD는 Spark의 가장 기초적인 데이터.. Apache Spark: 주요 개념 정리 (메타코드, 데이터엔지니어링) Apache Spark는 빅데이터 분석과 처리를 위해 설계된 오픈소스 분산 컴퓨팅 프레임워크입니다. 속도, 확장성, 다양한 언어 지원으로 인해 데이터 엔지니어링과 데이터 과학 분야에서 널리 사용되고 있습니다. 본 글에서는 Spark의 주요 개념과 구성 요소를 간략히 정리합니다.1. RDD (Resilient Distributed Dataset)RDD는 Spark의 핵심 데이터 구조로, 분산된 데이터셋을 다룰 수 있도록 설계되었습니다. RDD는 다음과 같은 특징을 가집니다:불변성: 생성된 RDD는 변경할 수 없으며, 변환 작업(transformations)을 통해 새로운 RDD를 생성합니다.분산성: 데이터는 여러 노드에 분산 저장됩니다.내결함성: 노드 장애가 발생해도 복구가 가능하도록 설계되었습니다.RDD.. 실용주의 프로그래머 2장 1. ETC, DRY원칙 => easy to change, don't repeat yourself 가. ETC -> 단일책임, 가독성을 높이기 위해 변수명을 잘 지어라. - 변수명 tip 1) 명사를 사용하며 동사는 사용하지 않는다. 2) 단수, 복수 구분에 유의한다. 3) 전치사 사용을 지양한다. 4) 간결하고 읽기 편해야한다. 5) 언리얼, 마소의 오픈소스 코드 등을 읽으며 공부해라 참고: https://youtu.be/ZtkIwGZZAq8 나. DRY -> 같은것을 주석과 같이 두 군데 이상 표현하지 마라, 지식의 중복과 의도의 중복을 지양하라 Q1. 실무에서는 함수마다 주석달고있지 않은가? Q2. 변수명을 잘 짖기 위해 어떤 고민을 하고있는가? Q3. 스타트업에서, 제한된 자원으로 위의 원칙을 .. 항해 세미나, 실용주의 프로그래머 발표자 : 제한재 멘토님 주제 : 주니어 개발자 10년동안 공부하는 이유와 방법 기술도 반감기가 있다. (기술의 효용이 절반으로 떨어지는데 걸리는 시간) c++도, 자바도, 자바스크립트도, cs지식도 10년이면 내용이 바뀐다. => 리액트도, nodejs 10년 후에도 건재하긴 어려울 것. 꾸준히 공부해야 한다. 꾸준히 공부할 수 있는 팁! 1. 공부할 수 있는 루틴을 만들어라 특히 장소! => 사무실 괜찮다 2. 재미있어야 한다 3. 너무 부담스럽지 않게 => 직장인이 스터디를 오래 할 수 있는 방법이다. 4. 절대 빠지지 않는다 회사에서 업무로 성장하기 vs 개인 스터디 - 회사업무로 성장하는데는 한계가 있다.(기술이 익숙해지고, 유지보수 단계로 접어들 때) - 다시 성장이 가능한 회사로 가기 위해 .. vue 설치 에러 mac에서 vue 설치시 폴더 권한 문제로 에러 발생 터미널에 아래와 같이 입력하여 폴더 수정 권한 부여 sudo chown -R 맥북유저명: 에러발생한경로 참고: https://codingapple.com/unit/vue-3-installation-with-vue-cli/?id=139 참고할 블로그, 유튜브 등 1. https://yceffort.kr/ 자바스크립트, 노드, 리액트 등 Home yceffort yceffort.kr 2. https://www.youtube.com/user/damazzang 자료구조 알고리즘 엔지니어대한민국 www.youtube.com 3. https://www.youtube.com/c/ChanSuShin 한국외대 컴공 Chan-Su Shin 한국외국어대학교 컴퓨터공학부 신찬수 교수의 강의용 채널로 전체 공개 콘텐츠입니다. (죽어가던 채널을 코로나가 강제로 부활시키는군요.) 주로 자료구조와 알고리즘에 대한 내용을 다루며, www.youtube.com 4. https://www.youtube.com/channel/UCS0F25vig_sPIQXMiK8IdSg 노드js 등등 우리밋_wo.. 면접 정리 면접 정리 기술적인 질문보다 경험, 이력이 사실인지를 검증하는 질문이 훨씬 많았다. 기술 외 질문 이력서, 경험 질문 프로젝트에서 담당했던 파트 구현하면서 겪은 어려움과 가장 성취감 느낀 파트 디버깅이나 에러 해결한 경험 왜 백엔드 개발자가 되고 싶은지? 개발자가 되기로한 계기 이전 직장 팀장님께 묻는다면 본인은 몇 점짜리 직원인가? 큰 조직 vs 작은 조직, 어떤일을 할 것 같으며 본인은 어떤 쪽을 더 선호하는가? 앞으로 어떤 개발자가 되고싶은가? 개발자에게 중요한 역량 3가지 지금 관심있는 기술, 분야 3가지, 현재무엇을 공부하고 있는가? 항해99 관려 커리큘럼, 팀 구성, 펀더멘털한 지식 가르쳐 주는지? 기술적 질문 db가 없다는 가정하에 단어사전을 구현할 방법은 랜덤 알파벳 3개가 주어졌을때 해당.. 운영체제 2차시 System Structure & Program Execution 오늘 강의는 cpu 구성과 용어 정리 위주. 이번 강의는 소화가 어렵다 느끼던 찰나 교수님 왈 "첫 시간에 한 학기 분량을 모두 설명드리고있으니 이번 학기의 첫 번째 난관이다" 네가 선택한 운영체제다 악으로깡으로 버텨라🤯 컴퓨터 시스템은 크게 CPU, memory, I/O device로 구성한다. 메모리 => cpu의 작업 공간 cpu는 매 클럭마다 메모리에서 기계어를 읽어서 실행시킨다 I/O device는 로컬 버퍼라는 개별 작업공간을 갖는다. mode bit 실행중인 프로그램이 운영체제인지, 사용자 프로그램인지 구분해주는 역할(boolean) 운영체제가 CPU를 갖는 경우 0 => 메모리접근, I/O디바이스 접근 등 모든 작업이 가능함.. 이전 1 ··· 4 5 6 7 8 9 10 ··· 13 다음