Distributed File System/Hadoop
-
Hadoop) Map-Reduce 개념과 예시 & YARN에 기반한 처리엔진 SparkDistributed File System/Hadoop 2021. 1. 17. 18:22
# Map-Reduce YARN이 클러스터 전체에 계산을 분산하고 보관된 데이터를 확장가능하게 처리하는 방법을 제공해줬다면, Map-Reduce는 YARN 이 제공한 환경에서 하둡이 맨 처음에 지원한 데이터를 처리하는 모델이다. (그러나 Map-Reduce는 구글꺼다...) Map-Reduce의 병렬처리모델은 3단계로 나누어지며, 그 3 단계는 map, shuffle, reduce 이다. # Map, Shuffle, Reduce 1. Map - 입력데이터가 클러스터에서 병렬로 처리되며, 이를 수행하는 mapper 함수는 원시데이터를 {key, value} 쌍으로 변환한다. 2. Shuffle - mapper를 거쳐 변환된 데이터는 키를 기준으로 정렬되어 버킷(bucket)으로 셔플링된다. (키가 같은값들..
-
Hadoop) YARN 의 등장 배경과 아키텍쳐 및 하는일Distributed File System/Hadoop 2021. 1. 17. 16:44
이 글을 읽기전에 분산시스템(쿠버네티스, HDFS)의 아키텍쳐에 대한 글을 읽고 오시는 것을 추천드립니다. # YARN 등장 배경 Hadoop v1 에서는 Job Tracker 가 병렬처리의 클러스터의 자원관리와 애플리케이션의 라이프사이클 관리를 모두 담당하여 병목현상이 발생했었다. 이러한 병목현상을 개선하기 위해 YARN 아기텍쳐가 도입되었고, Hadoop v2 부터 등장한 개념이다. 좋은 분산시스템이 갖춰야 할 핵심요소는 스케줄링(scheduling)과 리소스관리(resource management) 기능이다. 하둡에서는 리소스할당과 애플리케이션을 스케줄링하는 역할을 하는 것이 바로 YARN(Yet Another Resource Negotiator)이다. # YARN을 포함하는 하둡 아키텍쳐 # YA..
-
데이터과학) 빅데이터 시대가 도래한 이후, 기업의 변화와 변화의 근간에 대하여 (with Hadoop) + 비즈니스 활용사례Distributed File System/Hadoop 2021. 1. 17. 15:27
현대 IT 인프라의 성장 이전에는, 대부분 인프라 비용문제로 기업에서 저장 및 처리하는 데이터 양이 제한적이었다. 이러한 배경아래 하둡(Hadoop)이 탄생되었고, 하둡이 도래시킨 빅데이터 시대를 이해하기 위해, 빅데이터가 가져온 변화의 근간을 이루는 3가지 중요한 특성인 Volume, Variety, Velocity 에 대해 알아보도록 하자. # 규모(Volume) DBMS가 상용화되었던 1960년대부터 기업들은 데이터를 적극활용해왔다. 허나, 보통 거래 후(post-transaction) 데이터로 구성됐었다. 기업의 비즈니스에서는 사용자의 클릭로그 같은 거래 전(pre-transaction) 데이터가 훨씬 많이 발생하는데, 당시의 기업들은 데이터 저장비용에 영향을 크게 받아 대부분 pre-transa..
-
하둡 HDFS 개요 (101 of Hadoop Distributed File System)Distributed File System/Hadoop 2020. 11. 30. 18:36
# 분산컴퓨팅의 필요성 규모가 방대한 빅데이터 환경에서는 기존 파일 시스템 체계를 그대로 사용할 경우 많은 시간과 높은 처리비용을 발생시킴 대용량 데이터 분석 및 처리는 여러대의 컴퓨터를 이용하여 작업을 분배하고, 다시 조합하며, 일부 작업에 문제(Fault)가 생겼을 경우, 해당 부분만 재처리가 가능한 분산 컴퓨팅 환경이 필요 # HDFS(Hadoop Distributed File System) GFS(Google File System)과 Map-Reduce 논문을 기초로 한 파일시스템 하나의 서버가 아닌, 여러 개의 서버에서 설치되어 서비스 됨 (분산컴퓨팅) HDFS만을 위한 별도의 스토리지를 요구치 않으며, 일반 로컬디스크를 이용하여 확장하는 구조 분산처리 연산에 대하여 Master/Slave 구조..