분류 전체보기
-
[Network] 네트워크 통신의 기본 구조 ( OSI 7 Layer, TCP/IP)Network Basis 2021. 3. 2. 17:51
# OSI 모델 (Open Systems Interconnection) - 1982년경, 네트워크 아키텍처를 하나로 통일하고자 만든 네트워크 표준규격 - 너무 복잡해서 현재 사용되지 않지만, 네트워크 기능 분석, 설계 및 학습에 널리 사용되는 중 # OSI 7 Layer (OSI 참조모델) # Data Flow Layers 1. Physical Layer (OSI) - 하드웨어 단 0과 1의 나열을 아날로그 신호(전자기파)로 바꾸어 전선(물리적연결)으로 흘려보내고(Encoding) 아날로그 신호(전자기파)를 0과 1로 해석하여 (Decoding) 물리적으로 연결된 두 대의 컴퓨터가 0과 1을 주고받을 수 있게하는 계층 - 네트워크 통신을 위한 물리적인 표준 정의 - 두 컴퓨터 간 기계적인 연결을 정의 *..
-
Pandas - 대용량데이터 전처리 꿀팁 (멀티인덱스, groupby, isin, select_dtypes)프로그래밍 언어/Python 2021. 2. 2. 14:12
# 대규모 데이터의 예시 소규모 데이터가 아닌 대용량 데이터를 다뤄보면, for 문으로 데이터를 정제하는 습관을 지양해야 할 필요성을 느낄 것이다. 또한, 변수의 저장도 최소한으로 다루어야 한다. Hadoop이나 쿠버네티스 같은 분산컴퓨팅을 하지않고, 오직 컴퓨터 1대로 대용량데이터 전처리를 진행해야 한다면 변수를 생성(초기화)하면 할 수록 RAM이 가득차서 에러가 뜰 것이며, for 문의 속도도 현저히 떨어진다. 왜냐면 파이썬은 메모리를 FLEX 하니까..! 필자 또한 부족하지만, 대용량 데이터를 다루며 깨달은 노하우를 공유하고자 한다. 큰틀은 아래와 같다. 1. Pandas 패키지를 최대한으로 이용하자 파이썬의 라이브러리는 대부분 C++로 만들어져 있다. Numpy, Tensor 같은 라이브러리 또한..
-
GAN 아키텍처에 대한 개요 및 활용사례Data Analysis/Deep Learning 2021. 1. 28. 17:59
# GAN (generatvie adversarial networks) 한국어로는 생성적 적대적 신경망이라고 부른다. 2개의 이상의 신경망을 서로에게 향하게 하고, 서로에게 대항하듯이 훈련하게 함으로써 결과적으로 생성모델을 산출해내는 방식이다. # GAN 모델의 효용가치 * 일반적인 방식으로 학습하기 힘든 생성모델까지 제작해낼 수 있다. * 데이터가 한정된 상황에서 일반화(generalization)가 가능하다. * 모조데이터셋(simulated data)를 늘릴 수 있다. 극단적인 예시로는 다른 아키텍처 유형들을 동원해 딥러닝 문제를 해결할 때 필요한 데이터의 10% 만 있어도 될때가 있다. 또한, 풍부한 모조데이터 확보로 특정 업무에 대해 기여할 수 있다. 따라서, 적은 데이터로도 이런저런 일들을 할..
-
Hadoop) Map-Reduce 개념과 예시 & YARN에 기반한 처리엔진 SparkDistributed File System/Hadoop 2021. 1. 17. 18:22
# Map-Reduce YARN이 클러스터 전체에 계산을 분산하고 보관된 데이터를 확장가능하게 처리하는 방법을 제공해줬다면, Map-Reduce는 YARN 이 제공한 환경에서 하둡이 맨 처음에 지원한 데이터를 처리하는 모델이다. (그러나 Map-Reduce는 구글꺼다...) Map-Reduce의 병렬처리모델은 3단계로 나누어지며, 그 3 단계는 map, shuffle, reduce 이다. # Map, Shuffle, Reduce 1. Map - 입력데이터가 클러스터에서 병렬로 처리되며, 이를 수행하는 mapper 함수는 원시데이터를 {key, value} 쌍으로 변환한다. 2. Shuffle - mapper를 거쳐 변환된 데이터는 키를 기준으로 정렬되어 버킷(bucket)으로 셔플링된다. (키가 같은값들..
-
Hadoop) YARN 의 등장 배경과 아키텍쳐 및 하는일Distributed File System/Hadoop 2021. 1. 17. 16:44
이 글을 읽기전에 분산시스템(쿠버네티스, HDFS)의 아키텍쳐에 대한 글을 읽고 오시는 것을 추천드립니다. # YARN 등장 배경 Hadoop v1 에서는 Job Tracker 가 병렬처리의 클러스터의 자원관리와 애플리케이션의 라이프사이클 관리를 모두 담당하여 병목현상이 발생했었다. 이러한 병목현상을 개선하기 위해 YARN 아기텍쳐가 도입되었고, Hadoop v2 부터 등장한 개념이다. 좋은 분산시스템이 갖춰야 할 핵심요소는 스케줄링(scheduling)과 리소스관리(resource management) 기능이다. 하둡에서는 리소스할당과 애플리케이션을 스케줄링하는 역할을 하는 것이 바로 YARN(Yet Another Resource Negotiator)이다. # YARN을 포함하는 하둡 아키텍쳐 # YA..
-
데이터과학) 빅데이터 시대가 도래한 이후, 기업의 변화와 변화의 근간에 대하여 (with Hadoop) + 비즈니스 활용사례Distributed File System/Hadoop 2021. 1. 17. 15:27
현대 IT 인프라의 성장 이전에는, 대부분 인프라 비용문제로 기업에서 저장 및 처리하는 데이터 양이 제한적이었다. 이러한 배경아래 하둡(Hadoop)이 탄생되었고, 하둡이 도래시킨 빅데이터 시대를 이해하기 위해, 빅데이터가 가져온 변화의 근간을 이루는 3가지 중요한 특성인 Volume, Variety, Velocity 에 대해 알아보도록 하자. # 규모(Volume) DBMS가 상용화되었던 1960년대부터 기업들은 데이터를 적극활용해왔다. 허나, 보통 거래 후(post-transaction) 데이터로 구성됐었다. 기업의 비즈니스에서는 사용자의 클릭로그 같은 거래 전(pre-transaction) 데이터가 훨씬 많이 발생하는데, 당시의 기업들은 데이터 저장비용에 영향을 크게 받아 대부분 pre-transa..
-
[IT지식] 블록체인 기본개념IT시사지식 및 용어 2021. 1. 12. 11:08
블록체인에 대해 간단 요약을 하자면, 중앙기관인 은행이 하던 일을 개개인(User)이 할 수 있게끔 만든 기술이다. 여러명의 개인이 모여 거래내역등을 보증하며, 암호값(해시값)을 찾은 보상으로 비트코인을 지급한다. 중앙집중형의 보안기법이 아닌, 분산형의 보안기법이라 할 수 있다. (중앙집중형의 중심이 마비되면 업무가 마비되고, 신뢰성이 떨어진다는 단점을 보완하기 위해 등장한 기술이다.) 아래의 사진은 글 하단의 유튜버가 그린 그림인데, 핵심을 요약하고 있기에 첨부한다. 디테일한 설명은 글 하단의 링크를 참고하길 바란다. # 블록체인 참고 Youtube www.youtube.com/watch?v=9sTvYuxcii8