-
데이터과학) 빅데이터 시대가 도래한 이후, 기업의 변화와 변화의 근간에 대하여 (with Hadoop) + 비즈니스 활용사례Distributed File System/Hadoop 2021. 1. 17. 15:27
현대 IT 인프라의 성장 이전에는, 대부분 인프라 비용문제로 기업에서 저장 및 처리하는 데이터 양이 제한적이었다.
이러한 배경아래 하둡(Hadoop)이 탄생되었고, 하둡이 도래시킨 빅데이터 시대를 이해하기 위해, 빅데이터가 가져온 변화의 근간을 이루는 3가지 중요한 특성인 Volume, Variety, Velocity 에 대해 알아보도록 하자.
# 규모(Volume)
DBMS가 상용화되었던 1960년대부터 기업들은 데이터를 적극활용해왔다.
허나, 보통 거래 후(post-transaction) 데이터로 구성됐었다. 기업의 비즈니스에서는 사용자의 클릭로그 같은 거래 전(pre-transaction) 데이터가 훨씬 많이 발생하는데, 당시의 기업들은 데이터 저장비용에 영향을 크게 받아 대부분 pre-transaction 데이터를 저장하지 않았다.
하둡(Hadoop)의 등장 이후, 저장 및 처리에 대한 인프라 비용이 획기적으로 감소하였으며, 데이터 보관여부와 기간에 대한 기업의 인식을 바꾸었다. 그 결과, 상당수의 기업은 모든 데이터를 원시형태로 저장한다.
* 하둡(Hadoop)은 분산컴퓨팅을 이용하여, 이러한 원시형태의 데이터를 맵리듀스(Map-Reduce)를 통해 여러종류의 정제데이터로 만들어 저장하고 처리할 수 있게 한다.
# 다양성(Velocity)
빅데이터 시대 이후 새로운 데이터 유형들이 추가되거나 기존의 유형들의 저장유형이 달라졌다.
1. 센서데이터
- IoT 기술 발전으로 더욱더 많고 다양한 센서데이터가 생성될 예정
- 휴대폰 GPS 정보, NEST의 온도정보, 자동차의 운전상태정보 등
2. 로그 파일
- 새로운 데이터 유형은 아니나, 보통 빅데이터시대 이전에는 서버에서 발생하는 문제를 진단하는데 사용됐으므로, 보통 며칠 또는 몇 주간 저장됬다가 파기되는 방식이었다.
- 하지만 이제 저장할 능력을 갖추어 수년간 보관할 수 있게되었으며, 서버로그에 포함된 사용자의 페이지뷰, 클릭로그 같은 로그데이터들을 클릭 스트림 분석에 활용하려 원시 형태로 수년관 보관하는 경우가 많아졌다.
3. 텍스트데이터
- PDF, JSON/SML, TXT 형태로 저장되며, 다양한 내용 (의사의 진료메모, 콜센터 상담기록 등) 을 포함 할 수 있다.
- 고급 자연어 처리기술을 대규모 텍스트 정보에 적용할 수 있어 데이터 중심 비즈니스에 텍스트 데이터를 활용하는 사례가 더욱 늘어가는 추세다.
4. 오디오 및 비디오 데이터
- 보통 기업의 감사(audit)를 위하여, 또는 법률 준수(compliance) 사례의 근거자료를 기록하려고 저장하는 경우가 많았다.
- 일부 기업은 기존의 용도외에 새로운 용도로 사용하기도 하며, 이를 위해 추가로 저장하기도 한다.
- 콜센터의 고객상담내용이 녹음된 오디오데이터 -> 제품에 대한 고객 만족도 도출
- 생산 공정 비디오 데이터 분석 -> 제품 불량 조기에 추출
# 속도(velocity)
- 빅데이터 시대 이후 대표적 특징 중 하나이다.
- 데이터의 유입속도를 일컫는다.
- 통신 회사들은 국내망 또는 국제망을 구성하는 모든 기지국에서 이벤트 데이터를 수집하는데, 이러한 데이터가 유입되는 속도는 가히 압도적이라, 그들이 보유한 최신 데이터 인프라 기술을 무력하게 만들기도 한다.
# 비즈니스 활용사례
1. 제품추천 (Recommender Systems)
- 넷플릭스, 아마존, 유튜브의 추천시스템
- 링크드인, 페이스북, 트위터의 PYMK(People You May Know) 시스템
2. 고객 이탈 분석 (Churn Rate Analysis)
- 기존 고객을 유지하는데 드는 비용이 새 고객을 확보하는 것보다 훨씬 저렴하다는 사실에 기반하며, 각 업계마다 고객이탈모델이 다르다.
- 하지만, 각 고객이탈가능성은 모두 머신러닝으로 예측한다.
- 고객참여(customer engagement)가 높을수록 이탈률이 감소하며,
- 생애가치(liftetime value)은 특정 고객에서 발생할 모든 미래 순이익(net-profit)을 예측한 수치이다.
- 생애가치(liftetime value)를 예측할때 고객의 비즈니스 이탈확률을 사용한다.
ex) scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=NPAP12593822&dbt=NPAP
3. 고객 세분화 (Customer Segmentation)
- 고객 세분화는 비즈니스와 상호작용이 유사한 고객의 세그먼트를 식별하는 데 널리 사용하는 기법이다.
- 식료품 업체는 고객이 구매하는 식품종류에 따라 고객을 세분화할 수 있다. (육류 애호가, 미식가)
- 항공사나 호텔업체는 출장여행객, 일반여행객, 국내외 여행객으로 세분화하기도 한다.
- 마케팅의 효율성 향상이 목표
- 빅데이터 기술을 활용해 새로운 유형의 데이터(소셜네트워크 수집데이터)를 고객 세분화 알고리즘에 사용하기도 한다.
4. 영업 리드 우선순위 결정 (sale lead priority)
- 영업리드(sale lead)란 제품 또는 서비스를 구매할 가능성이 있는 잠재고객 중, 영업팀이 연락을 취하고 영업활동을 시작할 수 있는 대상이다. 영업리드 중 고객이 될 가능성이 높은 고객을 hot lead, 반대의 경우를 cold lead라 한다.
- 영업리드의 다양한 특징변수(고객의 지리적 위치, 유형, 웹사이트 참여도, 과거구매이력)을 사용해 각 리드가 바람직한 기간내에 종료될 가능성을 판별하는 예측모델을 만들 수 있다.
5. 그 외
- 감성분석(sentiment analysis)
- 이상거래탐지(fraud detection)
- 유지보수예측(predictive maintence)
- 장바구니 분석(market basket analysis, association mining, affinity analysis)
- 데이터기반 의료진단, 환자의 재입원 예측
- 변칙접근탐지
- 보험위험분석
- 유정/가스정 생산량예측
728x90'Distributed File System > Hadoop' 카테고리의 다른 글
Hadoop) Map-Reduce 개념과 예시 & YARN에 기반한 처리엔진 Spark (0) 2021.01.17 Hadoop) YARN 의 등장 배경과 아키텍쳐 및 하는일 (0) 2021.01.17 하둡 HDFS 개요 (101 of Hadoop Distributed File System) (0) 2020.11.30