-
데이터과학) 빅데이터 시대가 도래한 이후, 기업의 변화와 변화의 근간에 대하여 (with Hadoop) + 비즈니스 활용사례Distributed File System/Hadoop 2021. 1. 17. 15:27
현대 IT 인프라의 성장 이전에는, 대부분 인프라 비용문제로 기업에서 저장 및 처리하는 데이터 양이 제한적이었다.
이러한 배경아래 하둡(Hadoop)이 탄생되었고, 하둡이 도래시킨 빅데이터 시대를 이해하기 위해, 빅데이터가 가져온 변화의 근간을 이루는 3가지 중요한 특성인 Volume, Variety, Velocity 에 대해 알아보도록 하자.
# 규모(Volume)
DBMS가 상용화되었던 1960년대부터 기업들은 데이터를 적극활용해왔다.
허나, 보통 거래 후(post-transaction) 데이터로 구성됐었다. 기업의 비즈니스에서는 사용자의 클릭로그 같은 거래 전(pre-transaction) 데이터가 훨씬 많이 발생하는데, 당시의 기업들은 데이터 저장비용에 영향을 크게 받아 대부분 pre-transaction 데이터를 저장하지 않았다.
하둡(Hadoop)의 등장 이후, 저장 및 처리에 대한 인프라 비용이 획기적으로 감소하였으며, 데이터 보관여부와 기간에 대한 기업의 인식을 바꾸었다. 그 결과, 상당수의 기업은 모든 데이터를 원시형태로 저장한다.
* 하둡(Hadoop)은 분산컴퓨팅을 이용하여, 이러한 원시형태의 데이터를 맵리듀스(Map-Reduce)를 통해 여러종류의 정제데이터로 만들어 저장하고 처리할 수 있게 한다.
# 다양성(Velocity)
빅데이터 시대 이후 새로운 데이터 유형들이 추가되거나 기존의 유형들의 저장유형이 달라졌다.
1. 센서데이터
- IoT 기술 발전으로 더욱더 많고 다양한 센서데이터가 생성될 예정
- 휴대폰 GPS 정보, NEST의 온도정보, 자동차의 운전상태정보 등
2. 로그 파일
- 새로운 데이터 유형은 아니나, 보통 빅데이터시대 이전에는 서버에서 발생하는 문제를 진단하는데 사용됐으므로, 보통 며칠 또는 몇 주간 저장됬다가 파기되는 방식이었다.
- 하지만 이제 저장할 능력을 갖추어 수년간 보관할 수 있게되었으며, 서버로그에 포함된 사용자의 페이지뷰, 클릭로그 같은 로그데이터들을 클릭 스트림 분석에 활용하려 원시 형태로 수년관 보관하는 경우가 많아졌다.
3. 텍스트데이터
- PDF, JSON/SML, TXT 형태로 저장되며, 다양한 내용 (의사의 진료메모, 콜센터 상담기록 등) 을 포함 할 수 있다.
- 고급 자연어 처리기술을 대규모 텍스트 정보에 적용할 수 있어 데이터 중심 비즈니스에 텍스트 데이터를 활용하는 사례가 더욱 늘어가는 추세다.
4. 오디오 및 비디오 데이터
- 보통 기업의 감사(audit)를 위하여, 또는 법률 준수(compliance) 사례의 근거자료를 기록하려고 저장하는 경우가 많았다.
- 일부 기업은 기존의 용도외에 새로운 용도로 사용하기도 하며, 이를 위해 추가로 저장하기도 한다.
- 콜센터의 고객상담내용이 녹음된 오디오데이터 -> 제품에 대한 고객 만족도 도출
- 생산 공정 비디오 데이터 분석 -> 제품 불량 조기에 추출
# 속도(velocity)
- 빅데이터 시대 이후 대표적 특징 중 하나이다.
- 데이터의 유입속도를 일컫는다.
- 통신 회사들은 국내망 또는 국제망을 구성하는 모든 기지국에서 이벤트 데이터를 수집하는데, 이러한 데이터가 유입되는 속도는 가히 압도적이라, 그들이 보유한 최신 데이터 인프라 기술을 무력하게 만들기도 한다.
# 비즈니스 활용사례
1. 제품추천 (Recommender Systems)
- 넷플릭스, 아마존, 유튜브의 추천시스템
- 링크드인, 페이스북, 트위터의 PYMK(People You May Know) 시스템
2. 고객 이탈 분석 (Churn Rate Analysis)
- 기존 고객을 유지하는데 드는 비용이 새 고객을 확보하는 것보다 훨씬 저렴하다는 사실에 기반하며, 각 업계마다 고객이탈모델이 다르다.
- 하지만, 각 고객이탈가능성은 모두 머신러닝으로 예측한다.
- 고객참여(customer engagement)가 높을수록 이탈률이 감소하며,
- 생애가치(liftetime value)은 특정 고객에서 발생할 모든 미래 순이익(net-profit)을 예측한 수치이다.
- 생애가치(liftetime value)를 예측할때 고객의 비즈니스 이탈확률을 사용한다.
ex) scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=NPAP12593822&dbt=NPAP
RNN을 이용한 고객 이탈 예측 및 분석
오늘날의 고객은 다양한 정보를 통해 넓은 선택의 기회를 가진다. 이러한 상황에서 기업들은 고객과의 지속적인 관계를 유지하기 어려워짐에 따라 고객 유지와 신규 고객 유치를 위한 마케팅
scienceon.kisti.re.kr
3. 고객 세분화 (Customer Segmentation)
- 고객 세분화는 비즈니스와 상호작용이 유사한 고객의 세그먼트를 식별하는 데 널리 사용하는 기법이다.
- 식료품 업체는 고객이 구매하는 식품종류에 따라 고객을 세분화할 수 있다. (육류 애호가, 미식가)
- 항공사나 호텔업체는 출장여행객, 일반여행객, 국내외 여행객으로 세분화하기도 한다.
- 마케팅의 효율성 향상이 목표
- 빅데이터 기술을 활용해 새로운 유형의 데이터(소셜네트워크 수집데이터)를 고객 세분화 알고리즘에 사용하기도 한다.
4. 영업 리드 우선순위 결정 (sale lead priority)
- 영업리드(sale lead)란 제품 또는 서비스를 구매할 가능성이 있는 잠재고객 중, 영업팀이 연락을 취하고 영업활동을 시작할 수 있는 대상이다. 영업리드 중 고객이 될 가능성이 높은 고객을 hot lead, 반대의 경우를 cold lead라 한다.
- 영업리드의 다양한 특징변수(고객의 지리적 위치, 유형, 웹사이트 참여도, 과거구매이력)을 사용해 각 리드가 바람직한 기간내에 종료될 가능성을 판별하는 예측모델을 만들 수 있다.
5. 그 외
- 감성분석(sentiment analysis)
- 이상거래탐지(fraud detection)
- 유지보수예측(predictive maintence)
- 장바구니 분석(market basket analysis, association mining, affinity analysis)
- 데이터기반 의료진단, 환자의 재입원 예측
- 변칙접근탐지
- 보험위험분석
- 유정/가스정 생산량예측
728x90'Distributed File System > Hadoop' 카테고리의 다른 글
Hadoop) Map-Reduce 개념과 예시 & YARN에 기반한 처리엔진 Spark (0) 2021.01.17 Hadoop) YARN 의 등장 배경과 아키텍쳐 및 하는일 (0) 2021.01.17 하둡 HDFS 개요 (101 of Hadoop Distributed File System) (0) 2020.11.30