Data Analysis
-
GAN 아키텍처에 대한 개요 및 활용사례Data Analysis/Deep Learning 2021. 1. 28. 17:59
# GAN (generatvie adversarial networks) 한국어로는 생성적 적대적 신경망이라고 부른다. 2개의 이상의 신경망을 서로에게 향하게 하고, 서로에게 대항하듯이 훈련하게 함으로써 결과적으로 생성모델을 산출해내는 방식이다. # GAN 모델의 효용가치 * 일반적인 방식으로 학습하기 힘든 생성모델까지 제작해낼 수 있다. * 데이터가 한정된 상황에서 일반화(generalization)가 가능하다. * 모조데이터셋(simulated data)를 늘릴 수 있다. 극단적인 예시로는 다른 아키텍처 유형들을 동원해 딥러닝 문제를 해결할 때 필요한 데이터의 10% 만 있어도 될때가 있다. 또한, 풍부한 모조데이터 확보로 특정 업무에 대해 기여할 수 있다. 따라서, 적은 데이터로도 이런저런 일들을 할..
-
Streamlit - Text Input 받아서 Dynamic WebApp 구축하는법, text input을 event로 처리하는법Data Analysis/Streamlit 2021. 1. 11. 15:22
한국인들의 Streamlit 활용을 위해 포스팅합니다! Streamlit 은 한글로 된 정보가 많이 없다. 혹시나 어떤분에게 도움이 될까 글을 작성한다. 기본적인 사용법은 streamlit 홈페이지의 예시코드들을 따라 작성해보시면 된다. 혹시 기본적인 사용법에 대한 자료가 필요하시다면, 댓글에 이메일을 적어 두시면 예시코드파일을 보내드리겠습니다. # 예시 동영상 주의) Streamlit Forum에서 검색하여 작성한 코드이기에 완벽하지 않을 수 있습니다. 일단 기본적으로 streamlit에서는 event단위로 처리하는게 지원되지 않고 있다고 한다. (20년 6월기준) ( discuss.streamlit.io/t/get-text-input-when-user-pressed-return-key/3545 ) 허..
-
How to run streamlit from Colab (streamlit colab에서 작동시키기)Data Analysis/Streamlit 2021. 1. 11. 14:54
Streamlit 에 대한 한국어 글이 거의 없는 관계로 포스팅을 하게 되었습니다. 1. Colab 에 streamlit 패키지 설치 2. Colab 에 pyngrok 패키지 설치 3. 클라우드 리눅스 커널에 app.py 파일 만들기 (아래는 예시코드) %%writefile app.py import streamlit as st import numpy as np import pandas as pd from sklearn import datasets from sklearn.ensemble import RandomForestClassifier #PAGE_CONFIG = {"page_title":"StColab.io","page_icon":":smiley:","layout":"centered"} #st.beta..
-
Deep Learning - CNN(Convolutional Neural Networks) 에 대하여Data Analysis/Deep Learning 2021. 1. 3. 14:59
# Before CNN CNN 이전의 이미지 인식은 2차원(RGB까지 합하면 3차원)을 1차원 배열(flatten)로 바꾼뒤, MLP(Multi-Layer Perceptron) 신경망으로 Fully Connected 하게 학습시키는 방법이었음 이미지의 형상은 고려하지 않고, 단순히 flatten된 raw data를 직접 처리하기 때문에 많은 양의 학습데이터가 필요했고, 학습시간 또한 길었음 또한 이미지가 회전하거나 움직이면(이미지 증식시) 완전히 다른 데이터로 인식할 수 밖에 없었음 (단순히 flatten된 1차원 배열이었기 때문) -> MLP가 특징추출과 학습에 있어 비효율적이었음 이미지의 공간정보의 손실을 막을 방법을 찾아낸 모델이 바로 CNN # CNN의 개념 CNN의 가장 핵심적인 개념은 바로 이..
-
Kaggle 랭커로부터 데이터분석 공부하기 (1) - Houses Prices / by SerigneData Analysis/Kaggle 2020. 12. 20. 16:45
나 같은 초심자에겐 Kaggle Ranker 들의 코드를 공부하는 것이 많은 도움이 된다. 오늘은 House Prices -Advanced Regression Techniques 에서 Top 4% 에 해당하는 Serigne님의 코드를 분석하여 데이터분석의 가이드라인을 잡아보고자 한다. SanFrancisco 범죄예측과 다르게 해당 컴페티션은 특징칼럼(벡터)가 80개나 되는데에 비해, 데이터 건수는 1460여개 밖에 되지 않아 필자는 전처리에서 데이터 유실을 피하기 위해 많은 어려움을 겪었다. 1. Index 컬럼 Drop Submit Form 을 보면 'Id' 와 'SalePrice' 컬럼만 제출하게 되어있다. 필자는 'Id' 컬럼을 pd.read_csv("filename",index_col = 'Id'..
-
GAN - Mode CollapseData Analysis/Deep Learning 2020. 12. 17. 17:21
GAN 을 학습시키다보면 생성자(Generator)가 다양한 이미지를 만들어내지 못하고, 비슷한 이미지만 계속 생성하는 경우가 있는데, 이를 Mode Collapse라 칭한다. Mode는 최빈값, 가장 빈도가 높은 값을 말하며, Mode Collapse 를 MNIST 숫자데이터(0~9)에서 예로 들어 설명하자면, mode는 총 0~9, 10개이고 랜덤노이즈(z)를 입력으로 받는 생성자(G)가 판별자(D)를 속이기 위해 노이즈를 변환하는데, 변환된 데이터의 분포(라벨)이 특정 숫자(mode)에 치우칠때, Mode Collapse가 발생했다고 말합니다. 즉, Generator가 Discriminator를 속이기 위해 한 숫자에 가까운 벡터만 생성한다는 말입니다. Generator가 0~9 숫자 중, 랜덤노이..
-
Deep Learning 학습 모델 저장하기Data Analysis/Deep Learning 2020. 12. 16. 16:44
# 학습된 모델을 저장한다는 말은 모델의 '아키텍쳐'와 모델의 '가중치를 저장한다는 말 # keras에서 save()함수로 모델 아키텍처와 가중치를 저장가능 (h5파일 형식으로) # 모델저장하기 from keras.models import load_model model.save('my_model.h5') # 저장된 모델 불러오기 from keras.models import load_model model = load_model('my_model.h5') # 모델 아키텍쳐 보기 # 1번방법 from keras.models import load_model print(model.summary()) # 2번방법 (가시성 좋게 시각화) from IPython.display import SVG from keras.u..
-
Mac 리눅스 아나콘다 가상환경 오류 (CommandNotFoundError)Data Analysis/tensorflow 설치 2020. 12. 15. 14:31
CommandNotFoundError : Your shell has not been properly cofigured to use 'conda activate'. 라는 오류를 마주하신분 여기 해결법이 있습니다.......!!!!!!!!!!!! # Window & cond aprompt에서는 conda activate [가상환경명] # Mac 은 source activate [가상환경명] 이로써 모두들 tensorflow를 쓸 수 있으시길..!