자전거 수요 예측[1/4] 캐글 머신러닝 탐색적 데이터 분석

No video

자전거 수요 예측[1/4] 캐글 머신러닝 탐색적 데이터 분석

Рет қаралды 46,173

Күн бұрын

소스코드 : github.com/cor...
캐글의 공개 된 커널을 참고하여 머신러닝 자전거 대여량 예측 탐색적 데이터 분석을 해보았습니다.
다음 비디오에서는 피처엔지니어링을 해볼 예정입니다.
Kaggle bike sharing demand
👉 페이스북 : www. tod...
👉 인스타그램 : / _todaycode
* 아래 URL과 쿠폰코드로 할인금액으로 수강하실 수 있습니다.
----------------
모든 유료 강의 쿠폰코드 👉 bit.ly/inflear...
----------------
🌱 인프런 📈 증권 데이터 수집과 분석으로 신호와 소음 찾기 🔎 전체 보기 👉 bit.ly/inflearn... ( 쿠폰코드: 3083-a12fb4ddd2d4 )
🌱 인프런 📊 공공데이터로 파이썬 데이터 분석 시작하기 💻 전체 보기 👉 bit.ly/inflear... (쿠폰코드 : 3084-4e27fa1575a4 )
🌱 인프런 📝 단 두 장의 문서로 데이터 분석과 시각화 뽀개기⚡️ 전체 보기 👉 bit.ly/inflear... (쿠폰코드 : 3085-6040d593c7e9 )
🌱 인프런 📚 영화리뷰 감정 분석을 통한 파이썬 텍스트 분석과 자연어 처리 👉 bit.ly/inflear...

Пікірлер: 51

@kotai2003 5 жыл бұрын

E learning 강의의 새로운 스타의 탄생. 좋은 강의 감사합니다.

@todaycode 5 жыл бұрын

감사합니다 :)

@haneulkim4902 5 жыл бұрын

진짜 너무 알아듣기 쉽게 잘 가르쳐 주세요! 감사합니다.

@todaycode 5 жыл бұрын

와! 최고의 칭찬입니다. 감사합니다 :)

@hyun5459 3 жыл бұрын

항상 도움 많이 받습니다 너무 감사드려요...이건 진짜 재능 기부 입니다..ㅠ

@mamazon9878 6 жыл бұрын

너무 양질의 영상 만들어주셔서 감사합니다.

@spike6854 4 жыл бұрын

와우 대박 강의네요 감사합니다.

@user-oy1dm7yu9k 5 жыл бұрын

와 머신러닝하기전에 제가 가진 데이터로 해봤는데 데이터 속성이랑 시각화 보면서 데이터 파악하는데 되게 도움됐어용!

@todaycode 5 жыл бұрын

감사합니다 :)

@user-ys4bb4pz3b 2 жыл бұрын

시간이 지나도 달달한 영상

@bestenglishtutor1 3 жыл бұрын

알찬 영상 감사합니다..

@user-kf8pn5ti5o 6 жыл бұрын

너무 잘봤습니다 감사합니다

@user-ne7rq7yk1x 6 жыл бұрын

안녕하세요 영상 잘 보고 있습니다 ㅎㅎ 한가지 질문이 있어서요! 영상 마지막부분에 기계학습에서 종속변수는 normal 이어야한다고 하셨는데 통계적 모델링과 달리 기계학습의 회귀에서는 분포의 가정이 필요없지 않나요?!

@hl2lmm 5 жыл бұрын

감사합니다. 수강 잘하고있습니다

@KyungBaePark 6 жыл бұрын

잘보고 있습니다 감사합니다~

@user-cu9jv8eu2g 4 жыл бұрын

오우쉣!!! 작성자님 젠장 믿고 있었다고!! 깃허브 코드 너무 달아 ~ 공부 열심히 하겠다능

@user-oc5ez8sl2e 2 жыл бұрын

잘보겠습니다!

@todaycode 2 жыл бұрын

항상 시청해주셔서 감사합니다!

@user-cs1qj4oi7e 5 жыл бұрын

영상 잘 봤습니다~

@anghs0366 6 жыл бұрын

감사합니다.

@rootsky5551 6 жыл бұрын

Thanks, It helps me a lot.

@todaycode 6 жыл бұрын

Thank you for watching my video 🙂

@user-uj4xj1qk6u 4 жыл бұрын

16:12 에서 아웃라이어 제거 하는 코드가 다 보이지 않네요ㅠㅠ 혹시 코드 작성하신걸 보려면 어디서 볼수잇을까요? 강의 너무 재밌게 잘 봤습니다!

@ryu.jungwoon 6 жыл бұрын

안녕하세요? 영상을 잘 보고있습니다. 감사합니다. 각 영상의 description에 .ipny 파일 공유 가능할까요? 가끔 안보이는 코드가 있어 연습하는데 막힐 때가 있습니다. 감사합니다.

@todaycode 6 жыл бұрын

안녕하세요. 제 영상의 소스코드는 모두 제 github에 공개되어 있습니다. 이 영상에 대한 소스코드는 github.com/corazzon/KaggleStruggle/blob/master/bike-sharing-demand/bike-sharing-demand-EDA.ipynb 여기에 있습니다. 또, github.com/corazzon/KaggleStruggle/ 여기로 오시면 제가 캐글로 분투하고 있는 코드들도 함께 보실 수 있습니다. 감사합니다 ^^

@user-ss2pf2xl4c 4 жыл бұрын

별건 아니지만 season은 엄밀히 따지면 봄,여름,가을,겨울이 아닌 123,456,789,101112월로 나눈 기준이네요. 보시는 분들 참고하세요. holiday, workingday가 둘다 0인 것도 outlier로 볼 수 있나요?

@withscene 6 жыл бұрын

16:52에 나오는 Probability Plot에 질문이 있습니다. 1) 이 Probability Plot은 어떻게 해석해야하는 건가요? scipyt documentation보면 pp-plot과 qq-plot과 혼동하지 말라고 쓰여있는데, 어떤 차이가 있는지 알고싶습니다. 혹은 pp-plot이나 qq-plot처럼 직선과 가깝게 점들이 가까이 있으면 정규분포 가정을 만족하는 건가요? 2) X축에 있는 Theoretical qunatiles가 무엇인지 궁금합니다 -4, -3, -2... 이렇게 있는데 -4 분위수인가요? 이게 무슨뜻인가요?

@pack9338 5 жыл бұрын

오프라인 모임 추진은 안하시나여?? 분석영상이 너무 고퀄이에요😍

@todaycode 5 жыл бұрын

감사합니다 :)

@sunwooim1851 4 жыл бұрын

감사합니다. heatmap에서 vmax=.8 은 어떤 것을 설정하는 건가요? 그리고, trainWithoutOutliers = train[np.abs(train["count"] - train["count"].mean())

@todaycode 4 жыл бұрын

vmax와 vmin은 heatmap 의 색상의 범위를 조절해 주는 값입니다. 이 값에 따라 값이 적고 많고의 색의 농도가 달라지게 됩니다. 또 이상치를 구하는 것은 저도 캐글의 커널(노트북)을 따라한 것이라 제가 알고있는 방법과는 차이가 좀 있습니다. 이상치를 구할 때 보통 다음의 링크에 있는 공식을 사용합니다. medium.com/datadriveninvestor/finding-outliers-in-dataset-using-python-efc3fce6ce32

@user-zr1ex8hq6c 4 жыл бұрын

그래프 색상이 알록달록 이쁘기도 하군요~ 여성분 특유의 감성?

@mwwdal8256 4 жыл бұрын

마지막 부분에 오차범위를 3표준편차보다 작은값 이하로 아웃라이어를 설정해주신 이유가 있나요?

@todaycode 4 жыл бұрын

이상치를 구할 때 6시그마 밖의 값을 이상치로 계산하기도 합니다. 다음 링크의 그래프를 참고해 보세요. ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%ED%8E%B8%EC%B0%A8

@lolid_santakori 4 жыл бұрын

재밌지만 어렵네요ㅜㅜ 석사 나오셨나요??? 학사로도 이정도 가능한가요???

@user-hh9dt7fi5y 4 жыл бұрын

제 생각에는 영상 주제가 EDA 이므로 학사 1~2학년만 되어도 충분할 듯 싶습니다^^~

@hyesung1698 5 жыл бұрын

# trainWithoutOutliers trainWithoutOutliers = train[np.abs(train["count"] - train["count"].mean())

@todaycode 5 жыл бұрын

1. feature의 value도 gaussian distribution이 되도록 변형해 주는 것도 도움이 될 수 있습니다. 2. sns.barplot(data=train, x='year_month', y="count", ax=ax3) 이 부분은 import seaborn as sns 로 seaborn 이 제대로 import되었는지 확인해 보시면 좋을것 같습니다. 1번 문제와 관련해서 아래의 슬라이드를 참고해 보시는 것을 추천합니다. 지난해 파이콘에서 진행되었던 튜토리얼인데 캐글 노하우가 잘 정리되어 있습니다. www.slideshare.net/yeonminkim/pycon-korea-2018-kaggle-tutorialkaggle-break 감사합니다.

@hyesung1698 5 жыл бұрын

다른 그래프들은 모두 그려지는데 부분만 되지 않네요! ㅠ

@todaycode 5 жыл бұрын

X 축에 들어가는 year_month 컬럼이 train 데이터에 있는지 확인이 필요할 거 같아요.

@user-qh7lg2cc8b 5 жыл бұрын

안녕하세요 강사님! 혹시 영상보면서 공부하는 내용을 제 Git hub에 올려도 될까요?

@todaycode 5 жыл бұрын

안녕하세요. 저도 코드에 여러 출처를 참고했고 코드에 표시했습니다. 제 코드에 있는 출처도 함께 밝혀주신다면 괜찮을거 같습니다.

@user-qh7lg2cc8b 5 жыл бұрын

@@todaycode 네 감사합니다!

@user-qh7lg2cc8b 5 жыл бұрын

아직 별건 없지만 제 깃헙에도 구경와 주세요! github.com/OppiHmiK

@hl2lmm 5 жыл бұрын

데이터폴터 데이터는 다운받고싶습니다.

@todaycode 5 жыл бұрын

github.com/corazzon/KaggleStruggle/tree/master/bike-sharing-demand/data 해당 github을 클론받으셔도 되고, 캐글 사이트에서 직접 다운로드 받으셔도 됩니다. 다운로드 위치입니다. www.kaggle.com/c/bike-sharing-demand/data

@hl2lmm 5 жыл бұрын

관련사이트가 있나요

@todaycode 5 жыл бұрын

관련사이트는 없지만 소스코드는 다음에서 보실 수 있습니다. github.com/corazzon/KaggleStruggle/blob/master/bike-sharing-demand/bike-sharing-demand-EDA.ipynb

@Rrs-5def 6 жыл бұрын

마지막에 0이 줄어드는건 로그 스케일로 낮춰서이고.. 여전히 아웃라이어 많아보이는데 그냥 대충한듯.

@bdslee72 Жыл бұрын

잊지 않고 언제나 사용을 위해서 OneNote에 적어 놓았습니다. 관심있는 분들에게도 많이 전파하겠습니다. 감사하고, 늦었지만 열공하겠습니다. 1년 사이에 distplot에서 hist plot으로 변경 가이드가 되었네요. sns.distplot(df['count'], ax = ax1) >> sns.histplot(df['count'], kde=True, ax = ax1)

@todaycode Жыл бұрын

sns.displot 으로도 사용할 수 있습니다. dist에서 t를 빼주시면 되는데 이 그래프는 서브플롯을 지원해요! 감사합니다 :)