Como fazer CLUSTERIZAÇÃO com Python

Рет қаралды 5,895

Жыл бұрын

Eu quero te ensinar como fazer CLUSTERIZAÇÃO com Python e nesse vídeo de hoje a gente vai criar um modelo de Machine Learning de Clusterização, eu vou mostrar pra vocês tudo bem em detalhes, passo a passo e na prática.
Primeiramente o que é a Clusterização? A clusterização nada mais é do que criar agrupamentos, ou seja, clusters são grupos, então a gente faz isso pra criar grupos e avaliar o comportamento de acordo com os dados dos grupos específicos.
Então nesse nosso exemplo o que a gente vai fazer? A gente tem dados aqui de consumo de energia e a gente quer agrupar os consumidores pelas suas similaridades pra compreender o comportamento desses clientes, desses consumidores de energia elétrica em relação ao consumo de energia.
Esses modelos de clusterização, modelos de Machine Learning de clusterização, eles são muito utilizados também pela equipe de Marketing, pela equipe de vendas, ou seja, da pra utilizar esse tipo de trabalho, esse tipo de modelo preditivo pra qualquer trabalho relacionado à área de negócio, seja pra Marketing pra fazer campanhas de Marketing,
de acordo com o perfil de consumidores, da pra avaliar grupos de clientes de acordo com vendas, da pra gente avaliar perfis de clientes inadimplentes, ou seja, pra qualquer coisa da pra gente utilizar a clusterização porque a gente consegue através dos dados criar grupos e avaliar esses grupos.
Iremos trabalhar com dados reais coletados no país da França, que foi disponibilizado no site do UCI pra podermos fazer testes e analises com modelos preditivos.
Também vou mostrar pra vocês como funciona o PCA que é o Principal Components Analysis, que é um método muito utilizado para fazermos a redução de dimensionalidade, além disso iremos também abordar diversos gráficos bem interessantes, vale a pena conferir este vídeo todo na íntegra.
Com esse vídeo eu creio que você irá aprender de uma vez por todas como fazer clusterização em Python.
E compartilhe este vídeo com seus amigos • Como fazer CLUSTERIZAÇ...
Link dos vídeos que são muito TOP´s e com certeza irá te ajudar muito:
Como fazer NORMALIZAÇÃO e PADRONIZAÇÃO de DADOS (O Guia Completo)
• Como fazer NORMALIZAÇÃ...
Como fazer PREVISÃO DE CANCELAMENTO com Machine Learning:
• Como fazer um Modelo d...
Como fazer PREVISÃO DE VENDAS com Machine Learning
• COMO FAZER PREVISÃO DE...
Como IDENTIFICAR OUTLIERS de um jeito BEM MAIS RÁPIDO
• Como IDENTIFICAR OUTLI...
Os links abaixo são de afiliados, comprando através desses links eu ganho uma pequena comissão do site. É uma forma de você me ajudar a continuar produzindo esses excelentes conteúdos.
📚 Livros que me ajudam a aprimorar meus conhecimentos
📚 Python para Data Science: e Machine Learning descomplicado: amzn.to/40agbys
📚 Microsoft SQL Server 2016 express edition interativo: amzn.to/3MhjfTM
📚 Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina: amzn.to/3MgRiLT
📚 Business Intelligence e Análise de Dados para Gestão do Negócio: amzn.to/3Mf9bdO
📚 Estatística prática para cientistas de dados: 50 conceitos essenciais: amzn.to/3rWup9H
📚 Projetos Ciência de Dados com Python: amzn.to/3SI2ftZ
📚 Estatística e Ciência de Dados: amzn.to/3R1nSnO
📚 Python para Análise de Dados: amzn.to/46fSqqa
👍 Equipamentos que utilizo no meu dia a dia
🖥️ Monitor Dell: amzn.to/3Sj5Dvb
💻 Notebook Dell: amzn.to/3Qw2uGQ
🖱️ Mouse Microsoft: amzn.to/3Q6Xwio
🖱️ Mouse Microsoft: amzn.to/49Em8bd
🖲️ Mouse Pad: amzn.to/3srQzAR
⚙️ Pen Drive 32Gb: amzn.to/3MMvZ58
⚙️ Conector Hub USB-C: amzn.to/3GnwCys
🔌 Filtro de linha: amzn.to/3QuLmQP
🔋 Smart Plug Wi-Fi: amzn.to/3FxlZse
🙂 Maquina de Barbear c/ 12 acessórios Philips: amzn.to/47uixdU
⚙️ Novo Echo Dot 5ª geração: amzn.to/473eSDL
🪑 Cadeira Gamer: amzn.to/3SGJLd6
💻 Capa Protetora Para Laptop Macbook Air M2 15 Polegadas: amzn.to/41d19bS
💻 Capa Case Compatível Para Macbook New Air 13,3: amzn.to/3RoHi6e
💡 Bastão Led Sokani 25x: amzn.to/49Gnxye
💡 Bastão Led Portátil: amzn.to/3sH1aaX
💡 Kit de Iluminação com SoftBox: amzn.to/3G1Hz8E
📺 Smart TV 4k Sansung: amzn.to/3sH052T
📺 SAMSUNG Smart TV Crystal 50" 4K UHD: amzn.to/47FCAGG
Link para download do conjunto de dados e do Jupyter Notebook deste vídeo:
docs.google.com/uc?export=dow...
#cienciadedados
#machinelearning
#datascience

Пікірлер: 30

@aires_faustino 3 сағат бұрын

Que fantástico Jefferson 🎉... Temos um projeto na faculdade e preciso que me ajudes a disponibilidade de um conteúdo de um modelo de deteção completo por favor 🙏🏿

@user-wg9qb2rc4u 3 сағат бұрын

Amei imenso, foi fantástico de certeza ❤️, mas eu gostaria que tu faça um vídeo fazendo um modelo de deteção e classificação de anomalias usando Tensor flow 🙏🏾

@ariclenesbrawl9601 3 сағат бұрын

O treinamento foi bem feito, o modelo de classificação e detecção e mas desafiador que tal fazer um vídeo desses aqui no canal?

@MrDEMATUBE Жыл бұрын

Provavelmente o melhor canal de análise de dados e modelagem

@thelil777bro3 Ай бұрын

muito bom!

@rodi21 Жыл бұрын

Bom dia Jefferson!! Muito bom esse canal que acabou de nascer. Traz muita informação e aplicação prática das técnicas. Para iniciantes, como eu, super valioso. Me permite uma sugestão? Se você puder "printar" alguns passos para vermos as saídas, creio que seja muito importante. Por exemplo: quando você faz a redução de dimensionalidade usando o PCA, imprimir essa variável "pca" para vermos em que ela se transformou. Um forte abraço e vida longa ao canal!

@MrGhustavo22 Жыл бұрын

Esse vídeo tem muita técnica envolvida, cabe maratonar as indicações na descrição para aperfeiçoamento, valeu novamente Jefferson!

@claudio1417 Жыл бұрын

Jeferson, top. As always show. Congratulations friend.

@nerddosdados Жыл бұрын

Oi Claudio muito obrigado…valeu

@leandroneri7135 Жыл бұрын

Show, excelente ja vou me inscrever

@HENRIQUECANDINHO Жыл бұрын

Muito bom seu trabalho! Se puder outra hora fazer um video sobre criação de regras com arvores de decisão ou outros algoritmos e qual a melhor forma de aproveitar essas regras para um modelo.Vida longa ao canal!

@nerddosdados Жыл бұрын

Obrigado, que bom que está gostando. Tem uma playlist aqui no canal com alguns modelos de machine learning e tem alguns com árvore de decisão e alguns outros algoritmos

@HENRIQUECANDINHO Жыл бұрын

@@nerddosdados Estou maratonando, aprendendo sempre mais, valeu!

@alehffeinstein Жыл бұрын

Cara, sensacional! Muito obrigado, cê tem contrubuído muito pro meu crescimento como cientista de dados! Algumas perguntas: Porque você colocou o número de componentes no PCA igual a 2? (n_components = 2) tem algum jeito de saber qts componentes colocar? Nesse caso você usou normalização dos dados, ao invés de padronização. Normalizar é melhor do que padronizar, em termos de clusterização? O uso de normalização dos dados deu diferença na resposta do Silhouete score? E da curva de Elbow? Mais uma vez muito obrigado pelo vídeo e pela ajuda, vou baixar aqui o código e ir testando pra aprender mais. Abraço!

@nerddosdados Жыл бұрын

Olá, No caso do PCA que eu utilizei 2 componentes eu usei mais para nível de demonstração e demonstrar uma possibilidade nova. No caso do PCA como que eu geralmente utilizo. Primeiro ponto que eu utilizo o PCA somente quando tenho mais de 100 variáveis, quando tenho menos de 100 variáveis eu não costumo utilizar. Em relação a saber a quantidade ideal de componentes o ideal é fazer testes mesmo. Por exemplo, se eu tiver um conjunto de dados com 300 variáveis eu faço testes pra ver o melhor resultado gerando diversos PCA´s. Gero com 30, 35, 40, 45, 50, 60, 70, 80, 90 e faço todo trabalho de criar um modelo e testar e avaliar cada um deles pra ver a melhor performance. Nesse exemplo específico que utilizei a normalização ao invés da padronização foi porque de acordo com estes conjuntos de dados a normalização ficou melhor, o valor da silhuete score ficou mais alto que fazendo da padronização, mas para saber qual utilizar sempre é ideal fazer teste das duas formas, padronizando e normalizando. Em relação ao número de cluster não gerou diferença, o melhor número de cluster foi 8 em todos os casos mesmo. Mas tudo depende dos dados que temos, do conjunto de dados e do volume de dados também.

@MrJoaoToin 11 ай бұрын

Vídeo sensacional e muito didático. Eu tentei executar o algoritmo sem usar o PCA, mas houve uma série de erros que surgiram e estou resolvendo. Teria outro vídeo se o uso de PCA?

@nerddosdados 10 ай бұрын

Olá vou fazer esse vídeo sem o PCA em breve posto aqui no canal

@erikhenrique6700 3 ай бұрын

Daria também para fazer isso com ítens de uma usina, traçar um paralelo entre ítens e tentar buscar uma familiaridade entres os ítens, porém com códigos diferentes, e descrição também, só a semelhança no uso... E que está na base de dados, isso teria?

@nerddosdados 3 ай бұрын

Seria possível fazer sim tudo vai depender dos dados que você tem pra trabalhar

@claudio1417 Жыл бұрын

Jeferson, qual seu entendimento sobre Data Leakage? Minha dúvida é: será que quando criamos novas variáveis (colunas), ou fazemos alguma engenharia antes de separar os dados de treino e teste não estou cometendo erro? Pelo que eu entendi basicamente, só devemos normalizar e padronizar os dados em cima dos dados originais, certo? Cara, estou lendo à respeito e surgiu essas dúvidas.

@nerddosdados Жыл бұрын

Oi Cláudio. Quando fazemos uma engenharia de atributos devemos criar essas novas variáveis antes da padronização ou normalização, porque quando aplicamos essa normalização ou padronização também será necessário fazer nessas novas variáveis. E quando o modelo preditivo entra em produção por exemplo sempre precisará gerar essas novas variáveis. Mas da mesma maneira que uma engenharia de atributos ajuda, dependendo do contexto e do cenário ela pode causar uma multicolinearidade (variável semelhante a uma atual e gerar uma correlação maior que o normal é prejudicar o modelo preditivo) isso pode as vezes causar um overfithing no modelo. Exemplo: se você tem uma variável SALÁRIO e você cria uma nova variável como FAIXA SALARIAL, você precisará treinar e testar o modelo e ver qual variável ficará melhor, se você usar as duas….como elas correspondem a um mesmo tipo de informação isso pode te causar um Data Leakage ou um overfithing ou até mesmo uma performance baixa do modelo

@claudio1417 Жыл бұрын

@@nerddosdados Entendi. Muito obrigado pelo esclarecimento Jefferson. Ótima noite. Show,.velho.

@raphaelbonillo5280 Жыл бұрын

Vi no Orange um rapaz dizendo que o Silhouette Score tem o mesmo obejetivo do Elbow Method. Fiquei em dúvida agora. Pra avaliar o modelo não seriam os métodos de Inertia e o Dunn Index?

@nerddosdados Жыл бұрын

Ola Raphael. Na verdade todos esses métodos são métricas de avaliação do modelo, todos servem pra avaliar o modelo.

@pardalgamesroyalrealpedro5995 6 ай бұрын

No Silhouette Score, você tem acesso aos valores de acordo com a quantidade de cluster, então retorna uma análise mais precisa do resultado vs número de cluster. No Elbow, você bate o olho e já define de maneira rápida, mas menos precisa, qual o número de cluster utilizar.

@user-us8vg3gm1s 7 ай бұрын

Eu consigo criar um cluster assim de clientes e conseguir saber quais clientes estao em qual cluster? EX: saber todos os Id's dos clientes do cluster 1

@nerddosdados 6 ай бұрын

Sim da pra fazer um slide e filtrar e separar os ids