- Resumo 🏃♀️
- Introdução ☀
- Pipeline do Projeto 🛠
- Métodos
- Resultados e Conclusões 📈
- Considerações Finais 🚀
- Bibliotecas Utilizadas e Suas Respectivas Funções 🐍
- Referências 📄
- Documentação 📚
- Agradecimentos 👏
- Contato 📪
Neste projeto, analisei dados do Spotify com o objetivo de explorar padrões e tendências relacionados às músicas. Utilizando dois conjuntos de dados principais, comecei com a leitura e visualização preliminar das informações disponíveis. Identifiquei que o dataset contém colunas com valores nulos, mas em quantidades mínimas que não afetam significativamente as análises.
Inicialmente, verifiquei as músicas menos populares, organizando-as em ordem crescente de popularidade, e também identifiquei as músicas mais populares, focando em canções que possuem uma pontuação acima de 90 na métrica de popularidade. Em seguida, organizei as músicas por data de lançamento para observar padrões temporais e realizei conversões de unidades, como transformar a duração das músicas de milissegundos para segundos.
Explorei as correlações entre variáveis, criando um mapa de calor que destacou fortes relações, como a correlação positiva entre energia e intensidade sonora (loudness) e a ausência de relação entre energia e acústica. Para visualizações adicionais, usei um conjunto amostral menor para criar gráficos de dispersão, destacando correlações positivas e negativas entre variáveis como energia versus intensidade sonora e energia versus acústica, respectivamente.
Além disso, criei um gráfico de distribuição que mostra a quantidade de músicas lançadas por ano. Identifiquei que a maior parte dos lançamentos ocorreu após os anos 2000, com um pico significativo em 2019. Complementando essa análise, desenvolvi gráficos de barras e linhas que relacionam a duração média das músicas ao longo dos anos, revelando tendências interessantes.
Por fim, realizei uma análise específica por gêneros musicais utilizando um segundo dataset. Explorei a duração média das músicas por gênero e ordenei os gêneros mais populares, destacando os 10 principais em termos de popularidade. Essa abordagem trouxe insights adicionais sobre preferências musicais e características dos diferentes estilos.
O projeto utilizou diversas ferramentas e técnicas de visualização, como mapas de calor, gráficos de dispersão, gráficos de barras e linhas, para apresentar as descobertas de forma clara e objetiva, contribuindo para uma compreensão aprofundada do universo musical do Spotify.
Este projeto teve como objetivo analisar dados do Spotify para identificar padrões em popularidade, duração e características musicais ao longo do tempo. Utilizei dois conjuntos de dados principais, explorando variáveis como energia, acústica e intensidade sonora, além de realizar análises específicas por gênero musical. Com o apoio de técnicas de visualização e estatísticas, destaquei insights relevantes sobre as tendências da indústria musical e as preferências dos ouvintes.
O objetivo deste projeto foi explorar e analisar dados do Spotify para identificar padrões e tendências em popularidade, duração e características das músicas, além de entender as relações entre variáveis como energia, intensidade sonora e acústica. Busquei também investigar como essas características variam ao longo do tempo e entre diferentes gêneros musicais, gerando insights que contribuem para a compreensão do comportamento da indústria musical e das preferências dos ouvintes.
- Utilização da API do Spotify para obter informações detalhadas sobre faixas, artistas, álbuns e hábitos de escuta dos usuários.
- Extração de dados públicos de outras fontes para complementar a análise.
- Limpeza de Dados: Remoção de valores ausentes, duplicatas e outliers.
- Transformação de Dados: Conversão de variáveis categóricas em numéricas, normalização de dados, e criação de novas features a partir das existentes, como a popularidade normalizada de músicas ao longo do tempo.
- Visualizações para identificar padrões e tendências nos dados, como a popularidade de gêneros musicais, variação na popularidade de artistas, e comportamento de escuta dos usuários ao longo do tempo.
- Análise estatística para entender a distribuição dos dados e relações entre diferentes variáveis.
- Seleção de Modelos: Escolha de algoritmos de machine learning adequados, como regressão linear, árvores de decisão e redes neurais.
- Treinamento de Modelos: Divisão dos dados em conjuntos de treinamento e teste. Treinamento dos modelos utilizando o conjunto de treinamento.
- Validação de Modelos: Avaliação do desempenho dos modelos utilizando métricas como precisão, recall, F1-score, e AUC-ROC.
- Análise dos resultados dos modelos para identificar os fatores que mais influenciam a popularidade das músicas.
- Interpretação dos insights obtidos e identificação de padrões de comportamento dos usuários.
- Desenvolvimento de dashboards e relatórios para visualização contínua dos dados e insights.
- Monitoramento do desempenho dos modelos e atualização com novos dados conforme necessário.
- Documentação detalhada de todo o processo, incluindo código, análise de dados, resultados e conclusões.
- Compartilhamento dos resultados e insights através de publicações, apresentações, ou repositórios de código, como GitHub.
- Desenvolvimento de um modelo em Power BI para visualização interativa dos dados e insights. O modelo permite aos usuários explorar tendências e padrões de maneira dinâmica, facilitando a análise e tomada de decisões.
- O BI ainda não foi dispobilizado online mas conta com algumas prévias aqui nesse site!
Este projeto foi conduzido em várias etapas para garantir uma análise completa e organizada dos dados do Spotify. Abaixo, apresento as etapas detalhadas dos métodos utilizados:
-
Carregamento dos Dados:
- Foram utilizados dois datasets:
tracks.csv(contendo informações gerais das músicas) eSpotifyFeatures.csv(focado em gêneros musicais). - Os arquivos foram lidos utilizando a biblioteca
Pandas.
- Foram utilizados dois datasets:
-
Verificação de Dados Nulos:
- Utilizei o método
pd.isnull()para identificar valores ausentes, garantindo que não houvesse impacto significativo nas análises.
- Utilizei o método
-
Resumo Estatístico e Estrutura dos Dados:
- Com o método
info()visualizei a estrutura das colunas. - Resumo estatístico foi obtido com
describe().transpose()para compreender distribuições e valores médios.
- Com o método
- Músicas Menos e Mais Populares:
- Ordenei as músicas pela coluna
popularitypara identificar as 10 menos populares. - Filtrei músicas com
popularity > 90para destacar as mais populares.
- Ordenei as músicas pela coluna
-
Datas de Lançamento:
- A coluna
release_datefoi convertida para o formato datetime, permitindo análises temporais detalhadas. - Organizei as músicas por data de lançamento para observar padrões históricos.
- A coluna
-
Distribuição por Ano:
- Criei um gráfico de distribuição com
sns.displot()para visualizar o número de músicas lançadas por ano.
- Criei um gráfico de distribuição com
-
Conversão de Unidades:
- Convertei a coluna
duration_ms(milissegundos) paraduration(segundos) utilizando uma funçãolambda.
- Convertei a coluna
-
Ajustes no Dataset:
- Removi colunas irrelevantes para análises específicas, como
key,modeeexplicit.
- Removi colunas irrelevantes para análises específicas, como
-
Mapa de Calor:
- Utilizei
sns.heatmap()para criar um mapa de calor, destacando correlações positivas (por exemplo, energia e intensidade sonora) e ausências de correlação (energia e acústica).
- Utilizei
-
Gráficos de Dispersão:
- Criei gráficos de dispersão para explorar relações entre:
- Energia vs. Intensidade Sonora (correlação positiva).
- Energia vs. Acústica (correlação negativa).
- Duração vs. Liveness (sem correlação).
- Criei gráficos de dispersão para explorar relações entre:
-
Gráfico de Barras:
- Relacionei a duração total das músicas ao ano de lançamento utilizando
sns.barplot().
- Relacionei a duração total das músicas ao ano de lançamento utilizando
-
Gráfico de Linha:
- Usei
sns.lineplot()para observar tendências anuais de duração das músicas.
- Usei
-
Duração por Gênero:
- Com o dataset
SpotifyFeatures.csv, criei um gráfico de barras que relaciona gêneros musicais com a duração média das músicas.
- Com o dataset
-
Popularidade por Gênero:
- Ordenei os gêneros mais populares, destacando os 10 principais com um gráfico de barras.
-
Bibliotecas Python:
Pandaspara manipulação de dados.MatplotlibeSeabornpara visualizações.NumPypara operações numéricas.
-
Plataformas de Desenvolvimento:
- Google Colab para execução e testes do código.
- GitHub para versionamento e documentação do projeto.
O mapa de calor abaixo demonstra as correlações entre diferentes variáveis do conjunto de dados. Destaques:
- Forte correlação positiva entre energia e intensidade sonora (loudness), indicando que músicas mais enérgicas tendem a ser mais altas.
- Ausência de correlação entre energia e acústica, sugerindo que músicas acústicas não necessariamente possuem menor energia.
Existe uma relação linear positiva entre energia e intensidade sonora (loudness). Isso sugere que músicas mais altas são frequentemente percebidas como mais energéticas.
Foi identificada uma correlação negativa entre energia e acústica, indicando que músicas mais acústicas tendem a ser menos enérgicas.
Não há evidências de uma relação significativa entre duração e liveness, reforçando que a duração de uma música não está ligada ao ambiente em que é gravada.
O gráfico de distribuição mostra o número de músicas lançadas por ano. Observações principais:
- O número de lançamentos aumenta significativamente após os anos 2000, com um pico em 2019.
- O crescimento pode estar relacionado ao advento de plataformas digitais.
O gráfico de barras destaca a variação na duração média das músicas ao longo das décadas. Nota-se um padrão consistente, mas com pequenas flutuações.
O gráfico de linha reforça as tendências apresentadas anteriormente, detalhando os picos e quedas na duração média.
O gráfico a seguir mostra a duração média das músicas por gênero. Músicas de opera e classical apresentam maior duração, enquanto gêneros como comedy e a capella possuem durações menores.
Os gêneros mais populares incluem Dance, Pop, Rap, Hip-Hop, e Reggaeton, refletindo tendências globais da indústria musical.
-
Correlações entre variáveis musicais:
- Energia e Intensidade Sonora (Loudness): Foi identificada uma forte correlação positiva, o que reforça a ideia de que músicas mais enérgicas tendem a ser percebidas como mais altas em volume. Isso pode ser atribuído ao fato de que músicas enérgicas são projetadas para provocar emoções intensas nos ouvintes, especialmente em gêneros como Dance e Pop.
- Energia e Acústica: A correlação negativa sugere que músicas acústicas, como baladas ou estilos clássicos, possuem menos elementos de energia, refletindo um ritmo mais calmo e introspectivo.
- Duração e Liveness: A ausência de correlação indica que a duração de uma música não está associada ao fato de ter sido gravada em um ambiente ao vivo. Isso pode ser explicado pela variedade de formatos de músicas ao vivo, que incluem desde performances curtas até extensos concertos.
-
Tendências temporais no número de músicas:
- A análise revelou um aumento exponencial no número de músicas lançadas após os anos 2000, com um pico em 2019. Isso coincide com a popularização de serviços de streaming, como Spotify e Apple Music, que facilitaram a produção e a distribuição de músicas por artistas independentes e grandes gravadoras.
- O aumento do acesso à tecnologia, como softwares de gravação e produção, também contribuiu para esse crescimento. Antes disso, os altos custos de produção e barreiras de entrada limitavam o número de lançamentos anuais.
-
Duração das músicas ao longo do tempo:
- A duração média das músicas mostrou uma certa consistência, com pequenas flutuações ao longo das décadas. A partir dos anos 1980, nota-se uma leve redução na duração média, possivelmente devido à adaptação às preferências dos ouvintes e ao consumo de músicas em formatos mais curtos, como rádios e, mais recentemente, playlists digitais.
- Apesar das tendências de redução, gêneros específicos, como música clássica e ópera, mantêm durações significativamente mais longas, preservando suas características tradicionais.
-
Análise por gêneros:
- Duração: Gêneros como Ópera e Música Clássica possuem as músicas mais longas, refletindo a natureza narrativa e complexa dessas composições. Por outro lado, gêneros modernos como Pop, Hip-Hop e Dance têm uma duração mais curta, alinhada às demandas da audiência contemporânea, que busca músicas rápidas e cativantes.
- Popularidade: Os gêneros mais populares, incluindo Dance, Pop, Rap, Hip-Hop e Reggaeton, indicam uma preferência global por estilos enérgicos e ritmados. Isso pode ser atribuído ao consumo em ambientes sociais, como festas, academias e eventos, onde esses gêneros desempenham um papel predominante.
- A diversificação de gêneros no Spotify também reflete o impacto da globalização cultural, com estilos regionais, como Reggaeton, ganhando relevância em mercados internacionais.
-
Impacto das características musicais na popularidade:
- Músicas populares tendem a apresentar uma combinação de energia, ritmo e intensidade sonora, enquanto atributos como acústica e instrumentalidade desempenham papéis menores. Isso demonstra uma preferência por músicas que são imediatamente envolventes e adequadas para ambientes dinâmicos, como festas ou academias.
- A popularidade dos gêneros sugere que as tendências de consumo são influenciadas tanto pela cultura global quanto pelo marketing da indústria musical.
-
Evolução da indústria musical:
- O crescimento na produção musical está intimamente ligado ao avanço tecnológico e à democratização do acesso a plataformas digitais. Esse cenário transformou o mercado, permitindo que artistas independentes tivessem alcance global.
- O declínio na duração média das músicas nos últimos anos pode refletir as mudanças no comportamento do consumidor, como a preferência por playlists personalizadas e a menor atenção para faixas longas em um mundo de consumo rápido.
Essas análises demonstram como as características musicais, as preferências do público e a evolução tecnológica moldaram o panorama da música nos últimos 100 anos. Além disso, o estudo destaca a relevância do Spotify como ferramenta para compreender tendências culturais e comportamentais, fornecendo insights valiosos para artistas, produtores e profissionais da indústria musical.
- Pandas: Manipulação de dados
- NumPy: Operações numéricas
- Matplotlib & Seaborn: Visualização de dados
- Scikit-learn: Ferramentas de machine learning
- Spotipy: Interface para a API do Spotify
- Documentação da API do Spotify: Spotify API Documentation
- Pandas Documentation: https://pandas.pydata.org/pandas-docs/stable/
- Scikit-learn Documentation: https://scikit-learn.org/stable/
- Notebook da Limpeza dos Dados
- Notebook da Análise Exploratória dos Dados
- Notebook das Previsões com Machine Learning
Agradecimentos especiais ao Spotify por fornecer acesso à sua API e aos desenvolvedores de bibliotecas open-source que tornaram este projeto possível e também ao site Kagle por disponibiliza-los!
- LinkedIn: Eduardo Coqueiro
- Site: Eduardo Coqueiro
- Kaggle: Eduardo Coqueiro










