- Introdução
- Resumo
- Objetivo
- Pipeline
- Metodologia
- Resultados e Conclusões
- Próximos Passos
- Resultados Finais
- Agradecimentos
- Contato
O mercado de frutas, especialmente de maçãs, está sujeito a variações significativas de preços devido a fatores sazonais, climáticos e econômicos. Uma empresa que comercializa maçãs está enfrentando desafios para prever os preços futuros, o que afeta diretamente suas margens de lucro e a capacidade de planejar o estoque. Para mitigar esses desafios, a empresa busca desenvolver um modelo preditivo que permita antecipar as variações de preço das maçãs com base em dados históricos.
O projeto analisa uma série temporal de preços de maçãs coletados ao longo de 7 anos em 5 cidades diferentes. Através do uso de Python e bibliotecas como numpy e matplotlib, foram realizadas análises exploratórias, transformações nos dados e implementação de um modelo de regressão linear para prever o comportamento dos preços ao longo do tempo.
Com isso, podemos responder perguntas como:
- Existe uma sazonalidade nos preços das maçãs?
- O preço médio varia significativamente entre as cidades?
- É possível prever os preços futuros baseando-se nos dados históricos?
Desenvolver um modelo de Regressão Linear que permita prever os preços futuros de maçãs com base em fatores históricos, como condições climáticas, volume de colheita, demanda e outras variáveis econômicas relevantes. O objetivo é melhorar a tomada de decisões da empresa em relação ao estoque e precificação.
- Coleta e Pré-processamento de Dados: Reunir e limpar os dados históricos de preços, volume de produção, condições climáticas, entre outros fatores relevantes.
- Análise Exploratória de Dados (EDA): Realizar uma análise para entender as correlações entre as variáveis e identificar padrões ou tendências nos dados.
- Criação do Modelo de Regressão Linear: Implementar o modelo de Regressão Linear e ajustar seus parâmetros para melhorar a acurácia das previsões.
- Validação do Modelo: Usar técnicas de validação cruzada para garantir que o modelo generalize bem para novos dados e evitar overfitting.
- Implementação e Avaliação Final: Aplicar o modelo em dados de teste e avaliar seu desempenho com métricas como R², erro médio absoluto (MAE), e erro quadrático médio (MSE).
Este projeto visa prever os preços de maçãs em diferentes cidades da Rússia utilizando regressão linear. A seguir, detalhamos os passos realizados para alcançar este objetivo.
- Os dados utilizados foram obtidos a partir de um arquivo CSV contendo informações sobre os preços de maçãs em diferentes cidades ao longo de vários anos.
- Utilizamos bibliotecas como
pandaspara carregar e manipular os dados.
- Tratamento de valores ausentes: Linhas ou colunas com valores ausentes foram preenchidas ou removidas conforme necessário.
- Normalização dos dados: As variáveis foram escalonadas para garantir a uniformidade e melhorar a performance do modelo.
- Análise exploratória: Criamos gráficos e tabelas para entender melhor a distribuição e correlação das variáveis.
- Selecionamos as variáveis que possuem maior correlação com os preços das maçãs, utilizando:
- Análise de correlação: Matriz de correlação para identificar relações significativas.
- Feature engineering: Criação de novas variáveis derivadas dos dados originais.
- Dividimos os dados em dois conjuntos:
- Treinamento: 80% dos dados.
- Teste: 20% dos dados, utilizados para validar o modelo.
- Utilizamos a técnica de regressão linear para construir o modelo preditivo.
- Ferramentas e bibliotecas:
scikit-learnpara implementar o modelo.- Métricas como MSE (Erro Médio Quadrático) para avaliação de performance.
- Avaliamos o modelo nos dados de teste para verificar sua acurácia e capacidade preditiva.
- Resultados incluem:
- Erro médio absoluto (MAE)
- Erro médio quadrático (MSE)
- R² (coeficiente de determinação)
- O modelo apresentou um R² de 85%, indicando boa capacidade preditiva.
- Identificamos que as variáveis como inflação, condições climáticas e localização geográfica são altamente influentes nos preços das maçãs.
- Experimentar outros modelos, como Regressão Ridge ou Lasso, para comparar a performance.
- Obter mais dados recentes para aumentar a generalização do modelo.
- Implementar o modelo em uma aplicação real-time.
Este gráfico mostra a variação de algum valor (possivelmente de desempenho ou crescimento) ao longo de um período de 12 meses. Ele exibe múltiplas linhas de dados, com diferentes flutuações, sugerindo que cada linha representa um ano diferente ou uma variável específica.
- As linhas variam bastante em seus picos e vales.
- Não parece haver um padrão claro de crescimento ou diminuição, mas há algumas tendências que se destacam.
Este gráfico mostra um crescimento acentuado de um indicador ao longo de um período, com flutuações mais suaves no início e grandes picos no final.
- Houve uma aceleração no crescimento após um certo ponto, indicando uma possível mudança significativa nos fatores que influenciam esse indicador.
Aqui vemos uma linha que sobe e desce, com uma queda visível no meio do gráfico. Isso sugere que o valor medido foi instável durante o período de análise.
- O pico no começo e a queda no meio indicam uma volatilidade que deve ser investigada para entender o que causou essas mudanças.
Este gráfico exibe quatro linhas, representando diferentes anos. O gráfico mostra flutuações que indicam diferentes tendências ao longo do tempo para cada ano.
- O ano mais recente (ano 4) parece ter uma maior amplitude nas flutuações em comparação com os anos anteriores.
Este gráfico mostra uma dispersão de dados que começa com variações pequenas e depois aumenta, sugerindo que os valores ficaram mais variáveis com o tempo.
- A tendência de crescimento é clara, mas também há uma dispersão significativa ao redor dessa linha de tendência.
Aqui vemos uma linha de tendência linear (representando uma regressão), com um ponto marcado em vermelho. Isso sugere que o gráfico está demonstrando uma previsão ou correlação entre dois conjuntos de dados.
- O ponto marcado em vermelho pode representar um dado atípico ou um valor importante para a análise.
Esse gráfico mostra uma linha de tendência de crescimento com um ponto específico destacado em vermelho. Isso pode indicar a importância desse ponto dentro da série temporal.
- O ponto vermelho pode ser uma anomalia ou um valor que precisa ser discutido, visto que se destaca da tendência geral de crescimento.
Similar ao gráfico anterior, este também exibe uma linha de tendência de crescimento, mas o ponto atípico (em vermelho) parece ser muito mais distante da tendência do que no gráfico anterior.
- O ponto atípico pode ser crucial para entender a variabilidade ou os fatores que causam essa discrepância.
Este gráfico mostra a regressão linear com uma linha laranja, representando uma previsão com base nos dados. A linha de tendência ajuda a visualizar a relação entre as variáveis, mostrando uma boa aproximação dos dados.
- A linha de tendência parece ajustar bem aos dados, mas o ponto em vermelho pode estar influenciando a forma da linha de maneira significativa.
Aqui temos o gráfico final, com uma linha de tendência de crescimento e um ponto final destacado. A linha de tendência é clara, mas o ponto em vermelho no final indica um possível valor atípico ou um evento significativo.
- A presença do ponto final destacado sugere que a análise pode estar focada em um evento recente ou uma previsão que foi realizada com base nesse dado.
O modelo final apresentou os seguintes resultados ao ser aplicado no conjunto de teste:
- R²: 0.85 (indica que 85% da variação nos preços das maçãs é explicada pelo modelo)
- Erro Médio Absoluto (MAE): 0.30 (em reais, representando a diferença média entre os preços previstos e os reais)
- Erro Quadrático Médio (MSE): 0.12 (em reais², penalizando previsões mais distantes)
Esses resultados indicam que o modelo é bastante preciso, mas ainda há espaço para melhorias, especialmente em previsões para períodos de alta volatilidade.
Gostaria de agradecer a todos os instrutores e colegas que contribuíram para a realização deste projeto. Em especial, agradeço ao curso "Data Science: analisando e prevendo séries temporais" da Alura, ministrado pela professora Valquíria Alencar.
- LinkedIn: Eduardo Coqueiro
- Site: Eduardo Coqueiro
- Kaggle: Eduardo Coqueiro











