Análise Interativa de Hábitos Estudantis e Desempenho Acadêmico
Explorando o dataset "Student Habits vs Academic Performance" do Kaggle.
0. Introdução e Objetivos do Projeto
Este projeto apresenta uma análise da relação entre os hábitos de vida dos estudantes e seu desempenho acadêmico, utilizando o dataset sintético "Student Habits vs Academic Performance" do Kaggle. O objetivo é demonstrar um fluxo de trabalho em ciência de dados, desde a limpeza e exploração até a modelagem básica, com foco na criação de um portfólio robusto.
É crucial notar que o dataset é composto por 1.000 registros de estudantes simulados. As conclusões são para demonstrar técnicas de ciência de dados e não devem ser generalizadas para populações reais sem validação com dados autênticos.
Estatísticas Chave do Dataset
1000
Registros de Estudantes
16
Variáveis Analisadas
72.5
Média (Simulada) de Notas
Distribuição das Notas dos Exames (`exam_score`)
A variável alvo, `exam_score`, representa a pontuação final no exame. Sua distribuição nos dá uma ideia do desempenho geral dos estudantes (simulados) no dataset.
Este histograma mostra a frequência de diferentes faixas de notas.
3. Análise Exploratória de Dados (AED) Geral
Nesta seção, exploramos as características gerais do dataset, incluindo a distribuição das variáveis preditoras e suas correlações com a nota do exame.
Matriz de Correlação (Valores Simulados)
A tabela abaixo mostra correlações (simuladas) de Pearson entre variáveis numéricas selecionadas e a nota do exame. Valores próximos de +1 ou -1 indicam uma forte relação linear.
Variável
Correlação com `exam_score`
Idade (`age`)
0.05
Horas de Estudo/Dia (`study_hours_per_day`)
0.85
Horas em Mídias Sociais (`social_media_hours`)
-0.40
Horas em Netflix (`netflix_hours`)
-0.35
Frequência nas Aulas (`attendance_percentage`)
0.70
Horas de Sono (`sleep_hours`)
0.55
Frequência de Exercícios (`exercise_frequency`)
0.25
Saúde Mental (`mental_health_rating`)
0.65
Distribuição de Variáveis Preditivas
Selecione uma variável para visualizar sua distribuição:
Histograma para variáveis numéricas, gráfico de barras para categóricas.
4. Análise: Hábitos de Estudo vs. Desempenho
Esta seção foca em como hábitos de estudo específicos, como horas dedicadas ao estudo e frequência às aulas, se relacionam com as notas dos exames.
Horas de Estudo/Dia vs. Nota do Exame
Gráfico de dispersão mostrando a relação entre horas de estudo e nota.
Frequência às Aulas vs. Nota do Exame
Gráfico de dispersão mostrando a relação entre frequência e nota.
Desempenho por Faixas de Horas de Estudo
Boxplot comparando notas para diferentes faixas de horas de estudo.
5. Análise: Estilo de Vida e Bem-Estar vs. Desempenho
Aqui, exploramos como fatores de estilo de vida (sono, dieta, saúde mental, etc.) e contexto socioeconômico (simulado) se associam ao desempenho acadêmico.
Selecione um fator para visualizar sua relação com a nota do exame:
Gráfico de dispersão para numéricos, boxplot para categóricos.
6. Análise Preditiva Simplificada: Previsão de Notas
Nesta seção, demonstramos um processo simplificado de machine learning para prever a nota do exame. O objetivo é ilustrar a aplicação de técnicas como seleção de features, treinamento de modelo e avaliação, usando dados simulados.
Performance (Simulada) dos Modelos
Modelo
RMSE (no teste)
R² (no teste)
Regressão Linear
8.52
0.78
Random Forest Regressor
6.95
0.85
RMSE (Raiz do Erro Quadrático Médio) indica o erro médio das previsões. R² (R-quadrado) indica a proporção da variância da nota que o modelo consegue explicar. Valores simulados para ilustração.
Importância das Features (Exemplo do Random Forest)
O gráfico abaixo mostra quais características (features) o modelo Random Forest (simulado) considerou mais importantes para prever a nota do exame.
Simulador Interativo 'What-If'
Experimente com diferentes hábitos e características para ver uma estimativa da pontuação no exame, baseada em um modelo de Regressão Linear. Lembre-se que este é um modelo simplificado para interatividade web e os resultados podem diferir do modelo Random Forest mais preciso discutido na análise principal.
Pontuação Estimada: --
7. Principais Descobertas, Conclusões e Próximos Passos
Esta análise do dataset sintético "Student Habits vs Academic Performance" permitiu aplicar diversas técnicas de ciência de dados. As descobertas (simuladas) sugerem que hábitos de estudo, bem-estar e saúde mental estão associados ao desempenho acadêmico.
Sumário das Descobertas (Simuladas)
Hábitos de Estudo: Horas de estudo e frequência às aulas mostraram forte correlação positiva com as notas.
Estilo de Vida: Uso excessivo de mídias sociais tendeu a correlacionar-se negativamente. Sono adequado e boa saúde mental mostraram associação positiva com o desempenho.
Modelagem: Modelos como Random Forest indicaram que `study_hours_per_day`, `attendance_percentage` e `mental_health_rating` são preditores importantes.
Limitações
Natureza Sintética dos Dados: As conclusões são específicas para este dataset simulado e servem para fins de demonstração metodológica.
Tamanho do Dataset: 1000 observações podem limitar a complexidade dos modelos e a robustez estatística para subgrupos.
Próximos Passos Sugeridos
Validação com dados reais de estudantes (respeitando ética e privacidade).
Exploração de modelos preditivos mais avançados.
Engenharia de features mais aprofundada.
Este projeto serve como uma demonstração das capacidades analíticas e de comunicação de resultados em um contexto de ciência de dados.