APLICAÇÃO ANALYTICS COM ESTUDO DE CORRELAÇÃO: FATORES QUE TEM RELAÇÃO COM O SURGIMENTO DE DOENÇAS CARDÍACAS

Autores

  • Alyne Grieger Faculdade CESUSC
  • Bruno Eduardo Fernandes Hofmeister Faculdade CESUSC
  • Eduardo Neves Faculdade CESUSC
  • João Vicente Miranda Faculdade CESUSC
  • Lucas Comicholli Pinheiro Faculdade CESUSC
  • Luiz Fernando da Costa Junior Faculdade CESUSC
  • Luiz Gustavo de Miranda Gomes Faculdade CESUSC
  • Macauly Gonçalves Trevisiol Faculdade CESUSC
  • Felipe Muller da Cruz Naves Faculdade CESUSC
  • Isaak Assunção Faculdade CESUSC
  • Rejane Costa Faculdade CESUSC

Resumo

Em 8 de maio de 2019 os alunos de todos os semestres de 2019 do curso de Análise e Desenvolvimento de Sistemas participaram do III Aula Aberta. No evento estes foram organizados em equipes com no máximo 10 integrantes, para cada equipe foi entregue um problema de ordem quantitativa. Os professores indicaram um Dataset (conjunto de dados disponibilizados para pesquisa) para cada grupo com dois objetivos a serem alcançados. O primeiro, desenvolver uma rotina automatizada para captura, tratamento e carga dos dados de um site da web um Banco de Dados Não Relacional; o segundo, extrair os dados, armazená-los em uma planilha e realizar um estudo estatístico de correlação para identificar quais variáveis apresentam relação direta com a variável alvo determinada no problema apresentado. Para desenvolver a rotina automatizada utilizamos a linguagem de programação Python 3, com as bibliotecas SELENIUM e PANDAS , para armazenar os dados foi utilizado o Banco de Dados MongoDB. O problema apresentado para  nosso grupo tem origem nos dados extraídos no site https://www.kaggle.com/ronitf/heart-disease-uci sob o título de Heart Disease UCI tendo como alvo a identificação das variáveis  que tem correlação com a presença de doença cardíaca nos pacientes. A base de dados foi obtida em pesquisa na Cleveland Clinic Foundation. A variável alvo refere-se à presença de doença cardíaca no paciente. É inteiro valorizado de 0 (sem presença) a 4.  Na rotina desenvolvida foi possível identificar o potencial para a automatização dos processos de captura, extração e análise de dados como forma de identificar soluções para problemas que tenham origem dados disponíveis na internet. A partir da implementação desta rotina e do conhecimento das tecnologias aplicadas os integrantes da equipe identificaram diversas outras aplicações. Após execução da rotina que capturou e armazenou os dados foram identificadas e extraídas as variáveis independentes A, B, C e D do dataset original e a variável F como dependente. Nos testes realizados as variáveis que apresentaram correlação significativa foram A = 0,8767 e B = 0,98788.

Downloads

Publicado

12/11/2019

Como Citar

Grieger , A. ., Hofmeister , B. E. F. ., Neves , E. ., Miranda , J. V. ., Pinheiro , L. C. ., Costa Junior, L. F. da . ., Gomes , L. G. de M. ., Trevisiol , M. G. ., Naves , F. M. da C. ., Assunção , I. ., & Costa , R. . (2019). APLICAÇÃO ANALYTICS COM ESTUDO DE CORRELAÇÃO: FATORES QUE TEM RELAÇÃO COM O SURGIMENTO DE DOENÇAS CARDÍACAS. CADERNOS DE INICIAÇÃO CIENTÍFICA, 4(1). Recuperado de https://cesuscvirtual.com.br/index.php/CIC-CESUSC/article/view/448

Edição

Seção

Resumos - Análise e Desenvolvimento de Sistemas

Artigos mais lidos pelo mesmo(s) autor(es)