Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Final Mic FFF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

“AÑO DE LA UNIVERSALIZACIÓN DE LA SALUD”

UNIVERSIDAD NACIONAL DEL ALTIPLANO - PUNO


FACULTAD DE MECANICA ELECTRICA ELECTRONICA Y SISTEMAS
ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS

Aplicación de un modelo predictivo para la detección de pacientes con diabetes usando


árboles de decisión en el Hospital Manuel Nuñez Butron - Puno
Metodologías de la Investigación Científica

Docente:
Ing. Wildo Sucasaire Monroy
Presentado:
● Huayta Quispe, Carlos
● Castillo Atención, Jhon Carlos
● Condori Maquera, Junior Enrique
● Yancapallo Manuel, Joel Marcos

PUNO - PERÚ
2020
ÍNDICE

Contenido
1. Introducción: .................................................................................................................... 3

2. Título: ................................................................................................................................ 4

3.1. Planteamiento del Problema .................................................................................... 4

3.2. Descripción del problema ......................................................................................... 4

3.3. Formulación del problema ....................................................................................... 4

4. Objetivos: .......................................................................................................................... 4

4.1. Objetivo general: ....................................................................................................... 4

4.2. Objetivos secundarios: .............................................................................................. 4

5. Marco teórico ................................................................................................................... 5

5.1. Antecedentes de la investigación .............................................................................. 5

5.2. Bases teóricas ................................................................................................................. 5

5.2.1. Árboles de decisión ................................................................................................ 5

5.2.2. Aprendizaje supervisado y machine learning ..................................................... 5

5.2.3. Modelos predictivos ............................................................................................... 6

5.2.4. Validación y limpieza de datos ............................................................................. 6

5.2.5. Enfermedades Crónicas ........................................................................................ 7

5.2.6. Diabetes................................................................................................................... 7

6. Hipótesis de la investigación ........................................................................................... 8

6.1. Definición de la hipótesis .......................................................................................... 8

1
6.1.1. Hipótesis general: .................................................................................................. 8

6.1.2. Hipótesis específicas: ......................................................................................... 8

6.2. Características de la hipótesis .................................................................................. 8

6.3. Requisitos que deben reunir las hipótesis. .............................................................. 8

6.4. Elementos de la hipótesis. ......................................................................................... 8

7. Variables e Indicadores ................................................................................................... 9

7.1. Definición de las variables ........................................................................................ 9

7.2. Tipos de variables ...................................................................................................... 9

7.3. Operación de las variables...................................................................................... 10

7.3.1. Limpieza de datos. ........................................................................................... 10

7.4. Variables .................................................................................................................. 10

7.6. Índices....................................................................................................................... 11

8. Tipo y Diseño de la Investigación ................................................................................. 12

8.1 Tipo de Investigación. .................................................................................................. 12

8.2 Diseño de Investigación. .............................................................................................. 12

9. Justificación de la Investigación ................................................................................... 13

10. Población y tamaño de muestra de la investigación ................................................. 134

11. Cronograma de actividades ........................................................................................ 135

12. Presupuesto ................................................................................................................... 135

13. Posibles obstáculos y alternativas de solución .......................................................... 16

14,-Bibliografia

15.-Anexos

2
Aplicación de un Modelo Predictivo para la Detección de Pacientes con

Diabetes Usando Arboles de Decisión en el Hospital Manuel Nuñez Butron

de la ciudad de Puno

1. Introducción:
La presente investigación tiene como propósito desarrollar una aplicación de un modelo
predictivo para el diagnóstico de la diabetes, soportado con el método Decisión Tree
Classifier. Este proyecto está definido y aplicado especialmente para el Hospital
Manuel Nuñez Butron de la ciudad de Puno y como también para el contexto peruano,
enfocado directamente a las instituciones prestadoras de servicios de salud tanto
públicas como privadas, esta aplicación se basa en el análisis sintomático del paciente,
identificando aquellos factores que intervienen en el desarrollo y desenlace de la
diabetes tipo 1, con el propósito de brindar al Hospital Manuel Nuñez Butron de la
ciudad de Puno y entidades prestadoras de servicios de salud información que les sea
de utilidad para determinar perfiles de riesgo por cliente, además de ser aplicable
también para mejorar la situación de salud pública en el país al poderse usar como base
para investigaciones científicas a futuro que motiven la concientización del riesgo real
que se tiene de desarrollar la enfermedad. Al mismo tiempo con el fin de brindar un
modelo de trascendencia para la realidad peruana, se desarrolla una investigación sobre
la enfermedad crónica de mayor factor epidemiológico en el Perú, identificándose como
la diabetes y además se identificó que sus causas podían ser identificadas o deducidas
por ser propias de los hábitos diarios. Asimismo, para esta aplicación se desarrolló una
clasificación de árboles de decisiones, además de algunas herramientas de Predictive
Analytics para identificar el mejor soporte al modelo planteado y a la realidad del
Hospital Manuel Nuñez Butron de la ciudad de Puno identificadas como foco.

3
2. Título:
Aplicación de un modelo predictivo para la detección de pacientes con diabetes usando
árboles de decisión en el Hospital Manuel Nuñez Butron de la ciudad de Puno.
3. El problema de investigación:
3.1. Planteamiento del Problema
¿Cómo podría ayudar el método de los árboles de decisiones en la detección de
diabetes en un paciente del Hospital Manuel Nuñez Butron de la ciudad de
Puno?
3.2. Descripción del problema
La diabetes se está convirtiendo rápidamente en la epidemia del siglo XXI y en
un reto de salud global. La Organización Mundial de la Salud indica que, a nivel
mundial, de 1995 a la fecha casi se ha triplicado el número de personas que
viven con diabetes, y es por esta causa que el proyecto a desarrollar trata de
identificar la diabetes de un paciente con la ayuda de los árboles de decisiones
y que por supuesto más adelante se podrá hacer un análisis más profundo de
este proyecto.
3.3. Formulación del problema
En los últimos años, la utilización de técnicas estadísticas en el análisis y
predicción de diabetes en la salud pública ha tomado fuerzas y en este modelo
predictivo se pretende tomar variables como la glucosa, presión sanguínea,
insulina, índice de masa corporal, edad y sexo. Los desenlaces que se pretende
a partir de este modelo es la de predecir la diabetes a partir de los árboles de
decisiones

4. Objetivos:
4.1. Objetivo general:
Elaborar un modelo predictivo que permita pronosticar el diagnóstico de
pacientes con diabetes en el Hospital Manuel Nuñez Butron de la ciudad de
Puno usando árboles de decisión
4.2. Objetivos secundarios:
1: Analizar los principales tipos de enfermedades crónicas y las herramientas
desklearn.tree que permitan la implementación de un modelo predictivo de
enfermedades crónicas para el contexto de instituciones del rubro de salud
públicas y privadas en el Perú.
4
2: Diseñar un modelo predictivo que tenga una precisión de asertividad de más
del 80%.
3: Validar el modelo predictivo a través del juicio de un experto en medicina.
4: Asegurar la continuidad del modelo permitiendo diagnosticar el desarrollo de
la diabetes a través de un modelo dinámico, escalable y de mejora continua.
5. Marco teórico
5.1. Antecedentes de la investigación
Haciendo una revisión de la literatura sobre esta investigación se encontró pocas
referencias directamente relacionadas con el tema de estudio y para aumentar la
relevancia la investigación se hizo uso de estudios indirectamente relacionados, como
por ejemplo hace un énfasis a la clasificación de los árboles de decisión
5.2. Bases teóricas
5.2.1. Árboles de decisión
Los árboles de decisión son modelos predictivos formados por reglas binarias
(si/no) con las que se consigue repartir las observaciones en función de sus
atributos y predecir así el valor de la variable respuesta.
Muchos métodos predictivos generan modelos globales en los que una única
ecuación se aplica a todo el espacio maestral. Cuando el caso de uso implica
múltiples predictores, que interaccionan entre ellos de forma compleja y no
lineal, es muy difícil encontrar un único modelo global que sea capaz de reflejar
la relación entre las variables. Los métodos estadísticos y de machine learning
basados en árboles engloban a un conjunto de técnicas supervisadas no
paramétricas que consiguen segmentar el espacio de los predictores en regiones
simples, dentro de las cuales es más sencillo manejar las interacciones. Es esta
característica la que les proporciona gran parte de su potencial.

5.2.2. Aprendizaje supervisado y machine learning


El objetivo de un algoritmo de aprendizaje supervisado es obtener una
clasificación a través de lo aprendido de ejemplos de entrenamiento. Esta
clasificación es algo que puede ser usado para hacer predicciones en ejemplos
de prueba.
Dentro del contexto de aprendizaje supervisado nace el término de Machine
Learning o aprendizaje de máquina, el cual hace referencia a la detección de
manera automática de patrones significativos en datos. Una característica de la
5
aplicación de machine learning es que se aplica en casos donde los patrones a
identificar son de alta complejidad, por lo que un ser humano no cuenta con la
pericia suficiente para aprender de esto de manera específica (Shalev-Shwartz,
Ben-David, 2014).

5.2.3. Modelos predictivos

Modelo predictivo es un nombre dado a una colección de técnicas matemáticas


con la meta en común de encontrar una relación matemática entre un objetivo,
respuesta o variable dependiente y varios factores de predicción y variables
independientes, con el objetivo de medir valores futuros de estos factores de
predicción e insertándose en la relación matemática para predecir valores
futuros de la variable objetivo. Cómo estas relaciones nunca son perfectas en la
práctica, es deseable dar una medición de dudosa en las predicciones. (Dickey,
2012)

Para identificar aquellos factores que interceden en la predicción, se pueden


agrupar en tres categorías: aquellos que tienen poca posibilidad de afectar el
resultado, aquellos con cierta certeza para afectar los resultados y deben ser
considerados en el modelo y los que se encuentran en el medio, que pueden
influir o no en el resultado final, siendo necesario identificar a través de una
serie de técnicas si deben ser incluidas en el modelo (Dickey,2012).

5.2.4. Validación y limpieza de datos

La validación de datos significa confirmar que se trata de datos confiables,


mientras que la limpieza significa corregir errores en ella. No es inusual tener
dificultades en identificar si un valor es correcto o no, y si no es correcto, es
imposible encontrar el valor correcto. Sin embargo, es posible adquirir
seguridad razonable de que ciertos datos son propensos a ser correctos o
incorrectos, debido a que aprueban o no aprueban una serie de controles.
Cuando los datos son muy propensos a ser erróneos, es mejor descartar,
dedicando mayor esfuerzo a la validación de datos que a la reparación de los
mismos (Elkan, 2013). Dentro de los tipos de limpieza de datos, existe el
mezclar registros que hacen referencia a la misma entidad y no deben estar

6
separados (Elkan, 2013), siendo esto algo cotidiano si se trata de un conjunto de
información proveniente de diversas fuentes. Asimismo, no es inusual que,
según el algoritmo empleado para realizar la predicción, se deba hacer una
transformación de las variables hacia valores discretos o hacia valores binarios
que sean soportados por el algoritmo. Resulta cotidiano tener intervención
humana en esta fase debido a la complejidad de la información con la que se
puede trabajar.

5.2.5. Enfermedades Crónicas


También conocidas como enfermedades no transmisibles (ENT) son
condiciones médicas crónicas o enfermedades que no son infecciosas. Entre los
ejemplos más comunes están apoplejía, ataques al corazón, diabetes, cáncer,
asma y depresión. Algunas de las ENT están precedidas por conductas poco
saludables, seguido de la aparición de factores de riesgo metabólico y de
enfermedad. Los factores de riesgo asociados a las enfermedades crónicas son,
sobrepeso y obesidad, presión arterial elevada, aumento de los niveles de
glucosa en la sangre y niveles no óptimos de colesterol en la sangre. La mayoría
de estos factores de riesgo son considerados modificables mediante cambios en
los comportamientos o con medicación. Los comportamientos clave que
podrían reducir los factores de riesgo de enfermedades crónicas se dan mediante
una dieta saludable, participación en actividad física regular, no consumir
tabaco, y evitar el uso nocivo del alcohol

5.2.6. Diabetes
La diabetes mellitus es un grupo de enfermedades metabólicas caracterizadas
por hiperglucemia resultante de defectos de segregación de insulina, la acción
de la insulina o ambos. La hiperglucemia crónica de la diabetes se asocia con
daño a largo plazo, disfunción e insuficiencia de varios órganos, especialmente
los ojos, riñones, nervios, corazón y vasos sanguíneos. La mayoría de
diagnósticos/casos de diabetes se divide en dos categorías etiopatogénicos. En
la diabetes tipo 1, la causa es una deficiencia absoluta de la secreción de
Insulina. En la diabetes tipo 2, mucho más frecuente, la causa es una
combinación de resistencia a la acción de la insulina y una respuesta secretora
inadecuada de la insulina compensatoria. En este tipo de diabetes, se puede
7
presentar un grado de hiperglucemia suficiente para causar cambios patológicos
y funcionales en diferentes tejidos afectados, pero sin síntomas clínicos,
pudiendo estar presente por varios años antes de que se detecte la diabetes.
(Mellitus, 2005).

6. Hipótesis de la investigación
6.1. Definición de la hipótesis
6.1.1. Hipótesis general:
La aplicación del modelo predictivo ayudará positivamente en la
detección de pacientes con diabetes usando árboles de decisión en el
Hospital Manuel Núñez Butrón de Puno
6.1.2. Hipótesis específicas:
● los exámenes que hacen a los pacientes para el diagnóstico de
diabetes no muestran resultados exactos.
● modelo predictivo es una buena alternativa que ayudará en la
detección de pacientes con diabetes
● se espera que el diseño del modelo predictivo tenga una precisión
de asertividad de más del 80%
6.2. Características de la hipótesis
El proyecto tiene como título: “aplicación de un Modelo Predictivo para el
diagnóstico de la Diabetes usando árboles de decisión el cual plantea realizar un
análisis sobre la incidencia de enfermedades crónicas en el Hospital Manuel
Núñez Butrón de Puno.
6.3. Requisitos que deben reunir las hipótesis.
Uno de los principales requisitos que se une a la hipótesis vendría a ser la
Necesidad de la optimización del diagnóstico de la diabetes a través de un
proceso de evaluación de rasgos sintomáticos y hábitos cotidianos empleando
el modelo predictivo con las técnicas de Predictive Analytics.
6.4. Elementos de la hipótesis.
● Enfermedades Crónicas: Las enfermedades crónicas son enfermedades de
larga duración y por lo general de progresión lenta. Las enfermedades cardíacas,
los infartos, el cáncer, las enfermedades respiratorias y la diabetes, son las

8
principales causas de mortalidad en el mundo, siendo responsables del 63% de
las muertes.
● Predictive Analytics: este elemento es parte del modelo predictivo que es un
conjunto de tecnologías de inteligencia de negocios que descubren relaciones y
patrones en largos volúmenes de datos que pueden ser usados para predecir
comportamiento y eventos.

7. Variables e Indicadores
7.1. Definición de las variables
La tarea más tediosa que encontramos es la adquisición y preparación de un
conjunto de datos (variables). Aunque hay una gran cantidad de datos en esta
Área, todavía es difícil encontrar un conjunto de datos adecuado que se adapte
al problema que está tratando de abordar. Si no se encuentran conjuntos de datos
adecuados, se propuso la posibilidad que se debieran crear los suyos propios.
En este tutorial no vamos a crear nuestro propio conjunto de datos, en su lugar,
usaremos un conjunto de datos existente llamado " Pima Indians Diabetes Data
base " proporcionado por el Repositorio de Aprendizaje Automático de la UCI
(famoso repositorio de conjuntos de datos de aprendizaje automático).
Realizaremos el flujo de trabajo de aprendizaje automático con el conjunto de
datos de diabetes proporcionado anteriormente.

7.2. Tipos de variables


CUANTITATIVAS:
● Embarazo: Nivel de embarazo en caso sea mujer
● Glucosa: Nivel de glucosa
● BP(arterial blood pressure): Presion arterial
● Skin: Espesor de la piel
● Insulina: Nivel de azúcar en la sangre
● BMI (Body Mass Index): Índice de masa corporal.
● Genealogía: Una función que califica la probabilidad de diabetes según
los antecedentes familiares.
● Edad: Edad del paciente en cuestión.
CUALITATIVAS:
● Género: Masculino(1) - Femenino(0)
9
7.3. Operación de las variables
7.3.1. Limpieza de datos.
Considerado como uno de los pasos cruciales del flujo de trabajo, porque puede
hacer o deshacer el modelo. Hay un dicho en el aprendizaje automático:
"Mejores datos vencen a algoritmos más sofisticados" , que sugiere que mejores
datos te brindan mejores modelos de resultados.
Hay varias formas de manejar valores de datos no válidos:
1. Ignorar / eliminar estos casos: esto no es posible en la mayoría de los
casos porque significa perder información valiosa. Y en este caso, las
columnas "grosor de la piel" e "insulina" significan tener muchos puntos
no válidos. Pero podría funcionar para puntos de datos de "IMC",
"glucosa" y "presión arterial".
2. Poner valores medios / medios: Esto podría funcionar para algunos
conjuntos de datos, pero en nuestro caso poner un valor medio en la
columna de presión arterial enviaría una señal incorrecta al modelo.
3. Evite el uso de funciones: Es posible no utilizar las funciones con
muchos valores no válidos para el modelo. Esto puede funcionar para el
"grosor de la piel", pero es difícil de predecir.
Al final del proceso de limpieza de datos, se llega a la conclusión de que este
conjunto de datos dado está incompleto. Ya que esto es una demostración para
el aprendizaje automático, procederemos con los datos proporcionados con
algunos ajustes menores.
Eliminar las filas en las que la "Presión sanguínea", "IMC" y "Glucosa" son
cero.

diabetes_mod = diabetes [(diabetes.BloodPressure! = 0) & (diabetes.BMI! =


0) & (diabetes.Glucose! = 0)]

7.4. Variables
Variable independiente:
X: enfermedad sobre la diabetes
Variable dependiente:
Y: uso del modelo predictivo

10
7.5. Indicadores
X1: tipos de enfermedades sobre la diabetes
X2: agentes causal
y1: implementación del modelo predictivo soportado por SAP predictive
analytics
y2: diseño y validación del modelo predictivo que permita pronosticar el
diagnóstico de diabetes
7.6. Índices

11
8. Tipo y Diseño de la Investigación

8.1 Tipo de Investigación.


La presente investigación es de observacional, descriptivo, retrospectivo y de corte
transversal. El objetivo principal consiste en el desarrollo de modelos explicativos-
predictivos-estratificados para la aplicación del modelo predictivo de diagnóstico
de diabetes para los pacientes del Hospital Manuel Núñez Butrón de Puno, “Los
estudios descriptivos buscan especificar las propiedades, las características y los
perfiles importantes de personas, grupos, comunidades o cualquier otro fenómeno
que se someta a un análisis” Danhke (1989).

8.2 Diseño de Investigación.

• Integración de la información y preparación para el estudio:

Integración de la información registrada en las diferentes fuentes de datos

para elaborar una base de datos para el análisis.

• Clasificación de los pacientes utilizando el sistema de la base de datos:

Una vez obtenida la base de datos con los pacientes con diagnóstico de

diabetes en los pacientes del Hospital Manuel Núñez Butrón de Puno,

• Evaluación del poder explicativo-modelo predictivo Se han propuesto

modelos de regresión multivariante para predecir la diabetes y de las

diferentes variables disponibles. Por otro lado se examinó además el poder

explicativo y la validez predictiva modelo planteado.

El presente trabajo de investigación corresponde al diseño de investigación

“OBSERVACIONAL, DESCRIPTIVO, RETROSPECTIVO Y DE

CORTE TRANSVERSAL” dado que hace evaluaciones sobre el

12
funcionamiento y la eficiencia del método predictivo aplicando los árboles

de decisión para la detección de diabetes.

O1

M r

O2

DONDE:

M = población de estudio.

O 1 = observaciones del uso del método predictivo

O 2 = Conocimientos y aplicación sobre el método predictivo y los


árboles de decisión

9. Justificación de la Investigación

La justificación a este trabajo nace de la necesidad de tener herramientas que


demuestren ser efectivas en solucionar los problemas en la investigación médica y que
puedan ser llevadas a la práctica clínica diaria, ya que aunque es necesaria la
investigación de nuevo conocimiento y caracterización de las enfermedades, es
prioritario generar mayores recursos para una correcta toma de decisiones .Por lo tanto,
según lo mencionado, se pretende desarrollar un prototipo funcional de un modelo
predictivo basado en árboles de decisión, para predecir de la forma más certera si el
paciente tiene diabetes o no, y así con estos resultados las entidades de servicios de
salud del hospital Manuel Núñez Butron puedan obtener de manera rápida y confiable
los perfiles de riesgo de diabetes de los pacientes, con el fin de mejorar el tratamiento
más eficaz y la relación de tratamiento . La aplicabilidad de este Proyecto se puede dar
en otros ámbitos. Al finalizar el presente proyecto, este prototipo funcional podrá ser
implementado en una herramienta la cual podrá ser utilizada en otras instituciones que
pertenezcan al rubro de atención médica. Finalmente, la investigación y desarrollo de
este proyecto permitirá a futuros proyectos de software mejorar el prototipo o utilizar
las investigaciones, herramientas y bases teóricas para el desarrollo de otras
13
herramientas basadas en el aprendizaje de máquina. De esta manera, el presente
proyecto de investigación aportará conocimientos para nuevas investigaciones
relacionadas a la minería de datos aplicada a procesos médicos y desarrollos de futuros
proyectos de software afines.

10. Población y tamaño de muestra de la investigación

Población

La población está constituida por todas las personas que acuden al Hospital
Manuel Nuñez Butron de Puno. Y la muestra de estudio del presente trabajo
es de una cantidad de pacientes que se harán el diagnóstico de diabetes
aplicando este nuevo método predictivo basado en los árboles de decisión.

Muestra
Para nuestra investigación se utilizará la muestra no probabilística, también llamadas
muestras dirigidas, suponen un procedimiento de selección orientado por las
características de la investigación, más que por un criterio estadístico de generalización
(Sampieri & Collado, 1996).
Por otro lado, en la mayoría de los hospitales de Puno y demás departamentos del Perú
no cuentan con suficiente tecnología ni mucho menos programas que faciliten en el
diagnóstico de diabetes y es por eso que en este proyecto ponemos a prueba nuestro
modelo predictivo teniendo resultados positivos.

14
N = 50

11. Cronograma de actividades

Meses (2021)
Actividad
1 2 3 4 5 6 7 8 9 10 11 12

Planteamiento del proyecto de investigación.


Ejecución del proyecto
Revisión de las fuentes de información
Recolección de datos y muestra de la población
Diseño e implementación
Pruebas
Elaboración del modelo predictivo en python
Presentación del trabajo final

12. Presupuesto

Descripción Unidad de Costo Unitario (S/.) Cantidad Costo total (S/.)


medida

Escritorio Global 120.00 1 140.00


Alquiler de Unidad 180.00 2 360.00
computadora con su
respectiva licencia
Desarrollo del modelo Unidad 3000.00 1 3000.00
predictivo en python
Viáticos Unidad - 4 -
Internet 3 meses 60.00 1 180.00
Host Unidad 1.00 1 19.00
Imprevistos Global 300.00

15
Total 3999.00

13. Posibles obstáculos y alternativas de solución


- Es necesario que cuando se desarrolle un proyecto ligado a la medicina y a la
tecnología que cuente con conformidades sobre la viabilidad del mismo por
parte de expertos en ambas materias, lo cual garantiza el futuro éxito de la
implementación desde ambos frentes.
- Recomendamos plantear, en el desarrollo de modelos predictivos futuros, una
estructura de información que pueda ser llenada a través de un proceso
implementado de forma real, el cual no requiera desarrollar transformaciones
de datos adicionales y además sea soportado por un motor de datos robusto y
escalable, garantizando de esta manera la implementación adecuada del
proyecto.

BIBLIOGRAFIA

https://repositorioacademico.upc.edu.pe/bitstream/handle/10757/624417/Vizcarra_IE.
pdf?sequence=5&isAllowed=y

https://47jaiio.sadio.org.ar/sites/default/files/cais-8.pdf

16
ANEXOS
PLANIFICADOR DE PROYECTOS APLICANDO EL DIAGRAMA DE GANTT

17
DIAGRAMA

18
OBTENCION DE LOS DATOS E IMPLEMENTACION DEL CODIGO EN PYTHON

19
20
21
22
23
24
25

También podría gustarte