Antecedentes Nacional Local Internacional
Antecedentes Nacional Local Internacional
Antecedentes Nacional Local Internacional
Antecedentes Nacionales
LINK:http://hdl.handle.net/20.500.12918/8648
Este trabajo, titulado en las Redes Neuronales Convolucionales para la Clasificación de
Lesiones Cutáneas con Melanoma, se enfoca en la evaluación de diferentes arquitecturas
de redes neuronales, incluyendo InceptionV3, MobileNetV2 y DenseNet201, para clasificar
imágenes de melanoma. Utiliza transferencia de aprendizaje y compara el desempeño de
estas redes en el conjunto de datos HAM10000, obteniendo una mejor clasificación con el
modelo InceptionV3. Los autores proponen un sistema de clasificación de Melanoma, el
cual incluye tres principales componentes: Preprocesamiento de la imagen ,Aumento de
datos y reentrenamiento de los modelos.
a.Preprocesamieto de las imagenes
El preprocesamiento de imágenes es un paso esencial en la clasificación automática de
lesiones cutáneas, ya que ayuda a mejorar la calidad de las imágenes y facilita la extrac-
ción de características relevantes para los modelos de aprendizaje automático. Aquí se
realiza una serie de operaciones para minimizar el impacto de los artefactos presentes en
las imágenes, tales como pelos, esquinas oscuras, burbujas y marcas de tinta, que pueden
llevar a errores en la clasificación.
Espacio de color YUV :
La imagen en formato RGB se convierte al espacio de color YUV, donde se separan las
componentes cromáticas. Esto facilita la detección de oclusiones y la segmentación pos-
terior.
Detección de oclusiones :
Se identifica cualquier elemento no relevante para el diagnóstico, como vellos o burbujas,
utilizando el canal de luminancia para generar una máscara de desviaciones. Esta más-
cara se aplica para retocar las imágenes, eliminando elementos que puedan interferir con
4
la detección de la lesión.
Retoque:
Una vez detectadas las oclusiones, las imágenes se retocan para eliminar estos artefactos.
Este paso mejora la precisión del modelo al reducir el ruido en los datos.
Filtro bilateral :
Se utiliza para reducir el ruido sin perder detalles importantes en la imagen. Es una
técnica común en imágenes ruidosas que tienen variaciones bruscas de contraste y color.
Fuzz y C Means :
Un algoritmo de segmentación que clasifica los píxeles de la imagen en diferentes clases
basadas en su proximidad y similitud de color. Es útil para identificar la región de la
lesión en la imagen.
Supresión de esquinas :
Dado que el acoplamiento de las lentes del sistema de adquisición de imágenes puede
generar esquinas no deseadas, se emplea un método para eliminar estas regiones no rele-
vantes, mejorando la segmentación.
Cierre :
Se realiza una operación de cierre morfológico, combinando dilatación y erosión, para
mejorar la definición de los bordes de la lesión en la imagen procesada.
b.Aumentos de datos
El aumento de datos es una técnica utilizada para mejorar la capacidad de generalización
de los modelos de aprendizaje automático. Se basa en la creación de múltiples versiones
modificadas de las imágenes de entrenamiento, lo que permite evitar el sobreajuste al
trabajar con un conjunto de datos más diverso y robusto. En este proyecto, se utiliza la
librería TensorFlow para implementar el aumento de datos, lo que genera variaciones de
las imágenes originales a través de diferentes transformaciones.
Técnicas de aumento de datos utilizadas:
Rotación: las imagenes estan rotadas en diferentes ángulos, ampliando la variabilidad en
la orientación de las imágenes.
Desplazamientos horizontales y verticales: se desplaza las imágenes en los ejes horizontal
5
y vertical, permitiendo que el modelo aprenda a clasificar lesiones aunque no estén cen-
tradas en la imagen.
Zoom: Se aplica un zoom aleatorio a las imágenes, lo que permite al modelo reconocer
lesiones a diferentes escalas.
Giro horizontal: Voltea las imágenes horizontalmente, lo que simula lesiones observadas
desde diferentes perspectivas.
c.Reentrenamiento de los modelos:
Determinación de hiperparámetros: En este subapartado se detallan los hiperparámet-
ros utilizados en los modelos seleccionados, tales como InceptionV3, MobileNetV2 y
DenseNet201. Los hiperparámetros incluyen:
Según el autor, los resultados de exactitud (accuracy) obtenidos en los modelos, indican
que el modelo basado en InceptionV3 alcanzó la mejor exactitud, con un 80.5%. Este
desempeño es superior al de los otros modelos, como DenseNet201, con una exactitud de
79.3%, y MobileNetV2, con 76.5%.
LINK:https://hdl.handle.net/20.500.12867/3043
La tesis "Arquitectura de Red Neuronal Convolucional para Diagnóstico de Cáncer de
Piel" explora el uso de una nueva arquitectura de red neuronal convolucional para la
detección de cáncer de piel, enfocándose en la clasificación binaria de melanoma maligno
y benigno. El diseño se basa en una prueba de capas de convolución y max pooling.
6
La convolución realizada preserva la relación entre los píxeles, aprendiendo las carac-
terísticas de la imagen mediante pequeños cuadros de datos de entrada. La convolución
es una operación matemática que toma dos entradas: una matriz de imágenes y un filtro.
Para reducir el número de parámetros, se utiliza la técnica de Max Pooling, la cual
selecciona el elemento más grande o la característica más importante. Al aplicar un Max
Pool de 2x2 con un stride de 2 por defecto, la matriz de salida se reduce, manteniendo
las características clave.
Posteriormente, se utiliza la capa Flatten para convertir la salida multidimensional de
las capas convolucionales y de pooling en un vector unidimensional, permitiendo que los
datos sean procesados por las capas completamente conectadas. Estas capas, conocidas
como Fully Connected, permiten a la red aprender combinaciones no lineales de las car-
acterísticas extraídas, mejorando la capacidad de clasificación y la precisión del modelo.
Este enfoque es común en las arquitecturas de redes neuronales, ya que facilita la transi-
ción de la extracción de características a la toma de decisiones finales.
Métricas de Evaluación: En este trabajo se han utilizado diversas métricas para evaluar
el rendimiento del modelo. La exactitud mide el número de predicciones correctas sobre
el total de muestras. La sensibilidad se refiere a la proporción de verdaderos positivos,
importante para identificar correctamente a los pacientes con la enfermedad. La precisión
calcula la fracción de predicciones positivas correctas, mientras que la especificidad mide
7
cuántas veces se identifican correctamente los negativos verdaderos. Estas métricas per-
miten evaluar el desempeño del sistema de detección de melanomas, proporcionando un
análisis completo del modelo.
LINK:https://hdl.handle.net/11042/6318
La tesis titulado "Modelo Tuco - Algoritmo para diagnóstico de melanomas aplicando un
modelo híbrido entre una red neuronal convolucional y random forest", propone un en-
foque híbrido para la clasificación de melanomas utilizando una combinación de una red
neuronal convolucional (CNN) y el algoritmo Random Forest. Este modelo fue desar-
rollado con el propósito de mejorar la eficiencia en la clasificación de lunares benignos y
malignos. La CNN utilizada por el autor fue la ResNet50, seleccionada por su capacidad
para extraer características relevantes de las imágenes de lunares, mientras que Random
Forest se encargó de la clasificación final. El trabajo concluyendo que el modelo híbrido
presenta una mayor precisión en la clasificación de melanomas comparado con los modelos
individuales utilizados por separado.
LINK:https://hdl.handle.net/20.500.12692/92333
La tesis "Algoritmo para el Diagnóstico Preliminar de Melanoma Cutáneo Basado en Re-
des Neuronales, Naive Bayes y Árboles de Decisión" propone el desarrollo de un algoritmo
fusionado que combina estos tres métodos de clasificación para mejorar el diagnóstico de
8
melanoma. El estudio utilizó 3,000 imágenes del repositorio ISIC y concluyó que el al-
goritmo fusionado obtuvo mejores resultados que Naive Bayes y Redes Neuronales, pero
no superó a Árboles de Decisión en términos de precisión. El algoritmo fusionado mostró
una precisión del 94.73% y una sensibilidad del 96.76%. Este enfoque destaca por aplicar
técnicas de data augmentation para mejorar el rendimiento del modelo ante un conjunto
de datos desbalanceado, utilizando algoritmos de sobremuestreo para las clases minori-
tarias, como SMOTE. Además, implementa un análisis de componentes principales (PCA)
para reducir la dimensionalidad de las características extraídas por la CNN, mejorando
la eficiencia computacional del sistema.
Antecedente local
LINK:https://cybertesis.unmsm.edu.pe/item/f682ec57-8d68-49bd-bbdc-7916f77bbf96
En este estudio titulado "Sistema Inteligente Basado en Redes Neuronales para la Identifi-
cación de Cáncer de Piel de Tipo Melanoma en Imágenes de Lesiones Cutáneas", el autor
desarrolla un sistema inteligente basado en redes neuronales profundas entrenadas con el
conjunto de datos SIIM-ISIC. El sistema logró una precisión del 92.85% en la clasificación
de imágenes de melanoma.
Antecedentes Internacionales
Skin cancer detection based on deep learning and entropy to detect outlier
samples (Pacheco, Ali, & Trappenberg, 2019)
LINK:https://arxiv.org/pdf/1909.04525
En este artículo, los autores describen y proponen el uso de Redes Neuronales Convolu-
cionales para la detección de cáncer de piel en imágenes del conjunto de datos de la
competencia ISIC del año 2019. En este conjunto de datos, existen nueve categorías, sin
embargo, uno de ellas es un valor atípico y no está presente en el conjunto de datos de
entrenamiento. Para abordar este desafío, los autores evalúan el desempeño de 13 mod-
elos de redes neuronales convolucionales (CNN), con el fin de elaborar un método para
9
manejar la categoría de valor atípico y proponerun modelo de clasificación para la meta
data de imágenes. Los autores empiezan su investigación analizando el conjunto de datos
ISIC (International Skin ImagingCollaboration) del 2019. La meta data está compuesta
de la edad, sexo y región de la lesión cutánea por cada paciente. El objetivo final definido
por los autores, es proporcionar el diagnóstico para las imágenes de dermatoscopia entre
nueve diferentes categorías de diagnóstico: melanoma (MEL), melanocítico nevo (NV),
carcinoma de células basales (BCC), queratosis actínica (AK), queratosis benigna (BKL),
dermatofibroma (DF), lesión vascular (VASC), carcinoma de células escamosas (SCC) y
otros (UNK). La clase UNK es la categoría atípica, que no está presente en el conjunto
de datos de entrenamiento (ver Tabla 1.3).
10
a 32. La tasa de aprendizaje estuvo programada para reducirse en un factor de 0,2 si los
modelos no logran disminuir la pérdida de precisión en validación (validationloss) durante
10 epochs. Finalmente, los autores también utilizaron la detención anticipada (earlystop-
ping), también basada en la pérdida de precisión de validación acumulada durante 15
epochs. Todas las imágenes se redimensionaron al tamaño 229×229 para el modelo In-
ceptionV4, 331×331 para PNASnet y 224× 24 para el resto de arquitecturas. Además, los
autores aplicaron las siguientes operaciones de preprocesamiento de imágenes: ajuste del
brillo, contraste, saturación y tono, además incluyeron el método “Data Augmentation”
con rotaciones horizontales y verticales, y traslaciones. Los autores agregaron 2 modelos
más a evaluar mediante el método de Ensamblado, además de las 13 arquitecturas antes
mencionadas. El primero está compuesto por el ensamblado de los 13 modelos. Mientras
que el segundo ensamblado consta de los mejores tres modelos según la precisión equili-
brada.
b. Manejo de la clase atípica
Para la detección de cualquier valor atípico, los autores proponen un enfoque basado en
la entropía para la detección de la clase desconocida. Los clasificadores utilizados por los
autores generan las probabilidades para cada una de las clases utilizando la función soft-
max. Básicamente, cuando el clasificador no puede estar seguro acerca del nuevo punto
y tal vez sea un valor atípico, asigna el valor de la probabilidad a las clases. En cambio,
cuando el clasificador simplemente lo sabe con absoluta certeza, asigna una probabilidad
alta a una sola clase. Es decir, el valor de entropía del primer caso es mayor que el valor
de entropía del último caso. Basado en esta presuposición, se construye una categoría
adicional.
c. Inclusión de meta-data
Los metadatos se componen de tres variables: la edad del paciente, la región del cuerpo
en la que se produce la lesión y el sexo del paciente. Los autores desarrollaron un modelo
de Redes Bayesianas y árbol de decisiones para estimar la probabilidad de cada categoría
a partir de las variables mencionadas. Durante la evaluación, en caso exista valores nulos
en la meta-data, se calcula la probabilidad solo para los datos disponibles. Por ejemplo, si
11
la edad no es nula, pero falta la variable de región, se realiza el algoritmo considerando las
probabilidades de la variable de región igual a cero. Para la evaluación de los modelos, los
autores dividieron el conjunto de datos en 80 % para entrenamiento, 10% para validación
y 10% para evaluación.
Table 1.4: Resultado del desempeño de cada modelo, en términos de precisión equili-
brada.
Model Balanced accuracy
DenseNet 121 0.811
DenseNet 169 0.842
DenseNet 201 0.879
GoogleNet 0.865
InceptionV4 0.887
MobileNetV2 0.853
PNASNet 0.894
ResNet 50 0.876
ResNet 101 0.888
ResNet 152 0.901
SENet 0.868
VGG 16 0.837
VGG 19 0.825
Ensemble 1 0.883
Ensemble 1 0.897
Ensemble 1 + Meta-data 0.891
Ensemble 2 + Meta-data 0.901
LINK:https://es.scribd.com/document/627039935/A-comparative-study-of-deep-learning-architectures
Este artículo realiza la experimentación del desempeño de distintas arquitectura de Redes
Neuronales Convolucionales al análisis de las imágenes de lesiones cutáneas. Para mejorar
la calidad de la imagen, se utilizó un preprocesamiento de la misma. El método que los
autores aplicaron fue Data Augmentation al utilizar técnicas de giros de la imagen en
horizontal y en vertical para reducir el sesgo por el sesgo que existe por la distribución de
las clases. Los autores hicieron un análisis comparativo de la bibliografia relevante al tema
de estudio y quisieron recalcar con este estudio que mediante aplicaciones de técnicas de
preprocesamiento y la técnica de Data Augmentation es vital para reducir la cantidad
12
de falsos positivos y maximizar la precisión. Las consideraciones para el desarrollo del
modelo propuesto en este artículo son las siguientes:
1. Se hace uso de dos capas completamente conectadas para combinar el mapeo de las
variables de las capas intermedias de las Redes Neuronales Convolucionales. Para ambas
capas, se emplea el método “Dropout” que evita el problema de sobreajuste. Además,
se utiliza la estrategia de “Transfer Learning” evaluando cada una de las siguientes ar-
quitecturas: ALEXNET, RESNET50, VGG16, VGG19, XCEPTION. Para minimizar la
pérdida de entrenamiento, la técnica de regularización “L2” (Ridge Regression) también
se emplea para la tarea de clasificación.
2. Para reducir la heterogeneidad de los datos y, por lo tanto, la mejora en el desempeño
de la clasificación, se hace uso de técnicas de Preprocesamiento, entre ellas: la mejora
del contraste, la transformación del espacio de color y un tipo específico de corrección de
iluminación.
3. Los autores acotan que el conjunto de datos de estudios presenta un sesgo significativo.
Por esta razón, para equilibrar el conjunto de datos, proponen un método de “Oversam-
pling” para aumentar ejemplos de clases minoritarias. Para evaluar el desempeño de cada
una de las arquitecturas de Redes Neuronales Convolucionales usadas en este proyecto,
emplean 4 métricas de evaluación con la metodología “Data Augmentation”) presenta un
mejor desempeño en las métricas, superando así a las arquitecturas AlexNet, Xception,
VGG16 y VGG19 con una exactitud de clasificación del 92.08 %.
13
Skin Lesion Classification Using Convolutional Neural Network With Novel
Regularizer (Albahar, 2019)
LINK:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8669763
Marwan Ali Albahar 2019, del Ibn Rushd College for Management Science en Abha, Ara-
bia Saudita, presentó un modelo basado en redes neuronales convolucionales con la in-
clusión de un regularizador novedoso para la clasificación de lesiones cutáneas. El enfoque
busca mejorar la precisión de la clasificación mediante una disminución del sobreajuste y
una mayor generalización del modelo al clasificar las lesiones cutáneas en las categorías
de lesiones benignas y malignas.
a.Diseño y Entrenamiento del Modelo CNN
Para entrenar un modelo de Red Neuronal Convolucional CNN, se redimensionaron
todas las imágenes en el conjunto de datos recurrencia a 300×300 píxeles para preservar
la información en ellas y reducir el coste computacional. Durante el preprocesamiento,
se aplicó una Ley de Alimentación Potencial transformaciones a la calidad visual de las
imágenes. La ecuación es la siguiente:
s = c · rγ (1.1)
14
precisión del modelo. La salida se aplanó y conectó a una capa totalmente conectada
de 128 neuronas, seguida de la capa de salida correspondiente a las clases de las lesiones
cutáneas.
Deep CNN and Data Augmentation for Skin Lesion Classification (Pham,
Luong, Visani, & Dung, 2018)
LINK:https://www.researchgate.net/publication/323161914_Deep_CNN_and_Data_Augmentation_
for_Skin_Lesion_Classification
15
Figure 1.3: ROC de (Albahar, 2019).
En este artículo, los autores proponen demostrar el uso de la técnica “Data Aug-
mentation”en imágenes parasuperar el problema de la limitación de datos y examinar la
influencia de diferentes números de muestras usando la técnica de aumento,evaluando el
rendimiento de diferentes clasificadores. El sistema de clasificación propuesto se evalúa
utilizando el conjunto de datos de lesiones cutáneas “ISBI Challenge 2017”, el cual contiene
600 imágenes para evaluación y 6162 imágenes de entrenamiento. Los autores proponen
un sistema de clasificación de Melanoma, el cual incluye tres principales componentes: mó-
dulo de Data Augmentation, extracción de características (red neuronal) y clasificación
de Data Augmentation.
a) Data Augmentation En el sistema de clasificación propuesta por los autores, se apli-
caron tres tipos de ramas de “Data Augmentation”.
- Geométrica: Las imágenes de entrada se transformaron para generar nuevas muestras
con la misma etiqueta del original, mediante una combinación aleatoria de giros horizon-
tales y verticales.
- Color: Las imágenes de las lesiones cutáneas fueron obtenidas de diferentes fuentes y
fueron tomadas por diferentes tipos de dispositivos. Por tanto, los autores enfatizan en la
importancia de normalizar los colores de las imágenes para el entrenamiento (brillo, tono
y contraste).
16
- Transformaciones basadas en conocimiento de especialistas: En el aprendizaje au-
tomático, las transformaciones afines, como el corte, la distorsión y el escalado, deforman
aleatoriamente los datos de trazos para la clasificación de imágenes.
Por lo tanto, la deformación es muy adecuada para aumentar los datos para mejorar el
rendimiento y mitigar el sobreajuste de la clasificación del melanoma.
b) Extracción de características
Los autores emplearon el modelo de aprendizaje profundo InceptionV4 para. Proceso de
extracción de características de imágenes. Inception V4 es una arquitectura. Arquitec-
turas conocidas construidas sobre el marco de GoogleNet, las dimensiones de la imagen
de. El tamaño de entrada es 299x299 píxeles, mientras que la salida depende del número
de clases para la predicción. El modelo aprendido previamente empleado en este estudio
produce una clasificación de 1000 categorías distintas. (Imagenet). Sin embargo, en esta
investigación se utiliza la iteración más reciente de GoogLeNet (Inception). Reemplace la
capa completamente conectada con la capa de agrupación promedio. como capa final.
c) Clasificación con Data Augmentation
En este estudio, los autores analizan 3 clasificadores para responder a la pregunta de si
aplicando“Data Augmentation” mejora el rendimiento de la clasificación del melanoma.
En el proceso de evaluación, todos estos clasificadores se evalúan con el mismo conjunto de
datos de prueba en tres tipos de aumento de datos (Sin aumento de datos =“NO DAUG”,
Aumento en 50 muestras en cada imagen –“DAUG 50”, Aumenta en 100 muestras en cada
imagen –“DAUG 100”).
Los resultados de la implementación de la propuesta, aplicando la técnica de “Data Aug-
mentation” con aumento de 100 muestras en cada imagen en evaluación, logro un desem-
peño de 89.2 % en precisión. Se observa una diferencia de 3% comparando con el resultado
de no aplicar “Data Augmentation” en la evaluación del modelo.
17
Table 1.6: . Resultado del desempeño de los clasificadores propuestos. AUC: Área Bajo la
Curva, AP: Precisión Promedio, SEN: Sensibilidad, SPC: Especificidad, ACC: Exactitud,
PPV: Valor Predictivo Positivo
Classifier AUC AP SEN SPC ACC PPV
ISBI TOP 3
TOP #1 0.868 0.710 0.735 0.851 0.828 –
TOP #2 0.856 0.654 0.103 0.998 0.850 –
TOP #3 0.874 0.715 0.547 0.950 0.872 –
DAUG 100
NN 0.892 0.739 0.556 0.971 0.890 0.823
SVM 0.773 0.547 0.351 0.965 0.890 0.800
RF 0.751 0.530 0.530 0.973 0.887 0.827
DAUG 50
NN 0.882 0.736 0.598 0.950 0.882 0.745
SVM 0.777 0.527 0.529 0.980 0.880 0.745
RF 0.757 0.526 0.547 0.967 0.887 0.813
NO DAUG
NN 0.862 0.696 0.581 0.942 0.872 0.780
SVM 0.767 0.527 0.529 0.980 0.880 0.750
RF 0.746 0.517 0.521 0.971 0.883 0.813
LINK:https://hdl.handle.net/10630/20447
En esta línea, se ha desarrollado un clasificador basado en una red convolucional Efficient-
NetB0, variando distintos parámetros de entrenamiento y de la propia red hasta alcanzar
un modelo final. Esta red es capaz de clasificar imágenes de 8 patologías principales,
entre las que se encuentran los principales tipos de cáncer de piel y otras enfermedades.
Además, consta de una clase adicional que representa todas las patologías no incluidas en
las 8 anteriores, de forma que el modelo pueda reconocer cuándo una imagen es descono-
cida.
Entrada de datos, preprocesado y aumento:
En este trabajo se ha utilizado la red EfficientNetB0. Dentro de las CNN más usadas para
transferencia de aprendizaje, la familia de redes EfficientNet es una de las más recientes.
Estas redes tienen dos características principalmente destacables: la primera es que son
una de las redes más precisas hasta el momento, y la segunda es que logran esta gran
18
precisión con un número de parámetros mucho menor en comparación con otras redes
frecuentemente utilizadas, como por ejemplo las ResNet.En esta línea, se ha desarrol-
lado un clasificador basado en una red convolucional EfficientNetB0, variando distintos
parámetros de entrenamiento y de la propia red hasta alcanzar un modelo final. Esta red
es capaz de clasificar imágenes de 8 patologías principales, entre las que se encuentran los
principales tipos de cáncer de piel y otras enfermedades. Además, consta de una clase
adicional que representa todas las patologías no incluidas en las 8 anteriores, de forma
que el modelo pueda reconocer cuándo una imagen es desconocida. Aumento de capas
entrenables
Se incrementó el número de capas entrenables de 3 a 9, lo que mejoró notablemente la
sensibilidad de los modelos D y E. Este cambio permitió que la red aprendiera de manera
más efectiva al incluir capas adicionales de la red convolucional.
Regularizacion L2
La regularización L2 se introdujo con un valor de 0.01, lo que resultó en una disminución
de la sensibilidad en los modelos F y G. Esta técnica penaliza los pesos
19