Predicción preoperatoria del papiloma nasosinusal mediante inteligencia artificial mediante videoendoscopia nasal: un estudio retrospectivo
Scientific Reports volumen 13, número de artículo: 12439 (2023) Citar este artículo
4 altmétrico
Detalles de métricas
El papiloma invertido sinonasal (PI) tiene riesgo de recurrencia y malignidad, y el diagnóstico temprano mediante endoscopia nasal es esencial. Por tanto, desarrollamos un sistema de diagnóstico que utiliza inteligencia artificial (IA) para identificar el papiloma de los senos nasales. Se editaron videos de cirugía endoscópica de 53 pacientes sometidos a cirugía endoscópica de los senos nasales para entrenar y evaluar modelos de redes neuronales profundas y luego se desarrolló un sistema de diagnóstico. La tasa de diagnóstico correcto basada en el examen visual realizado por otorrinolaringólogos también se evaluó utilizando los mismos vídeos y se comparó con la de los pacientes del sistema de diagnóstico de IA. Los principales resultados evaluados incluyeron el porcentaje de diagnósticos correctos en comparación con el diagnóstico de IA y la tasa de diagnóstico correcto para los otorrinolaringólogos según años de experiencia práctica. El sistema de diagnóstico tenía un área bajo la curva de 0,874, una precisión de 0,843, una tasa de falsos positivos de 0,124 y una tasa de falsos negativos de 0,191. La tasa promedio de diagnóstico correcto entre los otorrinolaringólogos fue del 69,4%, lo que indica que la IA fue muy precisa. Evidentemente, aunque el número de casos fue pequeño, se creó un sistema de diagnóstico de gran precisión. Se justifican estudios futuros con muestras más grandes para mejorar la precisión del sistema y ampliar la gama de enfermedades que pueden detectarse para más aplicaciones clínicas.
El papiloma invertido (PI) nasosinusal es un tumor benigno que puede recurrir o volverse maligno, por lo que es deseable un diagnóstico precoz y la resección quirúrgica bajo guía endoscópica1. Aunque los otorrinolaringólogos utilizan la endoscopia nasal para consultas ambulatorias, hay casos en los que resulta difícil distinguir la IP del pólipo inflamatorio nasal. El examen patológico es necesario para hacer un diagnóstico definitivo, aunque lleva mucho tiempo. Sería clínicamente útil si se pudiera utilizar la endoscopia nasal para realizar un diagnóstico complementario de alta precisión. En consecuencia, en este documento desarrollamos un sistema de diagnóstico asistido por computadora para diagnosticar IP mediante imágenes de video endoscópicas.
Los recientes avances en inteligencia artificial (IA) y tecnología de aprendizaje automático han sentado las bases para importantes aplicaciones en el campo médico. Si bien los algoritmos de predicción escritos a mano se han utilizado durante mucho tiempo para ayudar en la toma de decisiones médicas, la aplicación práctica de métodos de aprendizaje automático para la predicción comenzó en 2000. Posteriormente, mejoras significativas en el rendimiento del hardware de las computadoras llevaron a la introducción de DNN en 2010 y 2012 y la La precisión de las DNN superó la de los métodos convencionales de procesamiento de imágenes en el ImageNet Large Scale Visual Recognition Challenge, y finalmente superó la precisión del reconocimiento de imágenes humanas en 2015. Sin embargo, normalmente se requieren grandes cantidades de datos para entrenar modelos DNN y su aplicación para el diagnóstico. de enfermedades raras, como la PI, se considera un desafío.
Hasta donde sabemos, ningún estudio previo ha utilizado DNN para diagnosticar IP mediante transmisiones de video endoscópicas. Por lo tanto, este estudio tuvo como objetivo investigar si los modelos DNN pueden usarse para mejorar la precisión del diagnóstico endoscópico. Además, comparamos nuestros modelos DNN con evaluaciones realizadas por varios otorrinolaringólogos para determinar su viabilidad. En particular, hasta donde sabemos, este es el primer estudio que demuestra la viabilidad de los modelos DNN para el diagnóstico de IP mediante videoendoscopia.
El protocolo del estudio fue aprobado por el Comité de Revisión de Ética Humana de la Facultad de Medicina de la Universidad Jikei, Tokio, Japón (número de aprobación: 32-036 [10111]), que eximió el requisito de consentimiento informado debido a la naturaleza retrospectiva del estudio.
Evaluamos e inscribimos retrospectivamente a 53 pacientes (hombres, n = 33; mujeres, n = 30; edad media, 51,2 ± 12,6 años) que se sometieron a cirugía endoscópica de los senos nasales en nuestro hospital de 2018 a 2021, incluidos 21 pacientes diagnosticados con IP mediante examen patológico. y 32 pacientes con rinosinusitis crónica con pólipos nasales (CRSwNP). Se utilizaron imágenes de vídeo para mostrar la condición casi sin sangre antes de la manipulación; Los fórceps no se incluyeron en la imagen endoscópica.
Todos los vídeos se tomaron utilizando un endoscopio nasal rígido de 4,0 mm con ángulos de 0° y un cabezal de cámara (Olympus Medical System Corp., Japón y Karl Storz Endoskope, Alemania). La velocidad de fotogramas principal del vídeo fue de 119,88 fotogramas por segundo y la resolución fue de 1920 × 1080 píxeles.
Adoptamos la red MobileNet-V2, una red relativamente compacta que comprende 88 capas con un tamaño de imagen de entrada fijo de 224 × 244 píxeles y 3.538.984 parámetros de aprendizaje.
Las imágenes originales se aumentaron a 6 millones de imágenes. El aumento se realizó de forma aleatoria sin considerar el equilibrio entre el número de imágenes originales de cada paciente. Durante el entrenamiento, los modelos DNN aprendieron a utilizar imágenes redimensionadas a 224 × 224 píxeles. En cada época (ciclo de entrenamiento), se seleccionaron aleatoriamente 120.000 imágenes de los 6 millones de imágenes antes mencionados, y se realizaron repetidamente un total de 50 épocas para entrenar un modelo DNN. Este procedimiento de entrenamiento de 50 épocas se realizó con ocho conjuntos de datos y se generaron ocho modelos utilizando un conjunto de aprendizaje (proporción conjunto de aprendizaje:conjunto de evaluación, 7:1). Como los modelos DNN exhiben diferencias en la capacidad cada vez que se entrenan utilizando una gran cantidad de datos generados mediante el aumento de una pequeña cantidad de pacientes, creamos 25 conjuntos de entrenamiento para verificar las fluctuaciones en la precisión de cada modelo. En consecuencia, se generaron 200 modelos (8 conjuntos de datos × 25 = 200 modelos).
Usamos imágenes cuadradas redimensionadas a 224 × 224 píxeles. Los ocho modelos obtenidos en cada conjunto de aprendizaje se utilizaron como un conjunto de evaluación único, y las predicciones para los 25 conjuntos de evaluación se realizaron como predicciones basadas en unidades de imagen única y basadas en unidades de pacientes. La predicción basada en una sola unidad de imagen se realizó en cada imagen, mientras que la predicción basada en la unidad de paciente se realizó de dos maneras: análisis de continuidad y análisis de puntuación de cinco segundos (5 s), con matrices de imágenes alineadas secuencialmente según el orden. en la transmisión de video original de cada paciente. Además de las predicciones de un solo modelo, se utilizaron 25 conjuntos de predicciones conjuntas que combinaban 24 de los 25 modelos para evaluar la precisión de las predicciones antes mencionadas. La predicción basada en unidades de imágenes se realizó simplemente mediante predicciones imagen por imagen para imágenes individuales, mientras que la predicción basada en unidades de pacientes se realizó mediante un análisis de continuidad y un análisis de puntuación de 5 s para todos los conjuntos de imágenes extraídos de un único vídeo de cada uno. paciente.
Un análisis de continuidad fue uno de nuestros métodos originales para predecir si los pacientes tenían IP positivo o negativo. Este método evalúa inicialmente las imágenes individuales extraídas de la transmisión de video individualmente y posteriormente juzga si un paciente es positivo o negativo para IP en función del número de imágenes positivas consecutivas en la transmisión de video original.
El análisis de puntuación de 5 s también fue un método original para el propósito antes mencionado. Este método juzga si un paciente es positivo o negativo en función de la suma máxima de puntuaciones obtenidas de imágenes consecutivas en una secuencia de vídeo de 5 segundos.
Los 53 casos fueron diagnosticados visualmente por 25 otorrinolaringólogos de nuestro hospital. Los videos objetivo eran exactamente los mismos videos utilizados por la IA para la evaluación del entrenamiento, sin editar en su totalidad. Los otorrinolaringólogos incluyeron al cirujano; por lo tanto, se anonimizó al cirujano principal de todos los casos elegibles. Por lo tanto, los cirujanos no pudieron identificar los casos que operaron. Se comparó el porcentaje de diagnósticos correctos con el obtenido por la IA. Como elemento secundario, la tasa de diagnóstico correcto en otorrinolaringología también se examinó por separado según los años de experiencia práctica. Las habilidades de los 25 otorrinolaringólogos antes mencionados se clasificaron de la siguiente manera: ingreso, < 5 años; intermedio, 4 a 10 años; y veterano, > 10 años.
Se extrajeron un total de 143.167 (CRSwNP, n = 57.767; e IP, n = 85.400) imágenes de 53 videos endoscópicos (Tabla 1). Para la validación cruzada, dividimos aleatoriamente a los pacientes en ocho grupos y preparamos ocho conjuntos de datos utilizando siete grupos para el aprendizaje y el grupo restante para la evaluación. Cada grupo se compuso de manera que el número de pacientes e imágenes fuera lo más uniforme posible entre todos los grupos. La tabla 2 muestra el número de pacientes e imágenes en cada grupo. La Tabla complementaria 1 muestra el número de pacientes e imágenes originales en cada conjunto de entrenamiento.
La Tabla complementaria 2 muestra la sensibilidad, la especificidad y el "promedio de sensibilidad y especificidad" (SS-Avg) en predicciones basadas en imágenes de una sola unidad. Cada número mostrado es el promedio de 25 modelos individuales o 25 predicciones conjuntas; La predicción de conjuntos no tuvo ninguna ventaja sobre la predicción de un solo modelo en la predicción basada en una sola unidad de imagen.
El gráfico de la Fig. 1 muestra la fluctuación promedio en la precisión de la predicción basada en una sola imagen. Hubo fluctuaciones significativas entre la precisión de las predicciones realizadas por modelos individuales. Sin embargo, estas fluctuaciones pueden minimizarse mediante predicciones conjuntas.
Fluctuación de la precisión promedio en la predicción basada en una sola imagen.
El gráfico de la Fig. 2 muestra la curva característica del operador del receptor (ROC) del valor mediano de 25 predicciones de un solo modelo y 25 de conjunto en predicción basada en una sola imagen. El área bajo la curva (AUC) de la predicción por conjunto fue ligeramente mejor que la de la predicción de un solo modelo.
Curva característica del operador receptor de los medios de predicciones basadas en una sola imagen. Área AUC bajo la curva.
La Tabla 3 muestra la sensibilidad, especificidad y SS-Avg de las predicciones basadas en unidades de pacientes. El mejor rendimiento entre todas las predicciones basadas en unidades de pacientes fue del 84,29 % (sensibilidad, 80,95 %; y especificidad, 87,63 %), según lo realizado por la predicción conjunta mediante un análisis de puntuación de 5 s. Cada número era el promedio de 25 modelos individuales o 25 predicciones conjuntas. Las predicciones de conjunto tuvieron un mejor rendimiento que las predicciones de un solo modelo, y el análisis de puntuación de 5 s mostró un mejor rendimiento que el análisis de continuidad.
El gráfico de la figura 3 muestra la fluctuación de la precisión promedio en la predicción basada en unidades de pacientes. Los modelos individuales demostraron una fluctuación significativa, aunque esto puede minimizarse mediante predicciones conjuntas.
Fluctuación de la precisión promedio en la predicción basada en unidades de una sola imagen.
El gráfico de la Fig. 4 muestra la curva ROC de la mediana de 25 predicciones de modelo único y 25 de conjunto en el modelo de predicción basado en unidad de paciente, así como los valores predictivos positivos/negativos trazados para los 25 otorrinolaringólogos. El mejor AUC fue 0,8735, según lo realizado por predicciones de conjunto utilizando un análisis de puntuación máxima de 5 s. En general, las predicciones que utilizaron el análisis de puntuación de 5 s obtuvieron un mejor rendimiento que el análisis de continuidad. La tasa promedio de diagnóstico correcto fue del 69,4% para todos los otorrinolaringólogos, del 61,6% para el grupo inicial, del 74,0% para el grupo intermedio y del 80,7% para el grupo veterano. La precisión de los diagnósticos de los otorrinolaringólogos tendió a aumentar con cada grado. Todos los sistemas de diagnóstico de IA superaron a más de la mitad de los otorrinolaringólogos y fueron tan precisos como los del grupo de veteranos.
Curva característica del operador receptor de la mediana de casos en predicción basada en unidad de paciente y valores predictivos positivos/negativos para 25 otorrinolaringólogos. Área AUC bajo la curva.
Generalmente, se requieren grandes cantidades de datos para entrenar modelos DNN, y su aplicación en el diagnóstico de enfermedades raras sigue siendo un desafío. Por lo tanto, desarrollar métodos de diagnóstico de enfermedades que mejoren la precisión con una pequeña cantidad de muestras es esencial para la investigación médica de la IA. Sin embargo, los estudios de IA que realizamos, uno de los cuales utilizó vídeos histeroscópicos y otro predijo el alcance del desarrollo del colesteatoma del oído medio, demostraron una alta precisión con un tamaño de muestra pequeño2,3.
La PI ocurre en aproximadamente 1,5 casos por 100.000 personas anualmente4, recurre en aproximadamente el 15% de los casos y se vuelve maligna en aproximadamente el 5% de los casos1. La IP puede tener una apariencia característica “parecida a la frambuesa”, pero a menudo es difícil determinar la causa de la recurrencia5. Se ha publicado un modelo que puede distinguir el IP del carcinoma de células escamosas con una precisión del 77,9 % mediante imágenes por resonancia magnética6. En cualquier caso, el diagnóstico definitivo se realiza por patología, aunque lleva mucho tiempo. Girdler construyó un sistema para diagnosticar IP mediante imágenes simples, con una precisión del 74,2%7. Nuestro estudio es el primer estudio clínico que utiliza video endoscópico nasal, lo que nos permitió desarrollar un modelo de diagnóstico asistido por computadora que es más preciso que los modelos anteriores.
La precisión de los modelos de IA fue mayor que la tasa de diagnóstico correcto de los otorrinolaringólogos. Para explicar este fenómeno, examinamos casos en los que la IA y los otorrinolaringólogos diferían en precisión. Inicialmente, hubo un caso en el que la IA apenas pudo obtener hallazgos correctos indicativos de PI, aunque eran obvios para el otorrinolaringólogo (fig. 5). Aunque puede haber hallazgos en las imágenes que el otorrinolaringólogo pasó por alto, esto puede deberse a que los casos entrenados por la máquina no contenían hallazgos similares, ya que la IA no puede garantizar un rendimiento suficiente en la evaluación de nuevas imágenes cuando ha aprendido muchas imágenes en el mismo linaje8. Además, la IA tiende a ser débil a la hora de detectar lesiones distantes en las imágenes9 y es posible que no haya podido reconocer cambios finos en la mucosa. En segundo lugar, hubo casos en los que la tasa de diagnóstico correcto por parte de los otorrinolaringólogos fue baja, aunque la IA diagnosticó correctamente todos los casos (fig. 5). Creemos que este es el caso porque la IA reconoce áreas diferentes a las de los humanos; sin embargo, generalmente, los criterios de juicio específicos de la IA se desconocen y se denominan caja negra. Existe la posibilidad de que en estos casos la clave para detectar las lesiones esté oculta.
(A,B) Imágenes endoscópicas de casos con una baja tasa de respuesta correcta en humanos (otorrinolaringólogos) pero una alta tasa de respuesta correcta en IA ((A) [CRSwNP]: otorrinolaringólogos, 28% e IA, 100%; (B) (IP): otorrinolaringólogos, 12% e IA, 100%). (C,D) Imágenes endoscópicas de casos con una baja tasa de respuesta correcta de IA pero una alta tasa de respuesta correcta humana ((C) [CRSwNP]: otorrinolaringólogos, 96%; e IA, 0,96%; (D) (IP): otorrinolaringólogos, 76%; IA, 0%). Rinosinusitis crónica CRSwNP con pólipos nasales, papiloma invertido IP, inteligencia artificial IA.
Este estudio tiene algunas limitaciones. En primer lugar, el número de casos era pequeño. En segundo lugar, los videos quirúrgicos endoscópicos editados fueron recortados de escenas sin ninguna manipulación con sangrado, pero en el video se ven levemente fórceps y sangrado. Por lo tanto, puede resultar difícil decir que la información se refiere únicamente a lesiones mucosas. Para resolver este problema, será necesario en el futuro obtener imágenes de la lesión durante un período de tiempo más largo antes de la operación. Mientras que para DNN se separaron los casos utilizados para el aprendizaje de los utilizados para la evaluación, los otorrinolaringólogos utilizaron todos los casos para la evaluación; por lo tanto, los criterios de evaluación no son exactamente idénticos. Por tanto, no es apropiado compararlos. Al presentar la precisión diagnóstica de IP para otorrinolaringólogos generales, consideramos esto como un indicador para evaluar la precisión de DNN. Es esencial mejorar aún más la precisión para futuras aplicaciones clínicas. También se justifica la investigación clínica multicéntrica. También estamos planeando aumentar el número de enfermedades cubiertas, y la capacidad de detectar diversas enfermedades mediante una endoscopia nasal permitirá el uso de IA en controles médicos y consultas no especializadas.
Pudimos desarrollar un sistema de diagnóstico de IA que diagnostica IP con una precisión relativamente alta mediante video, aunque el número de casos fue pequeño. Se justifican estudios futuros con más casos y enfermedades para construir un sistema de ayuda al diagnóstico más preciso y práctico.
Datos disponibles: Sí. Tipos de datos: datos de participantes no identificados. Cómo acceder a los datos: [email protected]. Cuando esté disponible: Al momento de su publicación.
Busquets, JM & Hwang, PH Resección endoscópica del papiloma invertido nasosinusal: un metanálisis. Otorrinolaringol. Cirugía de cabeza y cuello. 134, 476–482 (2006).
Artículo PubMed Google Scholar
Takahashi, Y. et al. Sistema automatizado para diagnosticar cáncer de endometrio mediante la adopción de tecnología de aprendizaje profundo en histeroscopia. PLoS One 16, e0248526 (2021).
Artículo CAS PubMed PubMed Central Google Scholar
Takahashi, M. y col. Predicción preoperatoria mediante inteligencia artificial para la extensión mastoidea en el colesteatoma de la pars fláccida mediante tomografía computarizada de alta resolución del hueso temporal: un estudio retrospectivo. PLoS One 17, e0273915 (2022).
Artículo CAS PubMed PubMed Central Google Scholar
Outzen, KE, Grøntveld, A., Jørgensen, K., Clausen, PP y Ladefoged, C. Papiloma invertido: incidencia y resultados tardíos del tratamiento quirúrgico. Rinología 34, 114-118.
CAS PubMed Google Académico
Lisan, Q., Laccourreye, O. y Bonfils, P. Papiloma invertido sinonasal: del diagnóstico al tratamiento. EUR. Ana. Otorrinolaringol. Enfermedad de cabeza y cuello. 133, 337–341 (2016).
Artículo CAS PubMed Google Scholar
Liu, GS y cols. Clasificación de aprendizaje profundo de la transformación maligna del papiloma invertido utilizando redes neuronales convolucionales 3D e imágenes por resonancia magnética. En t. Foro Alergia Rinol. 12, 1025-1033 (2022).
Artículo CAS PubMed Google Scholar
Girdler, B. y col. Viabilidad de un algoritmo basado en aprendizaje profundo para la detección y clasificación automatizadas de pólipos nasales y papilomas invertidos en imágenes endoscópicas nasales. En t. Foro Alergia Rinol. 11, 1637–1646 (2021).
Artículo PubMed Google Scholar
Chen, PC, Liu, Y. y Peng, L. Cómo desarrollar modelos de aprendizaje automático para la atención sanitaria. Nat. Madre. 18, 410–414 (2019).
Artículo ADS CAS PubMed Google Scholar
Yamada, M. y col. Desarrollo de un sistema de soporte al diagnóstico por imágenes endoscópicas en tiempo real utilizando tecnología de aprendizaje profundo en colonoscopia. Ciencia. Rep. 9, 14465 (2019).
Artículo ADS PubMed PubMed Central Google Scholar
Descargar referencias
Este trabajo fue apoyado por la Sociedad Japonesa para la Promoción de la Ciencia (JSPS) KAKENHI (número de subvención 22K16936).
Departamento de Otorrinolaringología, Facultad de Medicina de la Universidad Jikei, Nishi-Shimbashi, Minato-ku, Tokio, Japón
Ryosuke Yui, Masahiro Takahashi, Rinko Sakurai, Kazuhiro Omura, Nobuyoshi Otori y Hiromi Kojima
Departamento de Otorrinolaringología, Cirugía de Cabeza y Cuello, Facultad de Medicina de la Universidad de Toho, Tokio, Japón
Ryosuke Yui, Shinya Ohira y Kota Wada
SIOS Technology Inc., Minami-Azabu, Minato-ku, Tokio, Japón
Katsuhiko Noda y Kaname Yoshida
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
RY y MT tuvieron acceso completo a todos los datos de este estudio y asumen la responsabilidad de la integridad de los datos y la precisión del análisis de los datos. RY, MT, KN, KY, RS, SO, KO, NO, KW y HK conceptualizaron y diseñaron el estudio, y adquirieron, analizaron e interpretaron los datos. RY y KN redactaron el manuscrito. RY, MT, KN, KY, RS, SO, KO, NO, KW y HK revisaron críticamente el manuscrito en busca de contenido intelectual importante. RY, KN y KY realizaron el análisis estadístico. KO y NO brindaron apoyo administrativo, técnico y material. KW y HK supervisaron el estudio.
Correspondencia a Masahiro Takahashi.
Los autores declaran no tener conflictos de intereses.
Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.
Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.
Reimpresiones y permisos
Yui, R., Takahashi, M., Noda, K. et al. Predicción preoperatoria del papiloma nasosinusal mediante inteligencia artificial mediante videoendoscopia nasal: un estudio retrospectivo. Informe científico 13, 12439 (2023). https://doi.org/10.1038/s41598-023-38913-0
Descargar cita
Recibido: 15 de abril de 2023
Aceptado: 17 de julio de 2023
Publicado: 02 de agosto de 2023
DOI: https://doi.org/10.1038/s41598-023-38913-0
Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:
Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.
Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt
Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.