Mapa web
Youtube
Instagram
Campus UNED

A IA como axuda para aproveitar ao máximo a información médica presente en grandes cantidades de documentos

5 de marzo de 2021

A catedrática Lourdes Araujo amosou o traballo que se realiza neste campo desde o Departamento de Linguaxes e Servizos Informáticos da UNED

OURENSE, 5 de marzo de 2021.-  A catedrática da UNED, Lourdes Araujo expuxo esta mañá en Ourense a extracción de información en documentos do dominio médico. Fíxoo desde o Centro de Intelixencia Artificial do Concello de Ourense. Trátase, dixo, de facer que a comunicación cos computadores sexa o máis cómoda posible para os profesionais do sector, así como de aproveitar todo o posible a información que se atopa nas enormes cantidades de documentos existentes. Se parte de documentos en formato electrónico, pasando dunha información non estruturada a outra estruturada mediante o procesamento da primeira. A relatora puxo o exemplo dun informe médico que di: “Paciente home de 86 anos con antecedentes de TBC pulmonar, refire F non cuantificada desde hai dúas semanas, así como tose esporádica produtiva e perda de peso”. De aquí procésase a información para quedar estruturada do seguinte modo:

Documento: Informe de urxencias

  •  Sexo: Home
  •  Idade: 86
  •  Antecedentes: tuberculose pulmonar
  •  Síntomas: 
Febre non cuantificada 

Tose esporádica produtiva 

Perda de peso

  •  Tempo: dúas semanas
A notación de conceptos e a asignación de códigos faise na maior parte dos casos manualmente en hospitais, polos propios médicos ou por expertos na anotación. Estas codificacións son fundamentais para dispoñer dunha linguaxe común entre o hospital, as institucións, a investigación, o centro de saúde e o paciente. Lourdes Araujo citou algunhas terminoloxías médicas e codificación tales como: Snomed, Mesh, ICD ou UML. As técnicas de extracción de información poden ser de gran axuda para facilitar os procesos de codificación que á súa vez son fundamentais para cruzar información e explotala adecuadamente. En canto ás dificultades específicas que presenta o procesamento de textos no dominio médico, figuran: 

  • Ambigüidade léxica, 
  • Acrónimos e abreviaturas, por exemplo AAC que pode ser acrónimo de Ácido aminocaproico, ou de Actividade anticomplementaria, ou de alopecia areata circunscrita; mesmo pode ser acrónimo de Anxiopatía aminoloidea cerebral, de Anticorpos anticardiolípidicos, etc.
  • Erratas na escritura
  •  Negación e o seu ámbito
  • Especulación
  • Conceptos expresados en linguaxe libre: síntomas, discapacidades, etc.
En canto á extracción de información, a relatora mencionada conceptos (entidades): enfermidades, medicamentos, síntomas, procedementos, etc. Tamén relacións entre conceptos: cura, produce, coaparece, etc; identificación da negación e o seu ámbito, ademais de expresións e relacións temporais.

Entre os principais enfoques para a extracción de información, están as técnicas clásicas de procesamento da linguaxe natural ( PNL) e a aprendizaxe, xa sexa supervisado ou non. Con obxecto de ilustrar o funcionamento e as diferenzas entre os distintos enfoques, a relatora presentou dous problemas, un de identificación de conceptos e outro de extracción de relacións. A identificación de mencións a discapacidades en textos é un problema que non se tratou ata hai pouco tempo e que ten moita relevancia, xa que hai unha gran parte da poboación afectada. Estes conceptos pódense expresar nunha linguaxe moi libre:

 - Xordeira

 - Capacidade auditiva limitada

 - Problemas de audición

 - Non oe dunha fonte de son próxima

 - Limitacións de mobilidade

 - Necesita axuda para andar

 - etc.

Para abordar a anotación cun enfoque clásico, lan cun enfoque clásico, a doutora Araujo menciona a obtención de cada oración, identificación dos sintagmas nominais ( SN) (análises sintáctico), identificación de palabras de discapacidade, de función corporal ou mental, e de impedimento; obtención de variantes a partir dos SNs (varios niveis), variantes derivacionales (Wordnet), sinónimos (Wordnet) e negación, cuantificadores, especulación.

Así mesmo presentou un problema de identificación de relacións entre efectos adversos e medicamentos, neste caso abordado con técnicas baseadas en grafos. En ambos os exemplos, a doutora Araujo puxo a énfase na facilidade coa que se interpretan as predicións dos modelos presentados.

Antes de pasar a ilustrar a aplicación de métodos de aprendizaxe automática aos exemplos anteriores, referiuse a aspectos relacionados coa avaliación e os datos, que non só son necesarios para a avaliación, senón tamén para o adestramento de sistemas en aprendizaxe automática.

Lourdes Araujo citou as medidas de avaliación máis usuais que son: 

  • Precisión: fracción de predicións do modelo proposto acertadas (coinciden cos datos de referencia).
  •  Cobertura ( recall): fracción dos datos de referencia que foron propostas polo modelo avaliado.
  •  Medida- F: media harmónica de precisión e cobertura.
  •  Outras medidas específicas de problemas concretos.
Falou a relatora da importancia das campañas de avaliación e das coleccións de datos de referencia ou corpus, que permiten avaliar os sistemas e comparalos de forma xusta, o que é fundamental para o avance da área. Citou varias campañas de avaliación:

  • IberEval 2018: DIANN ( notacion de discapacidades en inglés e español).
  • IberLef 2019: Ehealth (identificación de frases craves en documentos médicos e detección de relacións semánticas).
  •  Social Media Mining for Health Applications 2019 (detección de efectos adversos en tuits).
Falou da compilación de textos en formato electrónico para avaliar sistemas, como marco común para comparar técnicas alternativas e para adestrar os sistemas de aprendizaxe automática supervisados. A relatora ilustrou os métodos supervisados como a táboa de pacientes, con atributos ou trazos (temperatura, tose, dor de garganta, sinusite) e clase, para ver os que teñen ou non gripe, por exemplo. Tamén citou a árbore de decisión para a gripe estruturado do seguinte modo mostrado na imaxe: 

Presentou tamén exemplo de como se poderían abordar os casos considerados de detección de discapacidades e de relacións como os efectos adversos a medicamentos con redes neuronais profundas e utilizando vectores de baixa dimensión que permiten a aprendizaxe por transferencia. A relatora sinalou vantaxes como a pouca enxeñería de deseño que requiren estes sistemas e os seus bos resultados.

Lourdes Araujo sinalou que DL supera os resultados doutros modelos en moitas aplicacións. Nalgúns casos danse resultados espectaculares, incluso superando aos humanos e apenas necesita enxeñería de deseño do sistema. Con todo, no dominio médico, as predicións dos sistemas teñen que xustificarse, o que non é posible cos modelos de caixa negra como o de DL. Pero, engade, ten as súas limitacións, por exemplo, o rumbo de datos ou unha falta de robustez, é dicir, pequenas perturbacións que poden cambiar o resultado de forma notable. 

Para buscar as explicabilidades das predicións deste tipo de sistemas, a doutora Araujo fala de aproximacións, mediante sistemas transparentes e explicacións post- hoc, analizando a relación entre a entrada e a saída xa obtida, con técnicas post- hoc agnósticas, aplicables a calquera modelo non transparente sen importar a súa estrutura interna mediante modelos aproximados: lineais, árbores de decisión, sistemas de regras; e técnicas post- hoc específicas para un modelo concreto analizando detalles dese modelo. 

Entre os retos neste campo da extracción de datos da documentación médica mencionou dispoñer de sistemas de axuda ao diagnóstico fiables, explicativos (deben explicar en que se basean as súas recomendacións); xeneralizables, eficientes en tempo real e fáciles de actualizar. Eses sistemas requiren, segundo expuxo a catedrática da UNED: sistemas de extracción de información precisos, sistemas de anonimización e sistemas que manexen eficientemente grandes volumes de datos. Tamén mencionou sistemas para facer a información accesible, é dicir, información clara para os pacientes. De igual modo o problema da detección de noticias falsas, que pode ser moi grave no dominio médico. Por último, dispoñer de sistemas de axuda á codificación de informes médicos mediante proposta de códigos a asignar e un informe e asignación de códigos a conceptos.

Este seminario de IA da UNED conta co patrocinio do Vicerreitorado de Investigación e Transferencia do Coñecemento e Divulgación Cientifica da Universidade. A próxima cita será o venres, 12 de marzo, co profesor da UNED, doutor David Moreno Salinas, que falará de IA e ciencia de datos para identificar e modelar vehículos autónomos. 

 Ver a conferencia de Lourdes Araujo picando aquí.

UNED Ourense

Comunicación

Carretera de Vigo Torres do Pino  s/n Baixo 32001 Ourense - . Tel. 988371444 info@ourense.uned.es