En los últimos años, los modelos lingüísticos grandes (LLM) se han aplicado cada vez más en diversos campos, desde la creación de contenido y la asistencia en programación hasta la optimización de motores de búsqueda, demostrando su gran capacidad. Sin embargo, en la investigación biomédica, la aplicación de estos modelos aún enfrenta desafíos en cuanto a transparencia, reproducibilidad y personalización.

Para abordar este problema, la Universidad de Heidelberg y el Instituto Europeo de Bioinformática (EMBL-EBI) han presentado conjuntamente un marco de trabajo Python de código abierto: BioChatter, diseñado para ayudar a los investigadores biomédicos a utilizar más fácilmente los LLM.

Resonancia magnética médica (2)

Nota de la imagen: La imagen fue generada por IA, proveedor de servicios de licencias de imágenes Midjourney

El concepto de diseño de BioChatter es simplificar la complejidad técnica, permitiendo a los investigadores concentrarse en su investigación sin preocuparse por las habilidades de programación o aprendizaje automático. A través de este marco, los investigadores pueden extraer datos relevantes de bases de datos y literatura biomédica, y acceder a información en tiempo real desde herramientas bioinformáticas externas. Todo esto es posible gracias a la integración perfecta de BioChatter con el grafo de conocimiento BioCypher, que puede vincular datos importantes como mutaciones genéticas y asociaciones fármaco-enfermedad, apoyando en gran medida el análisis de conjuntos de datos complejos.

Las funciones principales de BioChatter incluyen: interacción de preguntas y respuestas básicas con diversos modelos de lenguaje grandes, ingeniería de prompts reproducible, consulta de grafos de conocimiento, generación mejorada por recuperación, y llamadas en cadena de modelos. Más aún, BioChatter ofrece una interfaz API intuitiva, permitiendo a los investigadores integrar fácilmente sus funciones en aplicaciones web, interfaces de línea de comandos o cuadernos Jupyter.

En la evaluación experimental, el equipo de investigación creó pruebas de referencia personalizadas para evaluar con mayor precisión el rendimiento de BioChatter. Los resultados mostraron que los modelos que utilizaron BioChatter superaron significativamente a los modelos que no utilizaron el motor de prompts en la generación de consultas correctas, lo que proporciona un sólido apoyo a la aplicación práctica de BioChatter.

De cara al futuro, el equipo de BioChatter continuará colaborando con bases de datos de ciencias de la vida como Open Targets, con el objetivo de integrar datos de genética humana y genómica para ayudar a los usuarios a identificar y priorizar objetivos farmacológicos de manera más eficiente. Además, están desarrollando un sistema complementario llamado BioGather, diseñado para extraer información de otros tipos de datos clínicos como genómica, notas médicas e imágenes, para abordar problemas complejos en medicina personalizada y desarrollo de fármacos.

Gracias a BioChatter, los científicos del campo de la investigación biomédica podrán utilizar los LLM de manera más eficiente, impulsando así el progreso y la innovación en la investigación científica.