Projecte DATOS-CAT: integració i anàlisi de bases de dades biomèdics
L'acció col·laborativa DATOS-CAT té com a objectiu potenciar la visibilitat i l'impacte científic de les cohorts de base poblacional creades a Catalunya. A més, busca enriquir els procediments utilitzats en aquestes cohorts, promovent la seva aplicabilitat en altres contextos similars. Per aconseguir-ho, es centra en millorar la interoperabilitat de les dades, facilitant així la seva explotació i ús en investigacions científiques.
En el context de la medicina personalitzada i de precisió, la recollida de dades a llarg termini permet als investigadors seguir l'evolució de les malalties al llarg del temps, identificar patrons de risc ambiental i genètic, i avaluar l'impacte de diferents estratègies de tractament. No obstant això, actualment no existeix un sistema estandarditzat que permeti als investigadors i entitats hospitalàries recopilar, emmagatzemar i compartir les seves dades de forma senzilla, segura i que permeti una interoperabilitat entre elles.
Dins d'aquest context neix el projecte DATOS-CAT, una acció col·laborativa que pretén augmentar la visibilitat i l'impacte científic de la cohort poblacional GCAT, projecte estratègic de l'Institut de Recerca Germans Trias i Pujol (IGTP) GCAT'Genomes for life i de la seva subcohort centrada en la COVID-19, COVICAT-CONTENT. A més, pretén contribuir al desenvolupament de procediments aplicables a altres cohorts, millorant el nivell d'interoperabilitat de les seves dades en el context dels principis de l'ecosistema de dades dels principis FAIR (de l'anglès Findable, Accessible, Interoperable, Reusable) per facilitar la seva explotació i ús científic. Concretament, el projecte es centrarà en la base de dades poblacional catalana que des del 2012 fa un seguiment exhaustiu a prop de 20.000 persones de les quals s'obtenen dades clíniques, d'estil de vida i ambientals entre altres, i de les quals s'ha generat una base de dades genètics poblacional.
DATOS-CAT és un ambiciós projecte del Pla Complementari de Biotecnologia Aplicada a la Salut que compta amb la col·laboració de 7 entitats de Catalunya: Barcelona Supercomputing Center (BSC) com a coordinadora científica, Institut de Bioenginyeria de Catalunya (IBEC), Institut de Recerca Germans Trias i Pujol (IGTP), Centre de Regulació Genòmica (CRG), Centre Nacional d'Anàlisi Genòmic (CNAG), Institut de Salut Global de Barcelona (ISGlobal), centre impulsat per la Fundació "la Caixa", i Hospital Clínic de Barcelona. Cadascuna d'elles contribueix amb la seva experiència i recursos únics, pel que el fet de treballar juntes es pot considerar un èxit en si mateix. En aquest sentit, l'IGTP contribueix amb el seu coneixement de les dades de la cohort, ISGlobal ha contribuït amb el desenvolupament de les eines relacionades amb DataSHIELD, el BSC amb l'experiència al voltant de l'estandardització de les dades a Observational Medical Outcomes Partnership (OMOP), l'Hospital Clínic amb el desenvolupament d'Ontobridge, i el CRG amb la seva experiència amb el repositori de dades EGA, i CNAG amb la seva experiència en la integració i anàlisi de dades fenoclíniques i genòmiques. L'èxit assolit fins al moment en el projecte DATOS-CAT ha estat el resultat d'una col·laboració sòlida i coordinada entre totes les entitats participants.
Progrés del projecte DATOS-CAT
El projecte DATOS-CAT ha assolit amb èxit amb la seva fita intermèdia en desenvolupar i publicar les eines necessàries per a la caracterització i estandardització de les dades. Així, s'ha completat la implementació d'un conjunt de programari que inclou tres grans grups: (i) Implementació d'un catàleg de dades, (ii) Transformació de dades i (iii) altres eines de desenvolupament.
Aquesta fita representa avenços significatius tant per al projecte en si com per a la situació actual de la cohort GCAT. La finalització del primer prototip de programari proporciona una base sòlida per al desenvolupament continu del projecte DATOS-CAT, permetent la implementació d'eines i sistemes per catalogar dades, estandarditzar-les a un model de dades comú i facilitar l'anàlisi federat. Aquesta eina és un component fonamental que facilita la transferència de dades i la interoperabilitat entre sistemes, contribuint així a la consolidació de la base de dades de la població catalana.
Aquestes eines s'han publicat de manera oberta amb llicències lliures a https://github.com/DATOS-CAT. En aquest repositori es poden trobar les eines utilitzades per a la catalogació. La plataforma seleccionada per a aquesta catalogació ha estat MICA. A més, s'han desenvolupat altres dues eines que també han estat publicades al repositori, i que permeten una anàlisi federat de les dades preservant la seva privacitat a través de dos mecanismes altament reconeguts per la comunitat científica com Beacon (https://beacon-project.io/) i Datashield (https://www.datashield.org/).
També trobem les eines per a la transformació de les dades al model comú de dades OMOP (Observational Medical Outcomes Partnership) que impulsat per OHDSI (Observational Health Data Sciences and Informatics), es situa entre els models semànticament interoperables per a persistència i explotació en usos secundaris en registres longitudinals de dades de salut més utilitzats del món.
Dins dels tres grups esmentats anteriorment, destaca el paquet dsOMOP, construït des de ISGlobal, i Ontobridge, una eina desenvolupada per l'Hospital Clínic que aborda el problema de la transformació de les dades d'una manera nova utilitzant tecnologies semàntiques i enfocaments més tradicionals. OntoBridge és una eina flexible i escalable que proveeix un flux de treball integrat i simplificat per a l'adopció de models comuns de dades (CDMs) com OMOP. La seva arquitectura basada en ontologies permet reutilitzar els esforços realitzats, de forma a consolidar diferents fonts de dades, així com convertir a diferents CDMs, sigui un procés més senzill i reaprofitable. A diferència de les eines existents al mercat i en la literatura científica, no es centra en una única part del procés ni en un CDM específic, el que suposa un avenç significatiu en el panorama actual d'ús secundari de les dades biomèdics. Les millores realitzades sobre OntoBridge i la seva publicació en un repositori obert agilitzaran i optimitzaran la conversió de dades basades en models locals cap a OMOP. Això facilitarà el compliment dels objectius del projecte, al evitar processos complexos i repetitius d'ETL que requereixin múltiples eines.
Pròxims passos
L'objectiu general de DATOS-CAT és contribuir al desenvolupament de procediments aplicables a altres cohorts, millorant el nivell d'interoperabilitat de les seves dades en el context de l'ecosistema europeu de dades biomèdics. En aquest sentit, les següents etapes fins a la seva consecució consisteixen precisament en què cada institució utilitzi les eines desenvolupades per a l'estandardització de les dades al model comú proposat i les publiqui utilitzant els mecanismes de federació comentats, entre altres. Al final del projecte es pretén posar a disposició dels investigadors de Catalunya, i de la resta del món, una eina única per donar resposta a les preguntes relacionades amb la nostra salut i el tractament de la malaltia, permetent entendre millor els riscos genètics i ambientals relacionats amb les malalties. Un cop les dades estiguin accessibles de manera general, a partir de mitjan del 2025, es podran veure els primers resultats de l'explotació de les mateixes de manera gairebé immediata.