Notícies

GCAT presenta una nova eina oberta per facilitar la reutilització de dades genòmiques

- Projectes, Recerca

L'equip de GCAT|Genomes for Life, un projecte estratègic de l'Institut de Recerca Germans Trias i Pujol (IGTP), ha desenvolupat PolyGenie, una nova eina que facilita l'exploració i la reutilització de dades genòmiques per part de la comunitat investigadora. Aquesta iniciativa representa un nou pas en l'estratègia del projecte per promoure dades FAIR, recursos reutilitzables i infraestructures obertes al servei de la recerca biomèdica. La plataforma i la seva aplicació a la cohort GCAT es descriuen en un article publicat a la revista NAR Genomics and Bioinformatics.

La generació de dades és només el primer pas del procés científic. El seu valor augmenta quan aquestes dades poden ser reutilitzades, combinar amb altres fonts d'informació i transformar en nou coneixement. Amb aquesta visió, l'equip de GCAT ha contribuït al desenvolupament de PolyGenie, una eina dissenyada per facilitar l'anàlisi, l'exploració i la reutilització de dades genòmiques per part de la comunitat investigadora.

La plataforma s'ha creat per facilitar els anomenats estudis phenome-wide association (PheWAS), una aproximació que permet analitzar com la predisposició genètica a una determinada malaltia o característica es relaciona amb centenars o milers d'altres fenotips, incloent-hi malalties, factors d'estil de vida o dades moleculars. Per fer-ho, PolyGenie utilitza puntuacions de risc poligènic (polygenic risk scores, PRS), que integren l'efecte de milers de variants genètiques per estimar la susceptibilitat a diferents trets i malalties.

Més de 200.000 associacions analitzades amb dades de la cohort GCAT

Per demostrar les seves capacitats, els investigadors van aplicar PolyGenie a les dades de la cohort GCAT, un estudi poblacional que inclou prop de 20.000 persones d'entre 40 i 65 anys de Catalunya. Per a aquesta implementació es van analitzar prop de 5.000 participants genotipats, combinant 135 puntuacions de risc poligènic amb 1.483 fenotips diferents, incloent-hi malalties, variables d'estil de vida i dades metabolòmiques. Això va permetre avaluar més de 200.000 possibles associacions entre risc genètic i fenotips, demostrant la capacitat de la plataforma per explorar de manera sistemàtica les relacions entre el risc genètic i una àmplia varietat de característiques de salut.

Com a exemple, l'equip va explorar les relacions entre una puntuació de risc associada a la fragilitat i diferents resultats clínics. Les anàlisis van mostrar que la prevalença de l'obesitat augmentava progressivament a mesura que augmentava el risc genètic de fragilitat. També es va observar una associació entre aquest risc genètic i el trastorn depressiu major, amb una prevalença més elevada en dones. Aquest tipus d'anàlisi il·lustra la capacitat de PolyGenie per identificar patrons compartits entre malalties i factors biològics, facilitant la generació de noves hipòtesis de recerca.

Reutilitzar dades genòmiques per generar nou coneixement

"Tot i que ja existeixen eines per calcular puntuacions de risc poligènic i altres plataformes per visualitzar resultats, fins ara mancaven recursos que facilitessin l'aplicació sistemàtica d'aquest tipus d'anàlisis en diferents cohorts. PolyGenie cobreix aquest buit mitjançant un pipeline de codi obert desenvolupada amb Nextflow, dissenyada per analitzar puntuacions de risc poligènic independentment del mètode utilitzat per generar-les, fet que en facilita l'aplicació en diferents entorns de recerca", explica Natàlia Blay, investigadora de GCAT i co-autora de l'estudi.

Una altra de les fortaleses de la plataforma és que incorpora eines de visualització interactiva que faciliten l'exploració dels resultats. A més, pot adaptar-se fàcilment a noves cohorts mitjançant fitxers de configuració i metadades, sense necessitat de modificar el codi.

Per a GCAT, aquesta iniciativa representa un pas més en la construcció de recursos oberts per a la recerca. Durant els darrers anys, la cohort ha evolucionat des d'un recurs poblacional cap a una plataforma científica que promou la reutilització responsable de dades, la col·laboració entre institucions i el desenvolupament de nous recursos per a la comunitat investigadora. PolyGenie exemplifica aquesta evolució, transformant informació genòmica complexa en un recurs més accessible per a investigadors que treballen en àmbits com la medicina de precisió, la genètica poblacional o l'estudi dels determinants biològics de la salut.

Com a recurs integrat al node espanyol d'ELIXIR Spain i connectat amb infraestructures europees com l'European Genome-phenome Archive (EGA), GCAT està plenament alineada amb els principis de la ciència oberta i de les dades FAIR (Findable, Accessible, Interoperable and Reusable). "La ciència oberta no consisteix únicament a compartir dades. Consisteix a crear les eines i les infraestructures que permetin transformar aquestes dades en coneixement útil per a la societat", comenta Xavier Farré, investigador de GCAT i co-primer autor de l'estudi. Afegeix també que "iniciatives com PolyGenie exemplifiquen com la inversió pública no només permet generar dades de gran valor científic, sinó també desenvolupar les infraestructures digitals necessàries perquè aquestes dades siguin accessibles, reutilitzables i útils".

El següent pas: incorporar les dades de tota la cohort GCAT

Aquest avenç ha estat possible gràcies al finançament dels Fons de Resiliència a través del projecte GEPETO (Genome Profiling in the GCAT, an Electronic Health Record Population-Based Cohort Study to Improve Prevention, Diagnosis and Treatment of Common Diseases Using Polygenic Risk Scores; TED2021-130626B-I00), finançat pel Ministeri de Ciència, Innovació i Universitats des de 2023. Aquest projecte estratègic té com a objectiu principal completar el genotipatge de tota la cohort GCAT i posar aquestes dades a disposició de la comunitat científica com un recurs obert, interoperable i d'alt valor per a la recerca biomèdica.

L'estudi actual i la demostració de l'eina PolyGenie s'han desenvolupat sobre els primers 5.000 participants genotipats de la cohort. Tanmateix, en els propers mesos s'hi incorporaran les dades de gairebé 20.000 participants, generades en el marc del projecte GEPETO, completant així el recurs poblacional previst inicialment. Aquesta ampliació multiplicarà el potencial de la cohort per a estudis genòmics, epidemiològics i de medicina de precisió.

Referència

Farré X, Gasco M, Blay N, de Cid R. PolyGenie: a reproducible Nextflow pipeline for phenome-wide association studies using polygenic risk scores. NAR Genom Bioinform. 2026 Jun 9;8(2):lqag056. DOI: 10.1093/nargab/lqag056.