Comunicación

TRANSFORMACIÓN SEMÁNTICA Y EFICIENTE PARA LA INTEGRACIÓN DE GRANDES CONJUNTOS DE DATOS.

Autores:

José Antonio Bernabé Díaz1, MARÍA DEL CARMEN LEGAZ GARCÍA2, José Manuel García3, Jesualdo Tomás Fernández Breis2

Afiliaciones:

(1) Departamento de Informática y Sistemas, Universidad de Murcia, IMIB-Arrixaca, CP 30100 Murcia, Spain, 30120, España (Región de Murcia)
(2) TECNOLOGÍAS DE MODELADO, PROCESAMIENTO Y GESTIÓN DEL CONOCIMIENTO, IMIB, España
(3) Departamento de Ingeniería y Tecnología de Computadores, Universidad de Murcia, CP 30100 Murcia, Spain, 30100, España (Región de Murcia)

Publicación asociada:

PMID:
Referencia: https://doi.org/10.1016/j.eswa.2019.05.010
ISSN: 0957-4174
Revista: EXPERT SYSTEMS WITH APPLICATIONS
Factor de impacto (2017): 8.5
Cuartil: 1 PRIMER DECIL

Comunicación:

Antecedentes:

La era digital está poniendo a disposición más conjuntos de datos a través de Internet, sin embargo la interoperabilidad sigue siendo un problema limitante. La web semántica debería desempeñar un papel fundamental en lograr conjuntos de datos interoperables. La explotación semántica de datos requiere una transformación eficiente en formatos semánticos además de una integración de diversas fuentes heterogéneas. Actualmente, o bien la escalabilidad de las herramientas existentes para la transformación semántica de grandes volúmenes de información es limitada, o estas herramientas no proporcionan una representación semántica de los datos. Este trabajo tiene como objetivo mostrar cómo se pueden diseñar e implementar procesos de transformación de datos semánticos escalables, abordando así la primera limitación mencionada anteriormente. El método propuesto se implementa como una actualización de nuestra herramienta "Semantic Web Integration Tool" (SWIT) que, con el fin de aumentar su productividad, utilizamos la aplicación de técnicas de computación de alto rendimiento (HPC) para superar la limitación de escalabilidad.

Métodos:

Le herramienta SWIT transforma datos relaciones o XML en repositorios en formatos de Web Semántica. SWIT proporciona una transformación e integración de conjuntos de datos ricos en semántica y basada en ontologías. Los repositorios generados por SWIT no son redundantes y son lógicamente consistentes con los axiomas de la ontología utilizada en el proceso. Al algoritmo de SWIT se le han aplicado las técnicas de computación de alto rendimiento (HPC) y de modernización de código para su rediseño. Se han realizado mejoras a nivel de scalar tuning, instrucciones vectoriales, uso de disco, manejo de memoria y paralelización, siendo más notables las mejoras en manejo de memoria y paralelización de procesos.

Resultados:

El caso de uso utilizado para comprobar la mejora de SWIT se basan en datos de genes ortólogos. La ortología es un campo investiga las relaciones evolutivas entre genes. Tales relaciones son relevantes para la investigación en salud, ya que la conservación de las funciones entre especies se infiere generalmente para los genes que tienen una relación ortológica uno a uno, es decir, los genes que se desviaron de un antepasado común por un evento de especiación. Los datos ortólogos se extrajeron de las bases de datos de InParanoid, TreeFam y OMA, obteniendo unos conjuntos de datos de 43GB, 612MB y 1,5GB respectivamente. Las mejoras obtenidas respecto a la versión original de SWIT y la versión HPC son: (1) Los datos de InParanoid tadaron aproximadamente 38 días en transformarse con la versión original, mientras que en la versión HPC sólo unos 9 minutos aproximadamente; (2) La transformación de TreeFam duró unas dos semanas, mientras que en SWIT HPC la ejecución tardó sobre 2 minutos; (3) Los datos ortólogos de OMA requirieron 5 días para procesarse con la versión original de SWIT, mientras que con la versión HPC necesitó alrededor de 5 minutos.

Conclusiones:

La riqueza semántica de conjuntos de datos es crucial para su interoperabilidad. Hemos propuesto un método para la transformación e integración eficiente y semántica de grandes volúmenes de datos. Las técnicas informáticas de HPC han demostrado ser fundamentales para la escalabilidad y rendimiento de SWIT. La evaluación del método ha demostrado que es independiente del dominio y que la aceleración se veía afectada por las propiedades de los conjuntos de datos de origen.


Dirección

Campus de Ciencias de la Salud
Carretera Buenavista s/n, 30120 El Palmar
Murcia, España

Ver en OpenStreetMap

Ver en Google Maps

Teléfonos

+34 868885229
+34 868885239
+34 868885249