Treballs Fi de GrauEnginyeria Informàtica i Matemàtiques

Un particionador de ficheros comprimidos para un análisis genómico escalable mediante la tecnología serverless

  • Datos identificativos

    Identificador:  TFG:5628
    Autores:  Maleno Gonzalez, Francisco Damián
    Resumen:
    Els avenços realitzats en les tecnologies de seqüenciació de propera generació han revolucionat l'estudi de la biologia molecular mitjançant la seqüenciació de milions de seqüències genòmiques a escala massiva. Les quantitats inimaginables de dades genòmiques requereixen un processament bioinformàtic exhaustiu per a la seva correcta interpretació, una necessitat que la informàtica tradicional està lluitant per afrontar. Per tant, s'han recorregut arquitectures serverless, que permeten el processament de volums de dades inviables d'un ordinador personal, assumint responsabilitats com l'aprovisionament de recursos i la gestió lluny del programador, i basant-se en els principis de simplicitat, escalabilitat i facturació només pels recursos utilitzats. Motivat pel seu millor rendiment i menor cost, els grups de recerca de bioinformàtica han decidit migrar els seus experiments a aquesta arquitectura utilitzant serverless frameworks d'anàlisi de dades, com Lithops. No obstant això, malgrat tenir menys limitacions en termes d'emmagatzematge de dades amb aquestes arquitectures, aquests frameworks no han estat dissenyats per treballar amb tots els tipus de dades. Les dades genòmiques s'emmagatzemen sovint en arxius comprimits Gzip de desenes de terabytes, per la qual cosa és necessari implementar una utilitat capaç de descomprimir parts d'aquests fitxers grans 'al vol' per a la seva anàlisi en funcions serverless. Gràcies al partidor i recuperador de dades per a fitxers comprimits amb Gzip implementats en aquest estudi, els bioinformàtics podran realitzar els seus experiments utilitzant el serverless framework de dades Lithops d'una manera senzilla, gaudint d'una experiència de programació impulsada per les dades en lloc de per la gestió de recursos. Per validar l'eficiència d'aquest sistema, el cas d'ús genòmic de Cloudbutton 'SNP Variant Caller' s'ha implementat amb resultats satisfactoris.
  • Otros:

    Departamento: Enginyeria Informàtica i Matemàtiques
    Créditos del TFG: 12
    Materia: Dades. Recuperació (Informàtica)
    Fecha de la defensa del treball: 2022-01-21
    Fecha de alta en el repositorio: 2023-02-07
    Curso académico: 2021-2022
    Estudiante: Maleno Gonzalez, Francisco Damián
    Derechos de acceso: info:eu-repo/semantics/openAccess
    Enseñanza(s): Enginyeria Informàtica
    Entidad: Universitat Rovira i Virgili (URV)
    Confidencialidad: No
    Director del proyecto: García López, Pedro
    Idioma: en
  • Palabras clave:

    análisis de datos
    genómica
    archivos comprimidos
    Ingeniería informática
  • Documentos:

  • Cerca a google

    Search to google scholar