Treballs Fi de GrauEnginyeria Informàtica i Matemàtiques

Un particionador de fitxers comprimits per a una anàlisi genòmica escalable mitjançant la tecnologia serverless

  • Dades identificatives

    Identificador:  TFG:5628
    Autors:  Maleno Gonzalez, Francisco Damián
    Resum:
    Els avenços realitzats en les tecnologies de seqüenciació de propera generació han revolucionat l'estudi de la biologia molecular mitjançant la seqüenciació de milions de seqüències genòmiques a escala massiva. Les quantitats inimaginables de dades genòmiques requereixen un processament bioinformàtic exhaustiu per a la seva correcta interpretació, una necessitat que la informàtica tradicional està lluitant per afrontar. Per tant, s'han recorregut arquitectures serverless, que permeten el processament de volums de dades inviables d'un ordinador personal, assumint responsabilitats com l'aprovisionament de recursos i la gestió lluny del programador, i basant-se en els principis de simplicitat, escalabilitat i facturació només pels recursos utilitzats. Motivat pel seu millor rendiment i menor cost, els grups de recerca de bioinformàtica han decidit migrar els seus experiments a aquesta arquitectura utilitzant serverless frameworks d'anàlisi de dades, com Lithops. No obstant això, malgrat tenir menys limitacions en termes d'emmagatzematge de dades amb aquestes arquitectures, aquests frameworks no han estat dissenyats per treballar amb tots els tipus de dades. Les dades genòmiques s'emmagatzemen sovint en arxius comprimits Gzip de desenes de terabytes, per la qual cosa és necessari implementar una utilitat capaç de descomprimir parts d'aquests fitxers grans 'al vol' per a la seva anàlisi en funcions serverless. Gràcies al partidor i recuperador de dades per a fitxers comprimits amb Gzip implementats en aquest estudi, els bioinformàtics podran realitzar els seus experiments utilitzant el serverless framework de dades Lithops d'una manera senzilla, gaudint d'una experiència de programació impulsada per les dades en lloc de per la gestió de recursos. Per validar l'eficiència d'aquest sistema, el cas d'ús genòmic de Cloudbutton 'SNP Variant Caller' s'ha implementat amb resultats satisfactoris.
  • Altres:

    Departament: Enginyeria Informàtica i Matemàtiques
    Crèdits del TFG: 12
    Matèria: Dades. Recuperació (Informàtica)
    Data de la defensa del treball: 2022-01-21
    Data d'alta al repositori: 2023-02-07
    Curs acadèmic: 2021-2022
    Estudiant: Maleno Gonzalez, Francisco Damián
    Drets d'accés: info:eu-repo/semantics/openAccess
    Ensenyament(s): Enginyeria Informàtica
    Entitat: Universitat Rovira i Virgili (URV)
    Confidencialitat: No
    Director del projecte: García López, Pedro
    Idioma: en
  • Paraules clau:

    anàlisis de dades
    genòmica
    serverless
    arxius comprimits
    particionador
    Enginyeria informàtica
  • Documents:

  • Cerca a google

    Search to google scholar