Repositori institucional URV
Español Català English
TÍTOL:
A compressed file partitioner for scalable genomics analysis with serverless technology - TFG:5628

Estudiant:Maleno Gonzalez, Francisco Damián
Idioma:en
Títol en la llengua original:A compressed file partitioner for scalable genomics analysis with serverless technology
Títol en diferents idiomes:Un particionador de fitxers comprimits per a una anàlisi genòmica escalable mitjançant la tecnologia serverless
Paraules clau:anàlisis de dades, genòmica, serverless, arxius comprimits, particionador
Matèria:Dades. Recuperació (Informàtica)
Resum:Els avenços realitzats en les tecnologies de seqüenciació de propera generació han revolucionat l'estudi de la biologia molecular mitjançant la seqüenciació de milions de seqüències genòmiques a escala massiva. Les quantitats inimaginables de dades genòmiques requereixen un processament bioinformàtic exhaustiu per a la seva correcta interpretació, una necessitat que la informàtica tradicional està lluitant per afrontar. Per tant, s'han recorregut arquitectures serverless, que permeten el processament de volums de dades inviables d'un ordinador personal, assumint responsabilitats com l'aprovisionament de recursos i la gestió lluny del programador, i basant-se en els principis de simplicitat, escalabilitat i facturació només pels recursos utilitzats. Motivat pel seu millor rendiment i menor cost, els grups de recerca de bioinformàtica han decidit migrar els seus experiments a aquesta arquitectura utilitzant serverless frameworks d'anàlisi de dades, com Lithops. No obstant això, malgrat tenir menys limitacions en termes d'emmagatzematge de dades amb aquestes arquitectures, aquests frameworks no han estat dissenyats per treballar amb tots els tipus de dades. Les dades genòmiques s'emmagatzemen sovint en arxius comprimits Gzip de desenes de terabytes, per la qual cosa és necessari implementar una utilitat capaç de descomprimir parts d'aquests fitxers grans 'al vol' per a la seva anàlisi en funcions serverless. Gràcies al partidor i recuperador de dades per a fitxers comprimits amb Gzip implementats en aquest estudi, els bioinformàtics podran realitzar els seus experiments utilitzant el serverless framework de dades Lithops d'una manera senzilla, gaudint d'una experiència de programació impulsada per les dades en lloc de per la gestió de recursos. Per validar l'eficiència d'aquest sistema, el cas d'ús genòmic de Cloudbutton 'SNP Variant Caller' s'ha implementat amb resultats satisfactoris.
Director del projecte:García López, Pedro
Departament:Enginyeria Informàtica i Matemàtiques
Ensenyament(s):Enginyeria Informàtica
Entitat:Universitat Rovira i Virgili (URV)
Crèdits del TFG:12
Data d'alta al repositori:2023-02-07
Data de la defensa del treball:2022-01-21
Curs acadèmic:2021-2022
Confidencialitat:No
Àrees temàtiques:Enginyeria informàtica
Drets d'accés:info:eu-repo/semantics/openAccess
Cerca el teu registre a:

Fitxers disponibles
FitxerDescripcióFormat
MemòriaMemòriaapplication/pdf

Informació

© 2011 Universitat Rovira i Virgili