Data d'alta al repositori: 2023-02-07
Resum: The advances made in next-generation sequencing technologies have revolutionized the study of molecular biology by enabling the sequencing of millions of genomic sequences on a massive scale. Unimaginable amounts of genomic data require exhaustive bioinformatic processing for their correct interpretation, a need that traditional computing is struggling to cope with. Therefore, serverless architectures have been resorted, which allow the processing of otherwise unfeasible volumes of data from a personal computer, taking responsibilities such as resource provisioning and management away from the programmer, and based on the principles of simplicity, scalability, and billing only for the resources used. Motivated by its better performance and lower cost, bioinformatics research groups have decided to migrate their experiments to this architecture using serverless data analysis frameworks, such as Lithops. However, despite having fewer limitations in terms of data storage with these architectures, these frameworks have not been designed to work with all types of data. Genomic data is often stored in Gzip compressed files of tens of terabytes, so it is necessary to implement a utility able to decompress portions of these large files 'on-the-fly' for their analysis in serverless functions. Thanks to the data partitioner and retriever for Gzip-compressed files implemented in this study, bioinformaticians will be able to perform their experiments using the Lithops serverless data analysis framework in a simple way, enjoying a programming experience driven by data rather than by resource management. To validate the efficiency of this system, Cloudbutton's genomic use case 'SNP Variant Caller' has been implemented with satisfactory results. Els avenços realitzats en les tecnologies de seqüenciació de propera generació han revolucionat l'estudi de la biologia molecular mitjançant la seqüenciació de milions de seqüències genòmiques a escala massiva. Les quantitats inimaginables de dades genòmiques requereixen un processament bioinformàtic exhaustiu per a la seva correcta interpretació, una necessitat que la informàtica tradicional està lluitant per afrontar. Per tant, s'han recorregut arquitectures serverless, que permeten el processament de volums de dades inviables d'un ordinador personal, assumint responsabilitats com l'aprovisionament de recursos i la gestió lluny del programador, i basant-se en els principis de simplicitat, escalabilitat i facturació només pels recursos utilitzats. Motivat pel seu millor rendiment i menor cost, els grups de recerca de bioinformàtica han decidit migrar els seus experiments a aquesta arquitectura utilitzant serverless frameworks d'anàlisi de dades, com Lithops. No obstant això, malgrat tenir menys limitacions en termes d'emmagatzematge de dades amb aquestes arquitectures, aquests frameworks no han estat dissenyats per treballar amb tots els tipus de dades. Les dades genòmiques s'emmagatzemen sovint en arxius comprimits Gzip de desenes de terabytes, per la qual cosa és necessari implementar una utilitat capaç de descomprimir parts d'aquests fitxers grans 'al vol' per a la seva anàlisi en funcions serverless. Gràcies al partidor i recuperador de dades per a fitxers comprimits amb Gzip implementats en aquest estudi, els bioinformàtics podran realitzar els seus experiments utilitzant el serverless framework de dades Lithops d'una manera senzilla, gaudint d'una experiència de programació impulsada per les dades en lloc de per la gestió de recursos. Per validar l'eficiència d'aquest sistema, el cas d'ús genòmic de Cloudbutton 'SNP Variant Caller' s'ha implementat amb resultats satisfactoris.
Matèria: Dades. Recuperació (Informàtica)
Idioma: en
Àrees temàtiques: Enginyeria informàtica Computer engineering Ingeniería informática
Departament: Enginyeria Informàtica i Matemàtiques
Estudiant: Maleno Gonzalez, Francisco Damián
Curs acadèmic: 2021-2022
Títol en diferents idiomes: Un particionador de fitxers comprimits per a una anàlisi genòmica escalable mitjançant la tecnologia serverless A compressed file partitioner for scalable genomics analysis with serverless technology Un particionador de ficheros comprimidos para un análisis genómico escalable mediante la tecnología serverless
Data de la defensa del treball: 2022-01-21
Drets d'accés: info:eu-repo/semantics/openAccess
Paraules clau: anàlisis de dades, genòmica, serverless, arxius comprimits, particionador data analytics, serverless, genomics, compressed files, partitioner análisis de datos, genómica, serverless, archivos comprimidos, particionador
Confidencialitat: No
Crèdits del TFG: 12
Títol en la llengua original: A compressed file partitioner for scalable genomics analysis with serverless technology
Director del projecte: García López, Pedro
Ensenyament(s): Enginyeria Informàtica
Entitat: Universitat Rovira i Virgili (URV)