Serverless Data Analytics

Predoaia, Ionut

Identification data

Identifier: TFM:1636

Handle: http://hdl.handle.net/20.500.11797/TFM1636
Authors:

Predoaia, Ionut
Others:

Keywords: sense servidor, aprenentatge automàtic, big data serverless, machine learning, big data sin servidor, aprendizaje automático, big data
Title in different languages: Anàlisi de dades sense servidor Análisis de datos sin servidor
Subject areas: Enginyeria informàtica Computer engineering Ingeniería informática
Confidenciality: No
Academic year: 2022-2023
Student: Predoaia, Ionut
APS: No
Department: Enginyeria Informàtica i Matemàtiques
Access Rights: info:eu-repo/semantics/openAccess
Work's public defense date: 2023-09-15
Project director: García López, Pedro
Abstract: La informàtica sense servidor ha mostrat un gran potencial per a les aplicacions d'anàlisi de dades, especialment per a càrregues de treball paral·leles vergonyosos. No obstant això, a la literatura s'ha donat poca consideració a portar aplicacions amb estat que requereixen estat compartit a sense servidor. Aquest treball tanca aquesta bretxa explorant la desagregació de recursos de maquinari en la informàtica sense servidor, amb l'objectiu de portar a algorismes d'aprenentatge automàtic sense servidor, és a dir, agrupació de k-means i regressió logística. En aquest treball es presenten un conjunt de directrius, reptes i limitacions per portar algorismes d'aprenentatge automàtic amb estat a sense servidor. L'execució d'aplicacions amb estat en arquitectures sense servidor indueix inherentment despeses generals, ja que les funcions sense servidor no són directament adreçables a la xarxa, per tant, cal confiar en un servei d'emmagatzematge remot per emmagatzemar l'estat compartit. En aquest treball s'avalua la viabilitat de resoldre algorismes d'aprenentatge automàtic amb estat i, a més, es proposen tècniques d'optimització per millorar-ne la viabilitat. S'ha avaluat el rendiment, l'escalabilitat i les despeses generals dels algorismes d'aprenentatge automàtic amb estat que s'executen amb arquitectures sense servidor. La implementació sense servidor de l'algoritme k-means ha aconseguit una acceleració de 87 vegades en comparació amb una implementació seqüencial de l'algorisme. Pel que fa a l'escalabilitat, la implementació sense servidor ha aconseguit un factor d'escala de 0,91 amb 100 funcions sense servidor concurrents. Per augmentar la viabilitat de la implementació sense servidor, s'ha emprat el paral·lelisme intrafunció com a tècnica d'optimització per paral·lelitzar l'execució de les funcions sense servidor, aconseguint un rendiment millorat fins a un 68%. Serverless computing has shown vast potential for data analytics applications, especially for embarrassingly parallel workloads. Nevertheless, little consideration has been given in the literature to porting stateful applications requiring shared state to serverless. This work closes this gap by exploring hardware resource disaggregation in serverless computing, with the aim of porting to serverless stateful machine learning algorithms, i.e., k-means clustering and logistic regression. A set of guidelines, challenges and limitations of porting stateful machine learning algorithms to serverless are presented in this work. Running stateful applications on serverless architectures inherently induces overheads, as serverless functions are not directly network-addressable, hence one must rely on a remote storage service for storing the shared state. In this work, the feasibility of solving stateful machine learning algorithms is evaluated, and furthermore, optimization techniques are proposed to enhance their feasibility. The performance, scalability and overheads of the stateful machine learning algorithms running with serverless architectures have been evaluated. The serverless implementation of the k-means algorithm has achieved an 87-fold speedup compared to a sequential implementation of the algorithm. In terms of scalability, the serverless implementation has achieved a scale-up factor of 0.91 with 100 concurrent serverless functions. To raise the feasibility of the serverless implementation, intra-function parallelism has been employed as an optimization technique to parallelize the execution of the serverless functions, achieving up to 68% improved performances.
Subject: Enginyeria informàtica
Entity: Universitat Rovira i Virgili (URV)
Language: en
Education area(s): Enginyeria de la Seguretat Informàtica i Intel·ligència Artificial
Title in original language: Serverless Data Analytics
Creation date in repository: 2024-04-09

Keywords:

Enginyeria informàtica
Computer engineering
Ingeniería informática
Enginyeria informàtica
Documents:

Memòria
Cerca a google

Treballs Fi de Màster> Enginyeria de la Seguretat Informàtica i Intel·ligència Artificial

Serverless Data Analytics

Identification data

Authors:

Others:

Keywords:

Documents:

Cerca a google