Treballs Fi de Màster> Enginyeria de la Seguretat Informàtica i Intel·ligència Artificial

Serverless Data Analytics

  • Identification data

    Identifier: TFM:1636
    Handle: http://hdl.handle.net/20.500.11797/TFM1636
  • Authors:

    Predoaia, Ionut
  • Others:

    Keywords: sense servidor, aprenentatge automàtic, big data serverless, machine learning, big data sin servidor, aprendizaje automático, big data
    Title in different languages: Anàlisi de dades sense servidor Análisis de datos sin servidor
    Subject areas: Enginyeria informàtica Computer engineering Ingeniería informática
    Confidenciality: No
    Academic year: 2022-2023
    Student: Predoaia, Ionut
    APS: No
    Department: Enginyeria Informàtica i Matemàtiques
    Access Rights: info:eu-repo/semantics/openAccess
    Work's public defense date: 2023-09-15
    Project director: García López, Pedro
    Abstract: La informàtica sense servidor ha mostrat un gran potencial per a les aplicacions d'anàlisi de dades, especialment per a càrregues de treball paral·leles vergonyosos. No obstant això, a la literatura s'ha donat poca consideració a portar aplicacions amb estat que requereixen estat compartit a sense servidor. Aquest treball tanca aquesta bretxa explorant la desagregació de recursos de maquinari en la informàtica sense servidor, amb l'objectiu de portar a algorismes d'aprenentatge automàtic sense servidor, és a dir, agrupació de k-means i regressió logística. En aquest treball es presenten un conjunt de directrius, reptes i limitacions per portar algorismes d'aprenentatge automàtic amb estat a sense servidor. L'execució d'aplicacions amb estat en arquitectures sense servidor indueix inherentment despeses generals, ja que les funcions sense servidor no són directament adreçables a la xarxa, per tant, cal confiar en un servei d'emmagatzematge remot per emmagatzemar l'estat compartit. En aquest treball s'avalua la viabilitat de resoldre algorismes d'aprenentatge automàtic amb estat i, a més, es proposen tècniques d'optimització per millorar-ne la viabilitat. S'ha avaluat el rendiment, l'escalabilitat i les despeses generals dels algorismes d'aprenentatge automàtic amb estat que s'executen amb arquitectures sense servidor. La implementació sense servidor de l'algoritme k-means ha aconseguit una acceleració de 87 vegades en comparació amb una implementació seqüencial de l'algorisme. Pel que fa a l'escalabilitat, la implementació sense servidor ha aconseguit un factor d'escala de 0,91 amb 100 funcions sense servidor concurrents. Per augmentar la viabilitat de la implementació sense servidor, s'ha emprat el paral·lelisme intrafunció com a tècnica d'optimització per paral·lelitzar l'execució de les funcions sense servidor, aconseguint un rendiment millorat fins a un 68%. Serverless computing has shown vast potential for data analytics applications, especially for embarrassingly parallel workloads. Nevertheless, little consideration has been given in the literature to porting stateful applications requiring shared state to serverless. This work closes this gap by exploring hardware resource disaggregation in serverless computing, with the aim of porting to serverless stateful machine learning algorithms, i.e., k-means clustering and logistic regression. A set of guidelines, challenges and limitations of porting stateful machine learning algorithms to serverless are presented in this work. Running stateful applications on serverless architectures inherently induces overheads, as serverless functions are not directly network-addressable, hence one must rely on a remote storage service for storing the shared state. In this work, the feasibility of solving stateful machine learning algorithms is evaluated, and furthermore, optimization techniques are proposed to enhance their feasibility. The performance, scalability and overheads of the stateful machine learning algorithms running with serverless architectures have been evaluated. The serverless implementation of the k-means algorithm has achieved an 87-fold speedup compared to a sequential implementation of the algorithm. In terms of scalability, the serverless implementation has achieved a scale-up factor of 0.91 with 100 concurrent serverless functions. To raise the feasibility of the serverless implementation, intra-function parallelism has been employed as an optimization technique to parallelize the execution of the serverless functions, achieving up to 68% improved performances.
    Subject: Enginyeria informàtica
    Entity: Universitat Rovira i Virgili (URV)
    Language: en
    Education area(s): Enginyeria de la Seguretat Informàtica i Intel·ligència Artificial
    Title in original language: Serverless Data Analytics
    Creation date in repository: 2024-04-09
  • Keywords:

    Enginyeria informàtica
    Computer engineering
    Ingeniería informática
    Enginyeria informàtica
  • Documents:

  • Cerca a google

    Search to google scholar