Scaling Machine Learning with Spark: Distributed ML with MLlib, TensorFlow, and PyTorch
Autor Adi Polaken Limba Engleză Paperback – 11 apr 2023
În domeniul inteligenței artificiale și al procesării datelor de mari dimensiuni, trecerea de la un model experimental pe un laptop la un sistem de producție distribuit reprezintă una dintre cele mai mari provocări tehnice. Volumul Scaling Machine Learning with Spark propune o abordare aplicată pentru inginerii de date și cercetătorii care doresc să utilizeze Apache Spark nu doar ca motor de procesare, ci ca platformă centrală pentru fluxuri complexe de învățare automată. Reținem aici accentul pus pe interoperabilitate: autorul nu se limitează la biblioteca standard MLlib, ci explorează punțile de legătură către ecosistemele de deep learning prin TensorFlow și PyTorch distribuite.
Descoperim în paginile sale o analiză detaliată a modului în care tehnologii precum Petastorm pot fi utilizate ca strat de stocare pentru a facilita transferul datelor din Spark către framework-urile de antrenare. Ca și Butch Quinto în Next-Generation Machine Learning with Spark, autorul distilează experiență reală în principii acționabile, oferind criterii clare despre când și de ce să alegem o anumită tehnologie în cadrul procesului de producție. Considerăm că structura cărții este ideală pentru cei care vor să stăpânească managementul experimentelor prin MLFlow, asigurând astfel trasabilitatea și scalabilitatea modelelor.
Spre deosebire de lucrări axate pe fundamentele limbajului, precum Learn PySpark de Pramod Singh, această resursă publicată de O'Reilly se concentrează pe arhitecturi avansate și strategii de distribuție. Este o lectură tehnică ce acoperă etapele critice de feature engineering și formate de date optimizate pentru clustere, fiind esențială pentru optimizarea fluxurilor de lucru în medii cloud sau on-premise de mari dimensiuni.
Preț: 356.81 lei
Preț vechi: 446.01 lei
-20%
Carte disponibilă
Livrare economică 04-18 mai
Livrare express 17-23 aprilie pentru 72.68 lei
Specificații
ISBN-10: 1098106822
Pagini: 291
Dimensiuni: 177 x 231 x 18 mm
Greutate: 0.52 kg
Editura: O'Reilly
De ce să citești această carte
Pentru specialiștii în date care au depășit etapa modelelor locale, această carte oferă soluții concrete pentru scalare. Veți câștiga expertiză în integrarea Spark cu TensorFlow și PyTorch, învățând să gestionați întregul ciclu de viață al unui model ML. Este recomandarea noastră pentru oricine dorește să construiască sisteme de inteligență artificială robuste, capabile să proceseze volume masive de date în fluxuri de producție reale.
Despre autor
Adi Polak este o expertă recunoscută în domeniul ingineriei datelor și al sistemelor distribuite, cu o experiență vastă în arhitecturi cloud și tehnologii open source. În activitatea sa, se concentrează pe optimizarea fluxurilor de lucru pentru Machine Learning și pe educarea comunității tehnice prin prezentări la conferințe internaționale de profil. Expertiza sa în ecosistemul Apache Spark este reflectată în modul pragmatic în care abordează integrarea diverselor instrumente software pentru a rezolva probleme complexe de scalabilitate în industria IT.
Descriere
Get up to speed on Apache Spark, the popular engine for large-scale data processing, including machine learning and analytics. If you're looking to expand your skill set or advance your career in scalable machine learning with MLlib, distributed PyTorch, and distributed TensorFlow, this practical guide is for you. Using Spark as your main data processing platform, you'll discover several open source technologies designed and built for enriching Spark's ML capabilities.
Scaling Machine Learning with Spark examines various technologies for building end-to-end distributed ML workflows based on the Apache Spark ecosystem with Spark MLlib, MLFlow, TensorFlow, PyTorch, and Petastorm. This book shows you when to use each technology and why. If you're a data scientist working with machine learning, you'll learn how to:Build practical distributed machine learning workflows, including feature engineering and data formatsExtend deep learning functionalities beyond Spark by bridging into distributed TensorFlow and PyTorchManage your machine learning experiment lifecycle with MLFlowUse Petastorm as a storage layer for bridging data from Spark into TensorFlow and PyTorchUse machine learning terminology to understand distribution strategies