Cantitate/Preț
Produs

Scaling Machine Learning with Spark: Distributed ML with MLlib, TensorFlow, and PyTorch

Autor Adi Polak
en Limba Engleză Paperback – 11 apr 2023

În domeniul inteligenței artificiale și al procesării datelor de mari dimensiuni, trecerea de la un model experimental pe un laptop la un sistem de producție distribuit reprezintă una dintre cele mai mari provocări tehnice. Volumul Scaling Machine Learning with Spark propune o abordare aplicată pentru inginerii de date și cercetătorii care doresc să utilizeze Apache Spark nu doar ca motor de procesare, ci ca platformă centrală pentru fluxuri complexe de învățare automată. Reținem aici accentul pus pe interoperabilitate: autorul nu se limitează la biblioteca standard MLlib, ci explorează punțile de legătură către ecosistemele de deep learning prin TensorFlow și PyTorch distribuite.

Descoperim în paginile sale o analiză detaliată a modului în care tehnologii precum Petastorm pot fi utilizate ca strat de stocare pentru a facilita transferul datelor din Spark către framework-urile de antrenare. Ca și Butch Quinto în Next-Generation Machine Learning with Spark, autorul distilează experiență reală în principii acționabile, oferind criterii clare despre când și de ce să alegem o anumită tehnologie în cadrul procesului de producție. Considerăm că structura cărții este ideală pentru cei care vor să stăpânească managementul experimentelor prin MLFlow, asigurând astfel trasabilitatea și scalabilitatea modelelor.

Spre deosebire de lucrări axate pe fundamentele limbajului, precum Learn PySpark de Pramod Singh, această resursă publicată de O'Reilly se concentrează pe arhitecturi avansate și strategii de distribuție. Este o lectură tehnică ce acoperă etapele critice de feature engineering și formate de date optimizate pentru clustere, fiind esențială pentru optimizarea fluxurilor de lucru în medii cloud sau on-premise de mari dimensiuni.

Citește tot Restrânge

Preț: 35681 lei

Preț vechi: 44601 lei
-20%

Puncte Express: 535

Carte disponibilă

Livrare economică 04-18 mai
Livrare express 17-23 aprilie pentru 7268 lei


Specificații

ISBN-13: 9781098106829
ISBN-10: 1098106822
Pagini: 291
Dimensiuni: 177 x 231 x 18 mm
Greutate: 0.52 kg
Editura: O'Reilly

De ce să citești această carte

Pentru specialiștii în date care au depășit etapa modelelor locale, această carte oferă soluții concrete pentru scalare. Veți câștiga expertiză în integrarea Spark cu TensorFlow și PyTorch, învățând să gestionați întregul ciclu de viață al unui model ML. Este recomandarea noastră pentru oricine dorește să construiască sisteme de inteligență artificială robuste, capabile să proceseze volume masive de date în fluxuri de producție reale.


Despre autor

Adi Polak este o expertă recunoscută în domeniul ingineriei datelor și al sistemelor distribuite, cu o experiență vastă în arhitecturi cloud și tehnologii open source. În activitatea sa, se concentrează pe optimizarea fluxurilor de lucru pentru Machine Learning și pe educarea comunității tehnice prin prezentări la conferințe internaționale de profil. Expertiza sa în ecosistemul Apache Spark este reflectată în modul pragmatic în care abordează integrarea diverselor instrumente software pentru a rezolva probleme complexe de scalabilitate în industria IT.


Descriere

Get up to speed on Apache Spark, the popular engine for large-scale data processing, including machine learning and analytics. If you're looking to expand your skill set or advance your career in scalable machine learning with MLlib, distributed PyTorch, and distributed TensorFlow, this practical guide is for you. Using Spark as your main data processing platform, you'll discover several open source technologies designed and built for enriching Spark's ML capabilities.

Scaling Machine Learning with Spark examines various technologies for building end-to-end distributed ML workflows based on the Apache Spark ecosystem with Spark MLlib, MLFlow, TensorFlow, PyTorch, and Petastorm. This book shows you when to use each technology and why. If you're a data scientist working with machine learning, you'll learn how to:Build practical distributed machine learning workflows, including feature engineering and data formatsExtend deep learning functionalities beyond Spark by bridging into distributed TensorFlow and PyTorchManage your machine learning experiment lifecycle with MLFlowUse Petastorm as a storage layer for bridging data from Spark into TensorFlow and PyTorchUse machine learning terminology to understand distribution strategies


Descriere scurtă

"Learn how to build end-to-end scalable machine learning solutions with Apache Spark. With this practical guide, author Adi Polak introduces data and ML practitioners to creative solutions that supersede today's traditional methods. You'll learn a more holistic approach that takes you beyond specific requirements and organizational goals--allowing data and ML practitioners to collaborate and understand each other better ... [Also] examines several technologies for building end-to-end distributed ML workflows based on the Apache Spark ecosystem with Spark MLlib, MLflow, TensorFlow, and PyTorch"--

Notă biografică

Adi Polak is an open source technologist who believes in communities and education, and their ability to positively impact the world around us. She is passionate about building a better world through open collaboration and technological innovation. As a seasoned engineer and Vice President of Developer Experience at Treeverse, Adi shapes the future of data and ML technologies for hands-on builders. She serves on multiple program committees and acts as an advisor for conferences like Data & AI Summit by Databricks, Current by Confluent, and Scale by the Bay, among others. Adi previously served as a senior manager for Azure at Microsoft, where she helped build advanced analytics systems and modern data architectures. Adi gained experience in machine learning by conducting research for IBM, Deutsche Telekom, and other Fortune 500 companies.