Name: Karau, H: High Performance Spark
Price: 233.24 RON
Availability: InStock
Author: Holden Karau
ISBN: 9781491943205

Karau, H: High Performance Spark

Holden Karau

Rachel Warren

Analizăm High Performance Spark, un manual tehnic avansat care presupune o familiaritate solidă cu ecosistemul Apache Spark și experiență prealabilă în ingineria datelor. Nu este o introducere teoretică, ci un ghid de optimizare pentru profesioniștii care rulează deja aplicații în producție și se confruntă cu limitări de resurse sau timpi de execuție ridicați. Reținem că accentul cade pe trecerea de la „funcțional” la „eficient”, explorând modul în care noile interfețe din Spark SQL pot depăși structura tradițională RDD.

Descoperim o abordare pragmatică a arhitecturii Spark, unde Holden Karau și Rachel Warren explică alegerea critică între join-urile de date în Core Spark versus Spark SQL. Un element distinctiv al cărții este secțiunea dedicată scrierii de cod performant fără a depinde exclusiv de Scala sau JVM, o barieră adesea întâlnită de dezvoltatorii care vin din alte limbaje. Cititorul care a aplicat deja conceptele de bază din Beginning Apache Spark 3 sau a experimentat cu noduri de cluster în Practical Apache Spark va găsi aici veriga lipsă: tehnicile de fine-tuning care fac interogările să ruleze mai rapid cu un consum minim de memorie.

Considerăm esențială și perspectiva asupra bibliotecilor de machine learning, Spark MLlib și Spark ML, integrate în fluxuri de lucru complexe. Autorii nu se limitează la cod, ci introduc metodologii de testare a funcționalității și performanței, asigurându-se că orice optimizare propusă este sustenabilă pe termen lung în medii de date la scară largă.

Citește tot Restrânge

De ce să citești această carte

Pentru inginerii de date și administratorii de sistem care doresc să reducă costurile de infrastructură cloud. Această carte oferă soluții concrete pentru blocajele de performanță în Spark, învățându-vă cum să optimizați interogările SQL și să gestionați eficient seturile de date masive, transformând Spark dintr-un instrument complex într-un avantaj competitiv în producție.

Despre autor

Holden Karau este un expert recunoscut în comunitatea open source, fiind membru al comitetului de conducere (committer) pentru Apache Spark. Cu o experiență vastă acumulată la companii precum Google, IBM și Databricks, ea s-a specializat în sisteme distribuite și procesarea datelor la scară mare. Rachel Warren este analist de date și inginer software, având o experiență bogată în utilizarea Spark pentru cercetare și implementări comerciale. Împreună, autorii aduc o perspectivă duală, tehnică și analitică, asupra ecosistemului Spark.

Descriere

Apache Spark is amazing when everything clicks. But if you haven't seen the performance improvements you expected, or still don't feel confident enough to use Spark in production, this practical book is for you. Authors Holden Karau and Rachel Warren demonstrate performance optimizations to help your Spark queries run faster and handle larger data sizes, while using fewer resources.

Ideal for software engineers, data engineers, developers, and system administrators working with large-scale data applications, this book describes techniques that can reduce data infrastructure costs and developer hours. Not only will you gain a more comprehensive understanding of Spark, you'll also learn how to make it sing.

With this book, you'll explore:

How Spark SQL's new interfaces improve performance over SQL's RDD data structure
The choice between data joins in Core Spark and Spark SQL
Techniques for getting the most out of standard RDD transformations
How to work around performance issues in Spark's key/value pair paradigm
Writing high-performance Spark code without Scala or the JVM
How to test for functionality and performance when applying suggested improvements
Using Spark MLlib and Spark ML machine learning libraries
Spark's Streaming components and external community packages

Notă biografică

Holden Karau is transgender Canadian, and an active open source contributor. When not in San Francisco working as a software development engineer at IBM's Spark Technology Center, Holden talks internationally on Apache Spark and holds office hours at coffee shops at home and abroad. She is a Spark committer with frequent contributions, specializing in PySpark and Machine Learning. Prior to IBM she worked on a variety of distributed, search, and classification problems at Alpine, Databricks, Google, Foursquare, and Amazon. She graduated from the University of Waterloo with a Bachelor of Mathematics in Computer Science. Outside of software she enjoys playing with fire, welding, scooters, poutine, and dancing.

Rachel Warren is a data scientist and software engineer at Alpine Data Labs, where she uses Spark to address real world data processing challenges. She has experience working as an analyst both in industry and academia. She graduated with a degree in Computer Science from Wesleyan University in Connecticut.

Karau, H: High Performance Spark

Preț: 233^.24 lei

Carte disponibilă

Specificații

De ce să citești această carte

Despre autor

Descriere

Notă biografică

Ficțiune

Business

Medicină

Lifestyle

Copii și adolescenți

Biografii

Artă, arhitectură şi design

Calculatoare și IT

Științe

Tehnologie și inginerie

Papetărie, jocuri, reviste

Karau, H: High Performance Spark

Preț: 233.24 lei

Specificații

V-ar putea interesa

De ce să citești această carte

Despre autor

Descriere

Notă biografică

Papetărie, jocuri, reviste

Preț: 233^.24 lei