Karau, H: High Performance Spark
Autor Holden Karau, Rachel Warrenen Limba Engleză Paperback – iul 2017
Analizăm High Performance Spark, un manual tehnic avansat care presupune o familiaritate solidă cu ecosistemul Apache Spark și experiență prealabilă în ingineria datelor. Nu este o introducere teoretică, ci un ghid de optimizare pentru profesioniștii care rulează deja aplicații în producție și se confruntă cu limitări de resurse sau timpi de execuție ridicați. Reținem că accentul cade pe trecerea de la „funcțional” la „eficient”, explorând modul în care noile interfețe din Spark SQL pot depăși structura tradițională RDD.
Descoperim o abordare pragmatică a arhitecturii Spark, unde Holden Karau și Rachel Warren explică alegerea critică între join-urile de date în Core Spark versus Spark SQL. Un element distinctiv al cărții este secțiunea dedicată scrierii de cod performant fără a depinde exclusiv de Scala sau JVM, o barieră adesea întâlnită de dezvoltatorii care vin din alte limbaje. Cititorul care a aplicat deja conceptele de bază din Beginning Apache Spark 3 sau a experimentat cu noduri de cluster în Practical Apache Spark va găsi aici veriga lipsă: tehnicile de fine-tuning care fac interogările să ruleze mai rapid cu un consum minim de memorie.
Considerăm esențială și perspectiva asupra bibliotecilor de machine learning, Spark MLlib și Spark ML, integrate în fluxuri de lucru complexe. Autorii nu se limitează la cod, ci introduc metodologii de testare a funcționalității și performanței, asigurându-se că orice optimizare propusă este sustenabilă pe termen lung în medii de date la scară largă.
Preț: 233.24 lei
Preț vechi: 291.55 lei
-20%
Carte disponibilă
Livrare economică 17 iunie-01 iulie
Specificații
ISBN-10: 1491943203
Pagini: 358
Dimensiuni: 178 x 233 x 25 mm
Greutate: 0.54 kg
Ediția:1
Editura: O'Reilly
De ce să citești această carte
Pentru inginerii de date și administratorii de sistem care doresc să reducă costurile de infrastructură cloud. Această carte oferă soluții concrete pentru blocajele de performanță în Spark, învățându-vă cum să optimizați interogările SQL și să gestionați eficient seturile de date masive, transformând Spark dintr-un instrument complex într-un avantaj competitiv în producție.
Despre autor
Holden Karau este un expert recunoscut în comunitatea open source, fiind membru al comitetului de conducere (committer) pentru Apache Spark. Cu o experiență vastă acumulată la companii precum Google, IBM și Databricks, ea s-a specializat în sisteme distribuite și procesarea datelor la scară mare. Rachel Warren este analist de date și inginer software, având o experiență bogată în utilizarea Spark pentru cercetare și implementări comerciale. Împreună, autorii aduc o perspectivă duală, tehnică și analitică, asupra ecosistemului Spark.
Descriere
Apache Spark is amazing when everything clicks. But if you haven't seen the performance improvements you expected, or still don't feel confident enough to use Spark in production, this practical book is for you. Authors Holden Karau and Rachel Warren demonstrate performance optimizations to help your Spark queries run faster and handle larger data sizes, while using fewer resources.
Ideal for software engineers, data engineers, developers, and system administrators working with large-scale data applications, this book describes techniques that can reduce data infrastructure costs and developer hours. Not only will you gain a more comprehensive understanding of Spark, you'll also learn how to make it sing.
With this book, you'll explore:
- How Spark SQL's new interfaces improve performance over SQL's RDD data structure
- The choice between data joins in Core Spark and Spark SQL
- Techniques for getting the most out of standard RDD transformations
- How to work around performance issues in Spark's key/value pair paradigm
- Writing high-performance Spark code without Scala or the JVM
- How to test for functionality and performance when applying suggested improvements
- Using Spark MLlib and Spark ML machine learning libraries
- Spark's Streaming components and external community packages