Cantitate/Preț
Produs

Karau, H: High Performance Spark

Autor Holden Karau, Rachel Warren
en Limba Engleză Paperback – iul 2017

Analizăm High Performance Spark, un manual tehnic avansat care presupune o familiaritate solidă cu ecosistemul Apache Spark și experiență prealabilă în ingineria datelor. Nu este o introducere teoretică, ci un ghid de optimizare pentru profesioniștii care rulează deja aplicații în producție și se confruntă cu limitări de resurse sau timpi de execuție ridicați. Reținem că accentul cade pe trecerea de la „funcțional” la „eficient”, explorând modul în care noile interfețe din Spark SQL pot depăși structura tradițională RDD.

Descoperim o abordare pragmatică a arhitecturii Spark, unde Holden Karau și Rachel Warren explică alegerea critică între join-urile de date în Core Spark versus Spark SQL. Un element distinctiv al cărții este secțiunea dedicată scrierii de cod performant fără a depinde exclusiv de Scala sau JVM, o barieră adesea întâlnită de dezvoltatorii care vin din alte limbaje. Cititorul care a aplicat deja conceptele de bază din Beginning Apache Spark 3 sau a experimentat cu noduri de cluster în Practical Apache Spark va găsi aici veriga lipsă: tehnicile de fine-tuning care fac interogările să ruleze mai rapid cu un consum minim de memorie.

Considerăm esențială și perspectiva asupra bibliotecilor de machine learning, Spark MLlib și Spark ML, integrate în fluxuri de lucru complexe. Autorii nu se limitează la cod, ci introduc metodologii de testare a funcționalității și performanței, asigurându-se că orice optimizare propusă este sustenabilă pe termen lung în medii de date la scară largă.

Citește tot Restrânge

Preț: 23324 lei

Preț vechi: 29155 lei
-20%

Puncte Express: 350

Carte disponibilă

Livrare economică 17 iunie-01 iulie

Livrare prin curier în România Termenul estimat este afișat lângă disponibilitate.
Transport gratuit de la 40000 lei Plată online sau ramburs, în funcție de opțiunile comenzii.
Retur gratuit în 14 zile Comandă securizată și suport în română.

Specificații

ISBN-13: 9781491943205
ISBN-10: 1491943203
Pagini: 358
Dimensiuni: 178 x 233 x 25 mm
Greutate: 0.54 kg
Ediția:1
Editura: O'Reilly

De ce să citești această carte

Pentru inginerii de date și administratorii de sistem care doresc să reducă costurile de infrastructură cloud. Această carte oferă soluții concrete pentru blocajele de performanță în Spark, învățându-vă cum să optimizați interogările SQL și să gestionați eficient seturile de date masive, transformând Spark dintr-un instrument complex într-un avantaj competitiv în producție.


Despre autor

Holden Karau este un expert recunoscut în comunitatea open source, fiind membru al comitetului de conducere (committer) pentru Apache Spark. Cu o experiență vastă acumulată la companii precum Google, IBM și Databricks, ea s-a specializat în sisteme distribuite și procesarea datelor la scară mare. Rachel Warren este analist de date și inginer software, având o experiență bogată în utilizarea Spark pentru cercetare și implementări comerciale. Împreună, autorii aduc o perspectivă duală, tehnică și analitică, asupra ecosistemului Spark.


Descriere

Apache Spark is amazing when everything clicks. But if you haven't seen the performance improvements you expected, or still don't feel confident enough to use Spark in production, this practical book is for you. Authors Holden Karau and Rachel Warren demonstrate performance optimizations to help your Spark queries run faster and handle larger data sizes, while using fewer resources.

Ideal for software engineers, data engineers, developers, and system administrators working with large-scale data applications, this book describes techniques that can reduce data infrastructure costs and developer hours. Not only will you gain a more comprehensive understanding of Spark, you'll also learn how to make it sing.

With this book, you'll explore:

  • How Spark SQL's new interfaces improve performance over SQL's RDD data structure
  • The choice between data joins in Core Spark and Spark SQL
  • Techniques for getting the most out of standard RDD transformations
  • How to work around performance issues in Spark's key/value pair paradigm
  • Writing high-performance Spark code without Scala or the JVM
  • How to test for functionality and performance when applying suggested improvements
  • Using Spark MLlib and Spark ML machine learning libraries
  • Spark's Streaming components and external community packages

Notă biografică

Holden Karau is transgender Canadian, and an active open source contributor. When not in San Francisco working as a software development engineer at IBM's Spark Technology Center, Holden talks internationally on Apache Spark and holds office hours at coffee shops at home and abroad. She is a Spark committer with frequent contributions, specializing in PySpark and Machine Learning. Prior to IBM she worked on a variety of distributed, search, and classification problems at Alpine, Databricks, Google, Foursquare, and Amazon. She graduated from the University of Waterloo with a Bachelor of Mathematics in Computer Science. Outside of software she enjoys playing with fire, welding, scooters, poutine, and dancing.
Rachel Warren is a data scientist and software engineer at Alpine Data Labs, where she uses Spark to address real world data processing challenges. She has experience working as an analyst both in industry and academia. She graduated with a degree in Computer Science from Wesleyan University in Connecticut.