PySpark Recipes: A Problem-Solution Approach with PySpark2
Autor Raju Kumar Mishraen Limba Engleză Paperback – 10 dec 2017
Actualizarea adusă de PySpark Recipes în peisajul procesării Big Data constă în adoptarea versiunii PySpark2, punând accent pe optimizarea codului și pe utilizarea SparkSQL. Observăm că autorul prioritizează eficiența operațională, oferind soluții gata de implementat pentru problemele frecvente de programare întâlnite în ecosistemele Hadoop.
Structura volumului este una progresivă și extrem de practică. Începem cu o analiză a arhitecturii Spark și a conceptului de RDD (Resilient Distributed Dataset), trecând rapid prin fundamentele Python și NumPy în capitolul 3, ceea ce face tranziția mai ușoară pentru cei obișnuiți cu data science-ul tradițional. Progresia continuă spre subiecte complexe, precum operațiunile Input/Output, procesarea în flux prin PySpark Streaming și analiza grafurilor cu GraphFrames.
Abordarea diferă de Learning PySpark prin concentrarea strictă pe formatul „problemă-soluție” — este mai puțin abstractă și mult mai aplicabilă în fluxul de lucru zilnic al unui inginer de date. În timp ce alte lucrări se axează pe teoria sistemelor distribuite, Raju Kumar Mishra livrează rețete de cod care pot fi copiate și adaptate imediat.
Această lucrare completează opera autorului, integrându-se perfect lângă PySpark SQL Recipes. Dacă titlul anterior se focaliza pe analiza datelor și manipularea DataFrame-urilor, volumul de față extinde spectrul către infrastructură și algoritmi, acoperind inclusiv Spark MLlib pentru regresie liniară. Considerăm că organizarea tematică, de la instalare până la optimizarea performanței, transformă această carte într-un instrument de referință rapidă pentru orice dezvoltator Python care lucrează cu volume mari de date.
Preț: 390.12 lei
Preț vechi: 487.66 lei
-20%
Carte tipărită la comandă
Livrare economică 01-08 iunie
Specificații
ISBN-10: 1484231406
Pagini: 350
Ilustrații: XXIII, 265 p. 47 illus., 12 illus. in color.
Dimensiuni: 155 x 235 x 21 mm
Greutate: 0.41 kg
Ediția:1st ed.
Editura: Apress
Colecția Apress
Locul publicării:Berkeley, CA, United States
De ce să citești această carte
Recomandăm această carte analiștilor de date și programatorilor Python care au nevoie de soluții punctuale, fără a parcurge sute de pagini de teorie. Câștigul principal este eficiența: găsești problema, citești soluția și aplici codul. Este ideală pentru cei care fac trecerea de la procesarea locală la cea distribuită, utilizând PySpark2 și bibliotecile conexe pentru machine learning și streaming.
Despre autor
Raju Kumar Mishra este un expert recunoscut în ecosistemul Big Data, specializat în dezvoltarea de soluții scalabile folosind tehnologii Apache Spark. Autorul s-a remarcat prin capacitatea de a traduce concepte complexe de inginerie a datelor în ghiduri practice, accesibile comunității de dezvoltatori Python. Lucrările sale, publicate în principal la editura Apress, se concentrează pe utilizarea PySpark și Spark SQL pentru analiza datelor și procesarea grafurilor, promovând o metodologie de învățare bazată pe exemple concrete și rezolvarea problemelor reale din industrie.
Descriere scurtă
- Understand the advanced features of PySpark2 and SparkSQL
- Optimize your code
- Program SparkSQL with Python
- Use Spark Streaming and Spark MLlib with Python
- Perform graph analysis with GraphFrames