PySpark Recipes de Raju Kumar Mishra

PySpark Recipes: A Problem-Solution Approach with PySpark2

Raju Kumar Mishra

en Limba Engleză Paperback – 10 dec 2017

Actualizarea adusă de PySpark Recipes în peisajul procesării Big Data constă în adoptarea versiunii PySpark2, punând accent pe optimizarea codului și pe utilizarea SparkSQL. Observăm că autorul prioritizează eficiența operațională, oferind soluții gata de implementat pentru problemele frecvente de programare întâlnite în ecosistemele Hadoop.

Structura volumului este una progresivă și extrem de practică. Începem cu o analiză a arhitecturii Spark și a conceptului de RDD (Resilient Distributed Dataset), trecând rapid prin fundamentele Python și NumPy în capitolul 3, ceea ce face tranziția mai ușoară pentru cei obișnuiți cu data science-ul tradițional. Progresia continuă spre subiecte complexe, precum operațiunile Input/Output, procesarea în flux prin PySpark Streaming și analiza grafurilor cu GraphFrames.

Abordarea diferă de Learning PySpark prin concentrarea strictă pe formatul „problemă-soluție” — este mai puțin abstractă și mult mai aplicabilă în fluxul de lucru zilnic al unui inginer de date. În timp ce alte lucrări se axează pe teoria sistemelor distribuite, Raju Kumar Mishra livrează rețete de cod care pot fi copiate și adaptate imediat.

Această lucrare completează opera autorului, integrându-se perfect lângă PySpark SQL Recipes. Dacă titlul anterior se focaliza pe analiza datelor și manipularea DataFrame-urilor, volumul de față extinde spectrul către infrastructură și algoritmi, acoperind inclusiv Spark MLlib pentru regresie liniară. Considerăm că organizarea tematică, de la instalare până la optimizarea performanței, transformă această carte într-un instrument de referință rapidă pentru orice dezvoltator Python care lucrează cu volume mari de date.

Citește tot Restrânge

De ce să citești această carte

Recomandăm această carte analiștilor de date și programatorilor Python care au nevoie de soluții punctuale, fără a parcurge sute de pagini de teorie. Câștigul principal este eficiența: găsești problema, citești soluția și aplici codul. Este ideală pentru cei care fac trecerea de la procesarea locală la cea distribuită, utilizând PySpark2 și bibliotecile conexe pentru machine learning și streaming.

Despre autor

Raju Kumar Mishra este un expert recunoscut în ecosistemul Big Data, specializat în dezvoltarea de soluții scalabile folosind tehnologii Apache Spark. Autorul s-a remarcat prin capacitatea de a traduce concepte complexe de inginerie a datelor în ghiduri practice, accesibile comunității de dezvoltatori Python. Lucrările sale, publicate în principal la editura Apress, se concentrează pe utilizarea PySpark și Spark SQL pentru analiza datelor și procesarea grafurilor, promovând o metodologie de învățare bazată pe exemple concrete și rezolvarea problemelor reale din industrie.

Descriere scurtă

Quickly find solutions to common programming problems encountered while processing big data. Content is presented in the popular problem-solution format. Look up the programming problem that you want to solve. Read the solution. Apply the solution directly in your own code. Problem solved!

PySpark Recipes covers Hadoop and its shortcomings. The architecture of Spark, PySpark, and RDD are presented. You will learn to apply RDD to solve day-to-day big data problems. Python and NumPy are included and make it easy for new learners of PySpark to understand and adopt the model.

What You Will Learn

Understand the advanced features of PySpark2 and SparkSQL
Optimize your code
Program SparkSQL with Python
Use Spark Streaming and Spark MLlib with Python
Perform graph analysis with GraphFrames

Who This Book Is For

Data analysts, Python programmers, big data enthusiasts

Cuprins

Chapter 1: The Era of Big Data, Hadoop, and Other Big Data Processing Frameworks.- Chapter 2: Installation.- Chapter 3: Introduction to Python and NumPy.- Chapter 4: Spark Architecture and Resilient Distributed Dataset.- Chapter 5: The Power of Pairs: Paired RDD.- Chapter 6: IO in PySpark.- Chapter 7: Optimizing PySpark and PySpark Streaming.- Chapter 8: PySparkSQL.- Chapter 9: PySpark MLlib and Linear Regression.

Notă biografică

Raju Mishra has strong interests in data science and systems that have the capability of handling large amounts of data and operating complex mathematical models through computational programming. He was inspired to pursue an M. Tech in computational sciences from Indian Institute of Science in Bangalore, India. Raju primarily works in the areas of data science and its different applications. Working as a corporate trainer he has developed unique insights that help him in teaching and explaining complex ideas with ease. Raju is also a data science consultant solving complex industrial problems. He works on programming tools such as R, Python, scikit-learn, Statsmodels, Hadoop, Hive, Pig, Spark, and many others.

PySpark Recipes: A Problem-Solution Approach with PySpark2

Preț: 390^.12 lei

Carte tipărită la comandă

Specificații

De ce să citești această carte

Despre autor

Descriere scurtă

Cuprins

Notă biografică

Caracteristici

Ficțiune

Business

Medicină

Lifestyle

Copii și adolescenți

Biografii

Artă, arhitectură şi design

Calculatoare și IT

Științe

Tehnologie și inginerie

Papetărie, jocuri, reviste

PySpark Recipes: A Problem-Solution Approach with PySpark2

Preț: 390.12 lei

Specificații

V-ar putea interesa

De ce să citești această carte

Despre autor

Descriere scurtă

Cuprins

Notă biografică

Caracteristici

Papetărie, jocuri, reviste

Preț: 390^.12 lei