Data Analysis with Python and Pyspark
Autor Jonathan Riouxen Limba Engleză Paperback – 22 mar 2022
Complementar volumului Advanced Analytics with Pyspark de Akash Tandon, care pune accent pe metode statistice, lucrarea semnată de Jonathan Rioux se concentrează pe aspectele de inginerie și robustețe ale conductelor de date (data pipelines). Observăm o abordare extrem de aplicată, orientată către rezolvarea provocărilor cotidiene întâlnite de un specialist în date: gestionarea datelor „murdare”, citirea din surse eterogene și, esențial, tranziția de la procesarea locală la cea distribuită pe mai multe noduri. Considerăm că punctul forte al acestui volum este modul în care demistifică motorul Spark pentru utilizatorii de Python, oferind o punte solidă între ecosistemul familiar pandas și puterea de calcul brută a clusterelor Hadoop sau cloud. Descoperim aici o structură progresivă care nu necesită cunoștințe prealabile despre Spark. Prima parte ne ghidează prin instalare și primele programe, în timp ce a doua parte ridică ștacheta tehnică, explorând intersecția dintre SQL și Python prin RDD-uri și funcții definite de utilizator (UDFs). Un aspect distinctiv este capitolul dedicat optimizării: înțelegerea modului în care Spark planifică interogările este vitală pentru performanță, un detaliu adesea ignorat în manualele introductive. În final, integrarea fluxurilor de învățare automată prin ML Pipelines demonstrează cum PySpark poate susține proiecte complexe de la ingestie până la modelare predictivă. Tonul este pragmatic, bazat pe experiența autorului în producție, oferind soluții concrete pentru depanarea erorilor și crearea unor joburi cu rulare lungă și fiabilă.
Preț: 324.01 lei
Preț vechi: 405.01 lei
-20%
Carte disponibilă
Livrare economică 25 mai-08 iunie
Livrare express 08-14 mai pentru 90.39 lei
Specificații
ISBN-10: 1617297208
Pagini: 456
Dimensiuni: 186 x 233 x 24 mm
Greutate: 0.76 kg
Editura: Manning Publications
De ce să citești această carte
Recomandăm această carte cercetătorilor de date și inginerilor care stăpânesc deja Python, dar se lovesc de limitările de memorie ale bibliotecilor standard. Prin parcurgerea acestui ghid, cititorul câștigă abilitatea de a construi fluxuri de date scalabile și eficiente, învățând nu doar cum să scrie cod, ci și cum să optimizeze performanța procesării pe volume mari de date folosind PySpark.