Data Science at Scale with Python and Dask
Autor Jesse Danielen Limba Engleză Paperback – 11 oct 2019
Ecosistemul abordat în Data Science at Scale with Python and Dask este construit în jurul integrării native a bibliotecii Dask cu pilonii analizei de date în Python: Pandas, NumPy și Scikit-learn. Ne-a atras atenția abordarea pragmatică a autorului Jesse Daniel, care nu solicită cititorului să își schimbe radical fluxul de lucru, ci propune extinderea acestuia prin calcul paralel și distribuit. Subliniem faptul că volumul trece rapid de la teorie la execuție, folosind containere Docker și infrastructură AWS pentru a demonstra cum un algoritm poate scala de pe un simplu laptop pe un cluster cu sute de noduri.
Structura narativă a cărții este tehnică și progresivă. În prima parte, explorăm blocurile fundamentale ale calculului scalabil, pentru ca ulterior să aplicăm aceste concepte pe seturi de date masive, precum arhiva amenzilor de parcare din New York. Un element distinctiv este focusul pe vizualizarea datelor de mari dimensiuni; prin utilizarea Seaborn și Datashader, autorul rezolvă problema reprezentării grafice a milioane de puncte de date fără a sacrifica performanța.
Dacă Scaling Python with Dask v-a oferit cadrul teoretic și o introducere rapidă în API-urile bibliotecii, lucrarea de față oferă instrumentele practice și contextul complet de inginerie a datelor. Spre deosebire de abordările axate pe Spark, prezente în Data Analysis with Python and Pyspark, acest volum rămâne ancorat în universul nativ Python, fiind ideal pentru cei care doresc performanță ridicată fără a părăsi ecosistemul PyData. Este un ghid de implementare care acoperă inclusiv zona de Dask-ML și gestionarea datelor nestructurate prin Bags și Arrays.
Preț: 363.55 lei
Preț vechi: 454.43 lei
-20%
Carte disponibilă
Livrare economică 20 iulie-03 august
Livrare express 04-10 iulie pentru 35.82 lei
Specificații
ISBN-10: 1617295604
Pagini: 296
Dimensiuni: 189 x 237 x 18 mm
Greutate: 0.51 kg
Editura: Manning Publications
De ce să citești această carte
Recomandăm această carte cercetătorilor de date care s-au lovit de limitările de memorie ale bibliotecii Pandas. Veți câștiga competențe concrete în gestionarea seturilor de date de ordinul terabytes-ilor și în automatizarea fluxurilor de lucru prin Dask Distributed. Este un manual esențial pentru a face tranziția de la prototipuri locale la aplicații de producție scalabile în cloud.