Mastering Large Datasets with Python
Autor John T Wolohanen Limba Engleză Paperback – 21 ian 2020
În domeniul data science, tranziția de la prototipuri rulate pe un laptop la soluții industriale capabile să proceseze terabytes de informații reprezintă pragul critic de scalabilitate. Mastering Large Datasets with Python de John T Wolohan se concentrează pe această evoluție tehnică, oferind o metodologie bazată pe paradigma map and reduce, esențială pentru scrierea unui cod curat și eficient. Remarcăm structura progresivă a volumului: prima parte stabilizează conceptele de procesare paralelă folosind resursele locale ale procesorului, în timp ce secțiunile următoare extind aceste principii către medii distribuite. Observăm un accent deosebit pus pe utilizarea modulelor `multiprocessing` și a framework-ului `pathos`, care permit divizarea sarcinilor complexe în unități de lucru simultane. Cititorul care a aplicat ideile din Large Scale Machine Learning with Python va găsi aici elementele care completează arhitectura sistemului, trecând de la construcția modelelor la optimizarea fluxurilor de date prin `PySpark` și `Hadoop`. Diferența majoră față de alte titluri similare constă în ancorarea practică în ecosistemul Amazon Web Services, unde autorul demonstrează cum pot fi rulate joburi MapReduce direct în cloud folosind AWS S3. Stilul este unul tehnic și aplicat, evitând abstractizările inutile în favoarea unor exerciții practice menite să consolideze abilitățile de programare funcțională. Utilizarea fluxurilor de tip „lazy” și a conductelor de funcții (pipelines) asigură că aplicațiile rezultate nu necesită rescrieri totale pe măsură ce volumul datelor crește, transformând Mastering Large Datasets with Python într-un ghid de bune practici pentru inginerii de date și programatorii Python care vizează performanța la nivel enterprise.
Preț: 266.81 lei
Preț vechi: 333.51 lei
-20%
Carte disponibilă
Livrare economică 20 mai-03 iunie
Specificații
ISBN-10: 1617296236
Pagini: 312
Dimensiuni: 190 x 233 x 20 mm
Greutate: 0.53 kg
Editura: Manning Publications
De ce să citești această carte
Recomandăm această carte programatorilor Python care s-au lovit de limitările hardware în procesarea seturilor mari de date. Cititorul câștigă expertiză în tehnologii de calcul distribuit precum Spark și Hadoop, învățând să scaleze aplicații de la nivel local la infrastructuri cloud complexe. Este un ghid esențial pentru a stăpâni paralelizarea și optimizarea fluxurilor de lucru în proiecte moderne de inteligență artificială și analiză de date.