Algorithms and Data Structures for Massive Datasets
Autor Dzejla Medjedovic, Emin Tahirovic Ilustrat de Ines Dedovicen Limba Engleză Paperback – 5 iul 2022
Ecosistemul analizei de date la scară largă necesită o schimbare de paradigmă față de algoritmii tradiționali, iar Algorithms and Data Structures for Massive Datasets oferă exact acest instrumentar tehnic. Notăm cu interes modul în care autorii, Dzejla Medjedovic și Emin Tahirovic, abordează limitările hardware atunci când seturile de date depășesc capacitatea RAM, concentrându-se pe structuri de date probabilistice și tehnici de „sketching”. Credem că structura progresivă a volumului facilitează înțelegerea unor concepte matematice complexe prin aplicabilitate practică. Prima parte explorează tehnici bazate pe hashing, precum Bloom Filters și HyperLogLog, esențiale pentru estimarea rapidă a apartenenței sau cardinalității. A doua parte se mută în zona fluxurilor de date (streaming), discutând eșantionarea și quantile-urile aproximative, în timp ce secțiunea finală este dedicată algoritmilor de memorie externă și structurilor de indexare precum LSM-Trees, fundamentale în bazele de date moderne de tip NoSQL. Cititorul care a aplicat ideile din Mining of Massive Datasets va găsi aici o completare tehnică riguroasă, axată mai puțin pe procesarea paralelă (MapReduce) și mai mult pe eficiența algoritmilor la nivel de structură de date individuală. De asemenea, spre deosebire de Small Summaries for Big Data, care oferă o introducere teoretică în sumarizarea datelor, volumul de față publicat de Manning Publications pune accent pe implementarea în sisteme reale, utilizând ilustrații și exemple din mediul de afaceri pentru a maximiza rata de transfer (throughput) a procesării.
Preț: 313.86 lei
Preț vechi: 392.33 lei
-20%
Carte disponibilă
Livrare economică 23 mai-06 iunie
Specificații
ISBN-10: 1617298034
Pagini: 304
Dimensiuni: 191 x 237 x 20 mm
Greutate: 0.48 kg
Editura: Manning Publications
De ce să citești această carte
Recomandăm această carte inginerilor de date și dezvoltatorilor software care se confruntă cu limitări de memorie în procesarea volumelor mari de informații. Veți câștiga o înțelegere profundă a structurilor probabilistice care stau la baza sistemelor moderne de analiză, învățând cum să optimizați precizia în schimbul vitezei și al consumului redus de resurse. Este un ghid practic pentru construirea unor sisteme de date scalabile și eficiente.
Despre autor
Dzejla Medjedovic este profesor asociat, deținând un doctorat în informatică de la Universitatea Stony Brook, unde s-a specializat în algoritmi de memorie externă. Emin Tahirovic este, de asemenea, profesor și cercetător cu experiență în analiza datelor și bioinformatică, având un doctorat de la Universitatea din Pennsylvania. Expertiza lor combinată în algoritmi teoretici și aplicații practice se reflectă în claritatea cu care sunt explicate structurile de date complexe în acest volum, oferind cititorului o perspectivă academică ancorată în nevoile industriei software actuale.
Notă biografică
Emin Tahirovic earned his doctorate in biostatistics from UPenn in 2016, and his master's degree in theoretical computer science from Goethe University in Frankfurt in 2008. He has worked for DBahn AG as an IT consultant and he regularly consults on projects for pharma and tech companies.
Ines Dedovic earned her PhD at the Institute for Imaging and Computer Vision of the Department of Electrical Engineering at RWTH Aachen University, Germany. She has worked as a researcher at the Research Center Jülich and is currently employed as a software developer for camera systems at Jonas & Redmann, an automation company.