Cantitate/Preț
Produs

Algorithms and Data Structures for Massive Datasets

Autor Dzejla Medjedovic, Emin Tahirovic Ilustrat de Ines Dedovic
en Limba Engleză Paperback – 5 iul 2022

Ecosistemul analizei de date la scară largă necesită o schimbare de paradigmă față de algoritmii tradiționali, iar Algorithms and Data Structures for Massive Datasets oferă exact acest instrumentar tehnic. Notăm cu interes modul în care autorii, Dzejla Medjedovic și Emin Tahirovic, abordează limitările hardware atunci când seturile de date depășesc capacitatea RAM, concentrându-se pe structuri de date probabilistice și tehnici de „sketching”. Credem că structura progresivă a volumului facilitează înțelegerea unor concepte matematice complexe prin aplicabilitate practică. Prima parte explorează tehnici bazate pe hashing, precum Bloom Filters și HyperLogLog, esențiale pentru estimarea rapidă a apartenenței sau cardinalității. A doua parte se mută în zona fluxurilor de date (streaming), discutând eșantionarea și quantile-urile aproximative, în timp ce secțiunea finală este dedicată algoritmilor de memorie externă și structurilor de indexare precum LSM-Trees, fundamentale în bazele de date moderne de tip NoSQL. Cititorul care a aplicat ideile din Mining of Massive Datasets va găsi aici o completare tehnică riguroasă, axată mai puțin pe procesarea paralelă (MapReduce) și mai mult pe eficiența algoritmilor la nivel de structură de date individuală. De asemenea, spre deosebire de Small Summaries for Big Data, care oferă o introducere teoretică în sumarizarea datelor, volumul de față publicat de Manning Publications pune accent pe implementarea în sisteme reale, utilizând ilustrații și exemple din mediul de afaceri pentru a maximiza rata de transfer (throughput) a procesării.

Citește tot Restrânge

Preț: 31386 lei

Preț vechi: 39233 lei
-20%

Puncte Express: 471

Carte disponibilă

Livrare economică 23 mai-06 iunie


Specificații

ISBN-13: 9781617298035
ISBN-10: 1617298034
Pagini: 304
Dimensiuni: 191 x 237 x 20 mm
Greutate: 0.48 kg
Editura: Manning Publications

De ce să citești această carte

Recomandăm această carte inginerilor de date și dezvoltatorilor software care se confruntă cu limitări de memorie în procesarea volumelor mari de informații. Veți câștiga o înțelegere profundă a structurilor probabilistice care stau la baza sistemelor moderne de analiză, învățând cum să optimizați precizia în schimbul vitezei și al consumului redus de resurse. Este un ghid practic pentru construirea unor sisteme de date scalabile și eficiente.


Despre autor

Dzejla Medjedovic este profesor asociat, deținând un doctorat în informatică de la Universitatea Stony Brook, unde s-a specializat în algoritmi de memorie externă. Emin Tahirovic este, de asemenea, profesor și cercetător cu experiență în analiza datelor și bioinformatică, având un doctorat de la Universitatea din Pennsylvania. Expertiza lor combinată în algoritmi teoretici și aplicații practice se reflectă în claritatea cu care sunt explicate structurile de date complexe în acest volum, oferind cititorului o perspectivă academică ancorată în nevoile industriei software actuale.


Notă biografică

Dzejla Medjedovic earned her PhD in the Applied Algorithms Lab of the computer science department at Stony Brook University, NY in 2014. She has worked on a number of projects in algorithms for massive data, taught algorithms at various levels and also spent some time at Microsoft.

Emin Tahirovic earned his doctorate in biostatistics from UPenn in 2016, and his master's degree in theoretical computer science from Goethe University in Frankfurt in 2008. He has worked for DBahn AG as an IT consultant and he regularly consults on projects for pharma and tech companies.

Ines Dedovic earned her PhD at the Institute for Imaging and Computer Vision of the Department of Electrical Engineering at RWTH Aachen University, Germany. She has worked as a researcher at the Research Center Jülich and is currently employed as a software developer for camera systems at Jonas & Redmann, an automation company.

Cuprins

table of contents
READ IN LIVEBOOK1INTRODUCTION
PART 1: HASH-BASED SKETCHES
READ IN LIVEBOOK2REVIEW OF HASH HABLES AND MODERN HASHING
READ IN LIVEBOOK3APPROXIMATE MEMBERSHIP: BLOOM FILTER AND QUOTIENT FILTER
READ IN LIVEBOOK4FREQUENCY ESTIMATION AND COUNT-MIN SKETCH
READ IN LIVEBOOK5CARDINALITY ESTIMATION AND HYPERLOGLOG
PART 2: REAL-TIME ANALYTICS
READ IN LIVEBOOK6STREAMING DATA: BRINGING EVERYTHING TOGETHER
READ IN LIVEBOOK7SAMPLING FROM DATA STREAMS
READ IN LIVEBOOK8APPROXIMATE QUANTILES ON DATA STREAMS
PART 3: DATA STRUCTURES FOR DATABASES AND EXTERNAL-MEMORY ALGORITHMS
READ IN LIVEBOOK9INTRODUCING THE EXTERNAL-MEMORY MODEL
READ IN LIVEBOOK10DATA STRUCTURES FOR DATABASES: B-TREES, B-TREES, LSM-TREES
READ IN LIVEBOOK11EXTERNAL-MEMORY SORTING

Descriere scurtă

Data structures and algorithms that are great for traditional software may quickly slow or fail altogether when applied to huge datasets. Algorithmsand Data Structures for Massive Datasets introduces a toolbox of new techniques that are perfect for handling modern big data applications. You'll discover methods for reducing and sketching data so it fits in small memory without losing accuracy, and unlock the algorithms and data structures that form the backbone of a big data system. Filled with fun illustrations and examples from real-world businesses, you'll learn how each of these complex techniques can be practically applied to maximize the accuracy and through put of big data processing and analytics.