Cantitate/Preț
Produs

Data Science at the Command Line

Autor Jeroen Janssens
en Limba Engleză Paperback – 21 sep 2021

Abordarea metodologică propusă în Data Science at the Command Line se bazează pe un principiu fundamental al ingineriei software: utilizarea unor instrumente mici, specializate, care pot fi concatenate pentru a rezolva probleme complexe de date. Suntem de părere că această a doua ediție, publicată de O'Reilly, transformă linia de comandă dintr-un simplu utilitar de sistem într-un mediu de dezvoltare robust pentru data science. Autorul pune accent pe arhitectura fluxurilor de lucru, oferind o imagine Docker preconfigurată cu peste 100 de utilitare Unix, asigurând astfel reproductibilitatea experimentelor indiferent de sistemul de operare utilizat. Remarcăm faptul că Jeroen Janssens nu propune înlocuirea limbajelor consacrate, ci optimizarea lor. Ca și Tirthajyoti Sarkar în Productive and Efficient Data Science with Python, autorul distilează experiență reală în principii acționabile, arătând cum procesele repetitive de curățare și explorare a datelor pot fi automatizate mult mai rapid în terminal decât în medii IDE tradiționale. În contextul operei sale, această lucrare completează expertiza tehnică regăsită și în Python Polars: The Definitive Guide, păstrând aceeași rigoare față de performanță și procesarea eficientă a datelor voluminoase. Structura narativă a cărții urmează etapele critice ale unui proiect: achiziția, prelucrarea, explorarea și modelarea. Tonul este tehnic și aplicat, evitând abstractizările inutile în favoarea unor exemple de cod care pot fi testate imediat. Prin utilizarea liniei de comandă, cititorul dobândește o agilitate sporită în faza de prototipare, beneficiind de un ecosistem care este, prin definiție, scalabil și extensibil.

Citește tot Restrânge

Preț: 29669 lei

Preț vechi: 37086 lei
-20%

Puncte Express: 445

Carte disponibilă

Livrare economică 05-19 mai
Livrare express 21-25 aprilie pentru 6394 lei


Specificații

ISBN-13: 9781492087915
ISBN-10: 1492087912
Pagini: 280
Dimensiuni: 174 x 233 x 17 mm
Greutate: 0.47 kg
Ediția:2nd edition
Editura: O'Reilly

De ce să citești această carte

Recomandăm această carte profesioniștilor care doresc să își eficientizeze fluxul de lucru prin automatizarea sarcinilor repetitive. Veți câștiga o metodologie clară de procesare a datelor folosind instrumente Unix, reducând dependența de scripturi complexe în Python sau R pentru sarcini triviale de curățare și transformare. Este o resursă esențială pentru inginerii de date și cercetătorii care apreciază viteza și flexibilitatea terminalului.


Despre autor

Jeroen Janssens este profesor asistent de data science la Universitatea Tilburg și consultant independent, specializat în ajutarea organizațiilor să extragă valoare din date. Cu un master în inteligență artificială de la Universitatea Maastricht și un doctorat în machine learning, Janssens îmbină rigoarea academică cu experiența practică dobândită ca data scientist la Elsevier și în diverse startup-uri din New York. Este un susținător activ al instrumentelor open source, pasiune care se reflectă în calitatea resurselor tehnice pe care le dezvoltă pentru comunitatea de data science.


Descriere scurtă

This thoroughly revised guide demonstrates how the flexibility of the command line can help you become a more efficient and productive data scientist. You'll learn how to combine small yet powerful command-line tools to quickly obtain, scrub, explore, and model your data. To get you started, author Jeroen Janssens provides a Docker image packed with over 100 Unix power tools--useful whether you work with Windows, macOS, or Linux.
You'll quickly discover why the command line is an agile, scalable, and extensible technology. Even if you're comfortable processing data with Python or R, you'll learn how to greatly improve your data science workflow by leveraging the command line's power. This book is ideal for data scientists, analysts, engineers, system administrators, and researchers.
  • Obtain data from websites, APIs, databases, and spreadsheets
  • Perform scrub operations on text, CSV, HTML, XML, and JSON files
  • Explore data, compute descriptive statistics, and create visualizations
  • Manage your data science workflow
  • Create your own tools from one-liners and existing Python or R code
  • Parallelize and distribute data-intensive pipelines
  • Model data with dimensionality reduction, regression, and classification algorithms
  • Leverage the command line from Python, Jupyter, R, RStudio, and Apache Spark

Notă biografică

Jeroen Janssens teaches data science; often through training and coaching, occasionally through speaking, and infrequently through writing. His interests include visualizing data, building machine learning models, and automating things using either Python, R, or Bash. He is the author of Data Science at the Command Line, published by O'Reilly Media. Jeroen holds a PhD in machine learning from Tilburg University and an MSc in artificial intelligence from Maastricht University. Previously, he was an assistant professor at Jheronimus Academy of Data Science and a data scientist at Elsevier in Amsterdam and various startups in New York City. Currently, Jeroen is the CEO of Data Science Workshops, which organises open enrollment workshops, in-company courses, inspiration sessions, hackathons, and meetups. All related to data science of course. He lives with his wife and two kids in Rotterdam, the Netherlands.