Advances in Multimodal Information Retrieval and Generation: Synthesis Lectures on Computer Vision
Autor Man Luo, Tejas Gokhale, Neeraj Varshney, Yezhou Yang, Chitta Baralen Limba Engleză Hardback – 26 iun 2024
Ne-a atras atenția Advances in Multimodal Information Retrieval and Generation prin modul riguros în care abordează problema tehnică a fuziunii datelor eterogene. Provocarea principală pe care acest volum o rezolvă este optimizarea sistemelor de inteligență artificială care trebuie să „înțeleagă” și să genereze conținut pornind de la surse multiple, precum textul și imaginea, depășind limitările modelelor unimodale clasice. Putem afirma că lucrarea reprezintă un punct de referință pentru implementarea tehnologiilor de tip Retrieval-Augmented Generation (RAG), oferind un cadru teoretic solid pentru utilizarea arhitecturilor Transformer în procesarea multimodală.
Notăm cu interes structura progresivă a volumului, care facilitează o înțelegere aprofundată a domeniului. Autorii încep prin a revizui metodele de recuperare a informației (IR) pentru text, imagine și audio în mod individual, stabilind astfel o bază comparativă necesară. Ulterior, progresia narativă se mută către învățarea reprezentărilor multimodale și, esențial pentru practicieni, către metodele de evaluare a performanței acestor sisteme complexe. Cititorul care a aplicat deja conceptele fundamentale din Multimodal Learning Using Heterogeneous Data va găsi aici o continuare firească, centrată pe cele mai noi metodologii de generare și pe modul în care interacțiunile dintre modalități pot fi modelate matematic și computațional.
Spre deosebire de lucrări care tratează multimedia la modul general, acest titlu publicat de Springer în seria Synthesis Lectures on Computer Vision se concentrează pe mecanismele interne de aliniere a spațiilor de reprezentare. Este un instrument de lucru esențial pentru cei care doresc să treacă de la simpla clasificare la sisteme generative capabile să recupereze informații relevante din seturi de date masive și diverse.
Din seria Synthesis Lectures on Computer Vision
- 20%
Preț: 270.83 lei - 20%
Preț: 265.16 lei - 20%
Preț: 265.85 lei - 20%
Preț: 269.47 lei -
Preț: 318.10 lei - 20%
Preț: 352.84 lei - 20%
Preț: 155.72 lei - 20%
Preț: 217.27 lei - 20%
Preț: 250.18 lei - 20%
Preț: 196.77 lei - 20%
Preț: 321.60 lei - 20%
Preț: 197.35 lei - 20%
Preț: 197.18 lei - 20%
Preț: 341.24 lei - 20%
Preț: 343.50 lei - 20%
Preț: 288.09 lei - 20%
Preț: 171.84 lei - 20%
Preț: 345.52 lei - 20%
Preț: 285.06 lei - 20%
Preț: 400.03 lei - 20%
Preț: 341.98 lei - 20%
Preț: 319.31 lei - 20%
Preț: 371.21 lei - 20%
Preț: 319.08 lei - 20%
Preț: 215.23 lei - 20%
Preț: 313.74 lei - 20%
Preț: 265.06 lei
Preț: 365.39 lei
Preț vechi: 456.74 lei
-20%
Carte tipărită la comandă
Livrare economică 03-09 iunie
Specificații
ISBN-10: 3031578155
Pagini: 172
Ilustrații: VIII, 164 p. 47 illus., 45 illus. in color.
Dimensiuni: 173 x 246 x 16 mm
Greutate: 0.48 kg
Ediția:2025
Editura: Springer
Colecția Synthesis Lectures on Computer Vision
Seria Synthesis Lectures on Computer Vision
Locul publicării:Cham, Switzerland
De ce să citești această carte
Această carte este recomandată cercetătorilor și inginerilor AI care doresc să stăpânească arhitecturile Transformer aplicate pe date mixte. Cititorul câștigă o perspectivă clară asupra sistemelor RAG multimodale, învățând cum să integreze eficient fluxurile de text și imagine. Este un ghid tehnic concis care elimină ambiguitatea din procesul de aliniere a datelor, oferind soluții concrete pentru evaluarea modelelor generative de ultimă generație.
Despre autor
Echipa de autori, formată din cercetători precum Man Luo, Tejas Gokhale, Neeraj Varshney, Yezhou Yang și Chitta Baral, reunește expertiză de vârf în domeniul viziunii computerizate și al procesării limbajului natural. Chitta Baral, profesor la Arizona State University, este recunoscut pentru contribuțiile sale majore în reprezentarea cunoștințelor și raționament logic. Împreună, autorii combină rigoarea academică cu viziunea practică necesară dezvoltării noilor frontiere în inteligența artificială multimodală, fiind implicați în proiecte de cercetare care definesc standardele actuale în învățarea automată.
Descriere scurtă
Cuprins
Notă biografică
Tejas Gokhale, Ph.D., is an Assistant Professor at the University of Maryland, Baltimore County. He received his Ph.D. from Arizona State University in 2023, M.S. from Carnegie Mellon University in 2017, and B.E.(Honours) from Birla Institute of Technology and Science, Pilani in 2015. Dr. Gokhale is a computer vision researcher working on robust visual understanding with a focus on connection between vision and language, semantic data engineering, and active inference. His research draws inspiration from the principles of perception, communication, learning, and reasoning. He is an organizer of the ODRUM workshops at CVPR 2022 and CVPR 2023, SERUM tutorial at WACV 2023, and RGMV tutorial at WACV 2024.
Neeraj Varshney is a Ph.D. candidate at ASU and works in natural language processing, primarily focusing on improving the efficiency and reliability of NLP models. He has published multiple papers in top-tier NLP and AI conferences including ACL, EMNLP, EACL, NAACL, and AAAI and is a recipient of the SCAI Doctoral Fellowship, GPSA Outstanding Research Award, and Jumpstart Research Grant. He has served as a reviewer for several conferences including ACL, EMNLP, EACL, and IJCAI and has also been selected as an outstanding reviewer by EACL'23 conference.
Yezhou Yang, Ph.D., is an Associate Professor with the School of Computing and Augmented Intelligence (SCAI), Arizona State University. He received his Ph.D. from University of Maryland. His primary interests lie in Cognitive Robotics, Computer Vision, and Robot Vision, especially exploring visual primitives in human action understanding from visual input, grounding them by natural language as well as high-level reasoning over the primitives for intelligent robots.
Chitta Baral, Ph.D., is a Professor with the School of Computing and Augmented Intelligence (SCAI), Arizona State University and received his Ph.D. from University of Maryland. His primary interests lie in Natural Language Processing (NLP), Computer Vision (CV), the intersection of NLP and CV, and Knowledge Representation and Reasoning.Chitta Baral is a Professor with the School of Computing and Augmented Intelligence (SCAI), Arizona State University, and received his PhD from University of Maryland. His primary interests lie in Natural Language Processing (NLP), Computer Vision (CV), the intersection of NLP and CV, and Knowledge Representation and Reasoning.