From Extractive to Abstractive Summarization: A Journey de Parth Mehta

From Extractive to Abstractive Summarization: A Journey

Parth Mehta

Prasenjit Majumder

en Limba Engleză Paperback – 30 aug 2020

În domeniul procesării limbajului natural (NLP), eficiența algoritmilor de sumarizare a devenit critică pentru gestionarea volumelor masive de date. From Extractive to Abstractive Summarization: A Journey propune o abordare tehnică riguroasă a acestui proces, marcând evoluția de la metodele extractive tradiționale către modelele generative complexe. Considerăm că valoarea principală a lucrării rezidă în prezentarea a două seturi de date de mari dimensiuni — cuprinzând peste 100.000 de decizii juridice și 20.000 de texte științifice — care permit antrenarea modelelor de deep learning pe domenii specializate. Dacă Computational Techniques for Text Summarization based on Cognitive Intelligence v-a oferit cadrul teoretic al inteligenței cognitive, această carte oferă instrumentele practice necesare pentru implementarea unor soluții de producție. Structura cărții urmărește o progresie logică: începe cu analiza stadiului actual al extracției de propoziții, introduce metodologii de îmbunătățire prin agregarea rangurilor și culminează cu un model bazat pe rețele neuronale pentru compresia frazelor. Autorii, Parth Mehta și Prasenjit Majumder, extind aici temele de cercetare explorate anterior în Text Processing, mutând focusul de la procesarea generală la mecanisme avansate de abstractizare. Recomandăm acest titlu pentru modul în care demonstrează că abordările neurale pot egala sistemele bazate pe reguli, eliminând în același timp efortul de adnotare manuală, aspect esențial în scalarea proiectelor de AI.

Citește tot Restrânge

De ce să citești această carte

Recomandăm această carte cercetătorilor și inginerilor NLP care doresc să treacă de la simplele extrageri de text la sumarizarea abstractivă avansată. Cititorul câștigă acces la metodologii de lucru cu corpusuri masive din domeniul legal și științific, învățând cum să utilizeze rețelele neuronale pentru a genera rezumate coerente și robuste, fără a depinde de seturi de date adnotate manual.

Despre autor

Parth Mehta și Prasenjit Majumder sunt experți recunoscuți în domeniul regăsirii informațiilor și procesării limbajului natural. Prasenjit Majumder a fost implicat activ în organizarea Forumului pentru Evaluarea Regăsirii Informațiilor (FIRE), un punct de referință pentru cercetarea computațională în Asia. Expertiza lor combinată se reflectă în abordarea aplicată a cărții, aceștia fiind cunoscuți pentru contribuțiile lor la dezvoltarea de resurse lingvistice și instrumente de procesare a textului, precum lucrarea lor anterioară, Text Processing, publicată în contextul conferințelor FIRE.

Descriere scurtă

This book describes recent advances in text summarization, identifies remaining gaps and challenges, and proposes ways to overcome them. It begins with one of the most frequently discussed topics in text summarization – ‘sentence extraction’ –, examines the effectiveness of current techniques in domain-specific text summarization, and proposes several improvements.

In turn, the book describes the application of summarization in the legal and scientific domains, describing two new corpora that consist of more than 100 thousand court judgments and more than 20 thousand scientific articles, with the corresponding manually written summaries. The availability of these large-scale corpora opens up the possibility of using the now popular data-driven approaches based on deep learning. The book then highlights the effectiveness of neural sentence extraction approaches, which perform just as well as rule-based approaches, but without the need for any manual annotation. As a next step, multiple techniques for creating ensembles of sentence extractors – which deliver better and more robust summaries – are proposed. In closing, the book presents a neural network-based model for sentence compression. Overall the book takes readers on a journey that begins with simple sentence extraction and ends in abstractive summarization, while also covering key topics like ensemble techniques and domain-specific summarization, which have not been explored in detail prior to this.

Cuprins

Introduction.-Related Work.- Corpora and Evaluation for Text Summarization.- Domain Speciﬁc Summarization.- Improving sentence extraction through rank aggregation.- Leveraging content similarity in summaries for generating better ensembles.-Neural model for sentence compression.- Conclusion.

Notă biografică

Dr. Parth Mehta completed his M.Tech. in Machine Intelligence and his Ph.D. in Text Summarization at Dhirubhai Ambani Institute of ICT (DA-IICT), Gandhinagar, India. At the DA-IICT he was part of the Information Retrieval and Natural Language Processing Lab. He was also involved in the national project “Cross Lingual Information Access”, funded by the Govt. of India, which focused on building a cross-lingual search engine for nine Indian languages.

Dr. Mehta has served as reviewer for the journals Information Processing and Management and Forum for Information Retrieval Evaluation. Apart from several journal and conference papers, he has also co-edited a book on text processing published by Springer.

Prof. Prasenjit Majumder is an Associate Professor at Dhirubhai Ambani Institute of ICT (DA-IICT), Gandhinagar and a Visiting Professor at the Indian Institute of Information Technology, Vadodara (IIIT-V). Prof. Majumder completed his Ph.D. at JadavpurUniversity in 2008 and worked as a postdoctoral fellow at the University College Dublin, prior to joining the DA-IICT, where he currently heads the Information Retrieval and Language Processing Lab. His research interests lie at the intersection of Information Retrieval, Cognitive Science and Human Computing Interaction. He has headed several projects sponsored by the Govt. of India.

He is one of the pioneers of the Forum for Information Retrieval Evaluation (FIRE), which assesses research on Information Retrieval and related areas for South Asian languages. Since being founded in 2008, FIRE has grown to become a respected conference, drawing participants from across the globe. Prof. Majumder has authored several journal and conference papers, and co-edited two special issues of Transactions in Information Systems (ACM). He has co-edited two books: ‘Multi Lingual Information Access in South Asian Languages’ and ‘Text Processing,’ both published by Springer.

Caracteristici

Provides an overview of the transition from extractive to abstractive summarization and how they can be combined to create a practical summarization system Covers in detail ways to build ensembles from several existing techniques Places special emphasis on domain-specific applications that are practically useful Is accompanied by source codes and corpora, so that readers can use the book as a springboard for future experiments

From Extractive to Abstractive Summarization: A Journey

Preț: 616^.51 lei

Carte disponibilă

Specificații

De ce să citești această carte

Despre autor

Descriere scurtă

Cuprins

Notă biografică

Caracteristici

Ficțiune

Business

Medicină

Lifestyle

Copii și adolescenți

Biografii

Artă, arhitectură şi design

Calculatoare și IT

Științe

Tehnologie și inginerie

Papetărie, jocuri, reviste

From Extractive to Abstractive Summarization: A Journey

Preț: 616.51 lei

Specificații

V-ar putea interesa

De ce să citești această carte

Despre autor

Descriere scurtă

Cuprins

Notă biografică

Caracteristici

Papetărie, jocuri, reviste

Preț: 616^.51 lei