Incorporating Knowledge Sources into Statistical Speech Recognition de Sakriani Sakti

Incorporating Knowledge Sources into Statistical Speech Recognition: Lecture Notes in Electrical Engineering, cartea 42

Autor Sakriani Sakti, Konstantin Markov, Satoshi Nakamura, Wolfgang Minker

en Limba Engleză Paperback – 5 noi 2010

Destinată cercetătorilor și inginerilor specializați în procesarea limbajului natural, Incorporating Knowledge Sources Into Statistical Speech Recognition abordează o provocare fundamentală în dezvoltarea sistemelor de recunoaștere automată a vorbirii (ASR): optimizarea performanței prin integrarea unor surse diverse de date, fără a sacrifica eficiența computațională. Remarcăm efortul autorilor de a echilibra complexitatea modelelor de variabilitate a vorbirii cu necesitatea unui proces de antrenare sustenabil, o problemă critică în sistemele ASR moderne.

Ca și Chin-Hui Lee în Automatic Speech and Speaker Recognition, autorii acestui volum distilează experiența reală în principii acționabile, însă se concentrează specific pe un cadru general de lucru ce poate fi aplicat flexibil diverselor funcții de probabilitate bazate pe modele existente. Structura lucrării urmează o progresie tehnică riguroasă: pornește de la fundamentele recunoașterii vocale statistice, introduce cadrul grafic inovator pentru încorporarea surselor de cunoștințe și culminează cu aplicații practice ale sistemului GFIKS (Graphical Framework to Incorporate Knowledge Sources).

Reținem că această ediție publicată de Springer Us nu se limitează la teorie pură, ci oferă instrumentele necesare pentru a îmbunătăți funcțiile de verosimilitate în sistemele de stat-of-the-art. Abordarea este una sistemică, tratând atât aspectele spectrale, cât și pe cele temporale, oferind o perspectivă tehnică asupra modului în care cunoștințele lingvistice și fonetice pot fi mapate pe structuri statistice complexe.

Citește tot Restrânge

Din seria Lecture Notes in Electrical Engineering

Preț: 900^.13 lei

Preț vechi: 1097^.72 lei
-18%

Puncte Express: 1350

Paperback 900^.13 lei

Hardback 912^.64 lei

Carte tipărită la comandă

Livrare economică 26 mai-09 iunie

Adaugă în coș

Wish list
Gift list
Am citit!

Adaugă în listă

Specificații

ISBN-13: 9781441946768
ISBN-10: 1441946764
Pagini: 220
Ilustrații: XXIV, 196 p. 100 illus.
Dimensiuni: 155 x 235 x 13 mm
Greutate: 0.34 kg
Ediția:Softcover reprint of hardcover 1st ed. 2009
Editura: Springer
Colecția Lecture Notes in Electrical Engineering
Seria Lecture Notes in Electrical Engineering

Locul publicării:New York, NY, United States

Public țintă

Research

De ce să citești această carte

Recomandăm această lucrare cercetătorilor care doresc să depășească limitările modelelor statistice convenționale. Cititorul câștigă acces la metodologia GFIKS, un instrument robust pentru integrarea informațiilor externe în sistemele ASR. Este o resursă esențială pentru cei care urmăresc creșterea preciziei recunoașterii vocale în medii complexe, oferind o alternativă structurată la metodele empirice de ajustare a parametrilor.

Despre autor

Lucrarea este rezultatul colaborării dintre Sakriani Sakti, Konstantin Markov, Satoshi Nakamura și Wolfgang Minker, experți recunoscuți în domeniul tehnologiei vorbirii și comunicațiilor. Autorii fac parte din comunitatea academică internațională de elită, contribuind constant la dezvoltarea algoritmilor de procesare a semnalului și a arhitecturilor de recunoaștere vocală. Expertiza lor combinată acoperă atât modelarea probabilistică, cât și implementarea sistemelor dialogate, experiență ce se reflectă în rigoarea tehnică a cadrului GFIKS prezentat în acest volum publicat de Springer Us.

Descriere scurtă

Incorporating Knowledge Sources into Statistical Speech Recognition addresses the problem of developing efficient automatic speech recognition (ASR) systems, which maintain a balance between utilizing a wide knowledge of speech variability, while keeping the training / recognition effort feasible and improving speech recognition performance. The book provides an efficient general framework to incorporate additional knowledge sources into state-of-the-art statistical ASR systems. It can be applied to many existing ASR problems with their respective model-based likelihood functions in flexible ways.

Cuprins

and Book Overview.- Statistical Speech Recognition.- Graphical Framework to Incorporate Knowledge Sources.- Speech Recognition Using GFIKS.- Conclusions and Future Directions.

Textul de pe ultima copertă

Incorporating Knowledge Sources into Statistical Speech Recognition offers solutions for enhancing the robustness of a statistical automatic speech recognition (ASR) system by incorporating various additional knowledge sources while keeping the training and recognition effort feasible.
The authors provide an efficient general framework for incorporating knowledge sources into state-of-the-art statistical ASR systems. This framework, which is called GFIKS (graphical framework to incorporate additional knowledge sources), was designed by utilizing the concept of the Bayesian network (BN) framework. This framework allows probabilistic relationships among different information sources to be learned, various kinds of knowledge sources to be incorporated, and a probabilistic function of the model to be formulated.
Incorporating Knowledge Sources into Statistical Speech Recognition demonstrates how the statistical speech recognition system may incorporate additional information sources by utilizing GFIKS at different levels of ASR. The incorporation of various knowledge sources, including background noises, accent, gender and wide phonetic knowledge information, in modeling is discussed theoretically and analyzed experimentally.