Emulating Human Speech Recognition: A Scene Analysis Approach to Improving Robustness in Automatic Speech Recognition
Autor Andre Coyen Limba Engleză Paperback – 14 aug 2012
Ne adresăm cercetătorilor și inginerilor avansați în prelucrarea semnalului, interesați de depășirea limitărilor actuale ale sistemelor de recunoaștere automată a vorbirii (ASR). Emulating Human Speech Recognition investighează modul în care mașinile pot replica abilitatea umană de a izola surse sonore distincte dintr-un amestec complex, o provocare cunoscută în domeniu sub numele de „efectul cocktail party”. Apreciem rigoarea cu care Andre Coy propune o abordare sistematică prin analiza scenelor auditive computaționale, integrând un decodor de fragmente spectro-temporale într-un proces de căutare statistică.
Pe linia practică a lucrării Speech Separation by Humans and Machines de Pierre Divenyi, acest volum se concentrează pe mecanismele de robustețe necesare pentru ca performanța mașinii să se apropie de cea umană, însă plasează un accent mai mare pe implementarea algoritmilor de descompunere a semnalelor simultane. Structura cărții reflectă o progresie logică, de la bazele teoretice ale analizei scenelor auditive, la aspecte tehnice critice precum determinarea și urmărirea pitch-ului multiplu, culminând cu segmentarea vorbirii sonore (voiced) și nesonore (unvoiced).
Această lucrare continuă direcția explorată de autor în Like Humans Do, rafinând tehnicile de modelare a percepției auditive. Spre deosebire de Modelling Auditory Processing and Organisation de Martin Cooke, care oferă o perspectivă fundamentală asupra separării surselor, volumul de față este orientat spre evaluarea unui sistem complet, oferind indicatori clari de performanță în medii acustice ostile. Suntem de părere că rigoarea matematică a algoritmilor prezentați face din acest titlu o resursă tehnică indispensabilă pentru optimizarea decodoarelor moderne de vorbire.
Preț: 482.93 lei
Preț vechi: 818.05 lei
-41%
Carte disponibilă
Livrare economică 04-18 mai
Specificații
ISBN-10: 1619429144
Pagini: 195
Ilustrații: illustrations
Dimensiuni: 260 x 180 x 13 mm
Greutate: 0.45 kg
Editura: Nova Science Publishers Inc
Colecția Nova Science Publishers, Inc (US)
Locul publicării:United States
De ce să citești această carte
Pentru specialiștii în inteligență artificială și procesarea limbajului natural, această carte oferă soluții concrete pentru problema separării surselor sonore. Cititorul câștigă acces la o metodologie validată de integrare a analizei scenelor auditive în sistemele ASR, esențială pentru dezvoltarea de tehnologii asistive sau sisteme de control vocal capabile să funcționeze în condiții reale de zgomot ambiental.