Изкуственият интелект на Microsoft разпознава глас като човек
Това е постигнато чрез използването на Computational Network Toolkit

~ 1 мин.
Системите за превръщане на глас в текст са по принцип доста далеч от перфектността, но сега те са една стъпка по-близо до хората, след като Microsoft Artificial Intelligence и изследователският екип на компанията постигнаха голям напредък при превръщането на глас в текст. Системата е постигнала за пръв път историческо ниско ниво на грешка – 5,9%, което е равно на точността на професионален транскрибист, пише IDG. Софтуерът може да разпознава думи толкова точно, сякаш двама души си говорят в една стая и се разбират.
Това е постигнато чрез използването на Computational Network Toolkit – според блога на Microsoft, екипът е успял да постигне човешка точност само за няколко месеца, а не за години, каквата е била първоначалната цел. Това постижение не касае само учените и ентусиастите – много скоро всеки може да забележи разликата, когато подава гласови команди към различни интерфейси. „Гласовото разпознаване е ключово за успеха на всяка комуникация и потребителски интерфейс“, казва шефът на проекта Седонг Хуанг. Това е разликата между нервите, които ще изхабите, докато се опитвате да обясните на телефона си, че „крава“ не е „края“ три пъти поред и това да бъдете разбрани от пръв път.
Системата на Microsoft е доста точна, но все още е далеч от съвършенството, точно както човешките транскрибисти. Най-големият проблем остава фоновия шум и колебанията на говорещия.
Това е постигнато чрез използването на Computational Network Toolkit – според блога на Microsoft, екипът е успял да постигне човешка точност само за няколко месеца, а не за години, каквата е била първоначалната цел. Това постижение не касае само учените и ентусиастите – много скоро всеки може да забележи разликата, когато подава гласови команди към различни интерфейси. „Гласовото разпознаване е ключово за успеха на всяка комуникация и потребителски интерфейс“, казва шефът на проекта Седонг Хуанг. Това е разликата между нервите, които ще изхабите, докато се опитвате да обясните на телефона си, че „крава“ не е „края“ три пъти поред и това да бъдете разбрани от пръв път.
Системата на Microsoft е доста точна, но все още е далеч от съвършенството, точно както човешките транскрибисти. Най-големият проблем остава фоновия шум и колебанията на говорещия.