Содержание
-
Голосовой интерфейс
Ст. ИС-21 ИПСА Рябченко Алена Александровна
-
Интерфейс это…
В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом.
-
Одной из важнейших задач разработки современных технических систем является обеспечение наиболее интуитивного и естественного интерфейса с пользователем, то есть современные компьютерные приложения ориентированные на пользователя.
-
Типы интерфейсов
По наличию тех или иных средств ввода, интерфейсы разделяются на типы: голосовой, 2. жестовый , возможны смешанныеварианты.
-
Одной из естественных форм взаимодействия для человека является речь. Голосовой интерфейс может улучшить существующий пользовательский интерфейс - он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером.
-
Разработка голосового интерфейса является достаточно сложной и комплексной, и требует от разработчика знаний в различных предметных областях, таких как компьютерные науки, лингвистика и психология поведения человека.
-
Преимущества голосового интерфейса:
оперативность и естественность; минимумспециальнойподготовкипользователя; возможность управления объектом в темноте, за пределами его визуальной видимости (в частности, с использованием существующей телефонной сети); возможность использования одновременно ручного (с помощью клавиатуры) и голосового ввода информации; обеспечение мобильности оператора при управлении.
-
Распознавание речи
Распознавание речи - технология, позволяющая использовать естественный для человека речевой интерфейс для взаимодействия с электронной техникой. Сложность распознавание речи состоит в том, что совокупность таких характеристик голоса и речи как тембр, громкость, высота, темп, интонация, качество дикции делают речь каждого человека по-своему неповторимой и уникальной как отпечатки пальцев. или
-
Системы распознавания речи
Системы распознавания речи - это системы, анализирующие акустический сигнал алгоритмами, основанными на разнообразных теориях, предполагающих, какие характеристики речевого сигнала создают ощущения звуков данного языка, и математических методах, с той или иной точностью выделяющих значащие параметры акустического сигнала и преобразующие его в различной полноте в необходимую форму.
-
Рис.1 Классификация систем распознавания речи
-
Структура стандартной системы распознавания речи
-
Необработанная речь
Обычно, поток звуковых данных, записанный с высокой дискретизацией (20 КГц при записи с микрофона либо 8 КГц при записи с телефонной линии).
-
Анализ сигнала
Поступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей обработки. Есть различные методы для извлечения полезных параметров и сжатия исходных данных в десятки раз без потери полезной информации. Наиболее используемые методы: анализ Фурье; линейное предсказание речи; кепстральный анализ.
-
Речевые кадры
Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый речевой кадр – это результат анализа сигнала на небольшом отрезке времени (порядка 10 мс.), содержащий информацию об этом участке (порядка 20 коэффициентов).
-
Акустические модели
Для анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две наиболее распространенные из них. Шаблонная модель. В качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной единицы (слова, команды). Модель состояний. Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно услышать в данном участке слова, основываясь на вероятностных правилах.
-
Акустический анализ
Состоит в сопоставлении различных акустических моделей к каждому кадру речи и выдает матрицу сопоставления последовательности кадров и множества акустических моделей.
-
Корректировка времени
Используется для обработки временной вариативности, возникающей при произношении слов (например, “растягивание” или “съедание” звуков).
-
Последовательность слов
В результате работы, система распознавания речи выдает последовательность (или несколько возможных последовательностей) слов, которая, наиболее вероятно, соответствует входному потоку речи.
-
Программная реализация голосового интерфейса
Используем: 1 ) JDK 6 ( J2SE )2 ) Eclipse SDK 3 ) Sphinx 4.04 ) JSAPI ( Included in Sphinx 4.0 )
-
Sphinx-4
Sphinx-4 – самый известное и наиболее работоспособное из открытых программных продуктов для распознавания речи на сегодняшний день. Структура Sphinx-4 была разработана с высокой степенью гибкости и модульности. На рисунке показана общая архитектура системы. Каждый помеченный элемент на рисунке представляет собой модуль, который может быть легко заменен.
-
Структура Sphinx-4
Главными блоками являются: предварительный анализ, декодер, лингвистический модуль.
-
Все три составляющиеобезательные, новместоязыковоймоделивозможно просто описать порядок слов в jsgf словаре примерно так: camera.jsgf #JSGF V1.0; grammarcamera; public = ( | ); = ( включить | выключить | отключить ); = ( камеру | видео-камеру ); = [ номер ] = ( один | два | три | четыре | пять | шесть | семь | восемь | девять ); = ( первую | вторую | третью | четвертую | пятую | шестую | седьмую | восьмую | девятую ); Акустическая модель преобразует звук в фонемы Словарьпребразуетфонемы в слова Языковая модель помогаетпостроитьпредложенияисходяизпорядкаслов
-
Голосовой калькулятор
Min количество информации: Поле «А» – 1 символ; Поле «В» – 1 символ; Кнопка «+» или «-». Вводить информацию можно с помощью: Мышки и клавиатуры; Только клавиатуры, используя клавишу «Tab» для перехода между полями; Голосовые команды.
-
Оценка эффективности
Оценку эффективности и продуктивности интерфейса человека с системой, который реализован в виде компьютерной программы можно сделать с помощью оценки времени выполнения операций для достижения целей пользователя. Математическая модель для оценкивременныхпараметровинтерфейсовпозволяетпрогнозироватьвремявыполнениякакой-либозадачипользователем. В методике GOMS (the model of goals, objects, methods, and selection rules) расчёт эффективности основывается на понятии ментальных операций и их последовательной расстановке. Использованы следующие обозначения: Н(перемещение)=0,4(с), М (ментальная подготовка)=1,35(с), К(нажатие клавиши )=0,28(с), Р(указание)=1,1(с).
-
Пример расчет эффективности по методике GOMS
Используеммышку и клавиатуру, введенныеданные без ошибок, значения «А» и «В» по 1 символу: НКНРКНКНРК => НМКНМРКНМКНМРМК 4*0,4+5*1,35+4*0,28+2*1,1=11,67(с). С увеличением количества символов, скорость интерфейса будет снижатся на количество дополнительных n кликов, то есть на n*0,28с.
-
Эффективность интерфейсов, если нет ошибок
Методика GOMS Экспериментальный метод
-
Эффективность интерфейсов по методике GOMS,если есть 1-4 ошибки
1 2 3 4
-
Эффективность интерфейсов (экспериментальный метод),если есть 1-4 ошибки
1 2 3 4
-
Вывод
Смешанный тип интерфейса наиболее эффективный для использования в программных приложениях.
-
Спасибо за внимание!
Нет комментариев для данной презентации
Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.