Презентация на тему "Голосовой интерфейс"

Презентация: Голосовой интерфейс
1 из 30
Ваша оценка презентации
Оцените презентацию по шкале от 1 до 5 баллов
  • 1
  • 2
  • 3
  • 4
  • 5
2.8
8 оценок

Комментарии

Нет комментариев для данной презентации

Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.


Добавить свой комментарий

Аннотация к презентации

Посмотреть и скачать бесплатно презентацию по теме "Голосовой интерфейс", состоящую из 30 слайдов. Размер файла 2.48 Мб. Средняя оценка: 2.8 балла из 5. Каталог презентаций, школьных уроков, студентов, а также для детей и их родителей.

  • Формат
    pptx (powerpoint)
  • Количество слайдов
    30
  • Слова
    другое
  • Конспект
    Отсутствует

Содержание

  • Презентация: Голосовой интерфейс
    Слайд 1

    Голосовой интерфейс

    Ст. ИС-21 ИПСА Рябченко Алена Александровна

  • Слайд 2

    Интерфейс это…

    В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом.

  • Слайд 3

    Одной из важнейших задач разработки современных технических систем является обеспечение наиболее интуитивного и естественного интерфейса с пользователем, то есть современные компьютерные приложения ориентированные на пользователя.

  • Слайд 4

    Типы интерфейсов

    По наличию тех или иных средств ввода, интерфейсы разделяются на типы: голосовой, 2. жестовый , возможны смешанныеварианты.

  • Слайд 5

    Одной из естественных форм взаимодействия для человека является речь. Голосовой интерфейс может улучшить существующий пользовательский интерфейс - он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером.

  • Слайд 6

    Разработка голосового интерфейса является достаточно сложной и комплексной, и требует от разработчика знаний в различных предметных областях, таких как компьютерные науки, лингвистика и психология поведения человека.

  • Слайд 7

    Преимущества голосового интерфейса:

    оперативность и естественность; минимумспециальнойподготовкипользователя; возможность управления объектом в темноте, за пределами его визуальной видимости (в частности, с использованием существующей телефонной сети); возможность использования одновременно ручного (с помощью клавиатуры) и голосового ввода информации; обеспечение мобильности оператора при управлении.

  • Слайд 8

    Распознавание речи

    Распознавание речи - технология, позволяющая использовать естественный для человека речевой интерфейс для взаимодействия с электронной техникой. Сложность распознавание речи состоит в том, что совокупность таких характеристик голоса и речи как тембр, громкость, высота, темп, интонация, качество дикции делают речь каждого человека по-своему неповторимой и уникальной как отпечатки пальцев. или

  • Слайд 9

    Системы распознавания речи

    Системы распознавания речи - это системы, анализирующие акустический сигнал алгоритмами, основанными на разнообразных теориях, предполагающих, какие характеристики речевого сигнала создают ощущения звуков данного языка, и математических методах, с той или иной точностью выделяющих значащие параметры акустического сигнала и преобразующие его в различной полноте в необходимую форму.

  • Слайд 10

    Рис.1 Классификация систем распознавания речи

  • Слайд 11

    Структура стандартной системы распознавания речи

  • Слайд 12

    Необработанная речь

    Обычно, поток звуковых данных, записанный с высокой дискретизацией (20 КГц при записи с микрофона либо 8 КГц при записи с телефонной линии).

  • Слайд 13

    Анализ сигнала

    Поступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей обработки. Есть различные методы для извлечения полезных параметров и сжатия исходных данных в десятки раз без потери полезной информации. Наиболее используемые методы: анализ Фурье; линейное предсказание речи; кепстральный анализ.

  • Слайд 14

    Речевые кадры

    Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый речевой кадр – это результат анализа сигнала на небольшом отрезке времени (порядка 10 мс.), содержащий информацию об этом участке (порядка 20 коэффициентов).

  • Слайд 15

    Акустические модели

    Для анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две наиболее распространенные из них. Шаблонная модель. В качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной единицы (слова, команды). Модель состояний. Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно услышать в данном участке слова, основываясь на вероятностных правилах.

  • Слайд 16

    Акустический анализ

    Состоит в сопоставлении различных акустических моделей к каждому кадру речи и выдает матрицу сопоставления последовательности кадров и множества акустических моделей.

  • Слайд 17

    Корректировка времени

    Используется для обработки временной вариативности, возникающей при произношении слов (например, “растягивание” или “съедание” звуков).

  • Слайд 18

    Последовательность слов

    В результате работы, система распознавания речи выдает последовательность (или несколько возможных последовательностей) слов, которая, наиболее вероятно, соответствует входному потоку речи.

  • Слайд 19

    Программная реализация голосового интерфейса

    Используем: 1 ) JDK 6 ( J2SE )2 ) Eclipse SDK 3 ) Sphinx 4.04 ) JSAPI ( Included in Sphinx 4.0 )

  • Слайд 20

    Sphinx-4

    Sphinx-4 – самый известное и наиболее работоспособное из открытых программных продуктов для распознавания речи на сегодняшний день. Структура Sphinx-4 была разработана с высокой степенью гибкости и модульности. На рисунке показана общая архитектура системы. Каждый помеченный элемент на рисунке представляет собой модуль, который может быть легко заменен.

  • Слайд 21

    Структура Sphinx-4

    Главными блоками являются: предварительный анализ, декодер, лингвистический модуль.

  • Слайд 22

    Все три составляющиеобезательные, новместоязыковоймоделивозможно просто описать порядок слов в jsgf словаре примерно так: camera.jsgf #JSGF V1.0; grammarcamera; public = ( | ); = ( включить | выключить | отключить ); = ( камеру | видео-камеру ); = [ номер ] = ( один | два | три | четыре | пять | шесть | семь | восемь | девять ); = ( первую | вторую | третью | четвертую | пятую | шестую | седьмую | восьмую | девятую ); Акустическая модель преобразует звук в фонемы Словарьпребразуетфонемы в слова Языковая модель помогаетпостроитьпредложенияисходяизпорядкаслов

  • Слайд 23

    Голосовой калькулятор

    Min количество информации: Поле «А» – 1 символ; Поле «В» – 1 символ; Кнопка «+» или «-». Вводить информацию можно с помощью: Мышки и клавиатуры; Только клавиатуры, используя клавишу «Tab» для перехода между полями; Голосовые команды.

  • Слайд 24

    Оценка эффективности

    Оценку эффективности и продуктивности интерфейса человека с системой, который реализован в виде компьютерной программы можно сделать с помощью оценки времени выполнения операций для достижения целей пользователя. Математическая модель для оценкивременныхпараметровинтерфейсовпозволяетпрогнозироватьвремявыполнениякакой-либозадачипользователем. В методике GOMS (the model of goals, objects, methods, and selection rules) расчёт эффективности основывается на понятии ментальных операций и их последовательной расстановке. Использованы следующие обозначения: Н(перемещение)=0,4(с), М (ментальная подготовка)=1,35(с), К(нажатие клавиши )=0,28(с), Р(указание)=1,1(с).

  • Слайд 25

    Пример расчет эффективности по методике GOMS

    Используеммышку и клавиатуру, введенныеданные без ошибок, значения «А» и «В» по 1 символу: НКНРКНКНРК => НМКНМРКНМКНМРМК 4*0,4+5*1,35+4*0,28+2*1,1=11,67(с). С увеличением количества символов, скорость интерфейса будет снижатся на количество дополнительных n кликов, то есть на n*0,28с.

  • Слайд 26

    Эффективность интерфейсов, если нет ошибок

    Методика GOMS Экспериментальный метод

  • Слайд 27

    Эффективность интерфейсов по методике GOMS,если есть 1-4 ошибки

    1 2 3 4

  • Слайд 28

    Эффективность интерфейсов (экспериментальный метод),если есть 1-4 ошибки

    1 2 3 4

  • Слайд 29

    Вывод

    Смешанный тип интерфейса наиболее эффективный для использования в программных приложениях.

  • Слайд 30

    Спасибо за внимание!

Посмотреть все слайды

Сообщить об ошибке