Содержание
-
Кодирование информации
Язык и кодирование
Двоичное кодирование
Кодирование чисел и символов
Кодирование рисунков
Кодирование звука и видео
-
Тема 1. Язык и кодирование
-
Что такое кодирование?
3
Кодирование – это запись информации с помощью некоторой знаковой системы (языка).
Зачем кодируют информацию?
?
кодирование
10101001010
данные (код)
обработка
11111100010
данные (код)
хранение
борьба с помехами (специальные способы кодирования)
передача
передача
Информация передается, обрабатывается и хранится в виде кодов.
-
Языки
4
Язык – знаковая система, используемая для хранения и передачи информации.
естественные (русский, английский, …)есть правила и исключения
формальные (строгие правила)
Грамматика – правила по которым из символов алфавита строятся слова.
Синтаксис – правила, по которым из слов строятся предложения.
program qq;
begin
writeln("Привет!");
end.
-
Азбука Морзе
Задача 1. Закодируйте свое имя с помощью азбуки Морзе.
ВАСЯ
Код неравномерный, нужен разделитель!
!
5
-
Кодовые таблицы
Задача 2. Закодируйте свое имя с помощью кодовой таблицы (Windows-1251):
ВАСЯ
С2 С0 D1 DF
В
А
С
Я
Код равномерный, разделитель НЕ нужен!
!
6
-
Цели и способы кодирования
Текст:
в России: Привет, Вася!
Windows-1251: CFF0E8E2E52C20C2E0F1FF21
передача за рубеж (транслит): Privet, Vasya!
стенография:
шифрование: Рсйгжу-!Гбта"
Информация (смысл сообщения) может быть закодирована разными способами!
!
Числа:
для вычислений: 25
прописью: двадцать пять
римская система: XXV
Как зашифровано?
?
7
-
Кодирование информации
Тема 2. Двоичное кодирование
-
Двоичное кодирование
9
Двоичное кодирование – это кодирование всех видов информации с помощью двух знаков (обычно 0 и 1).
Передача электрических сигналов:
сигнал с помехами
время
U
«1»
«0»
полезный сигнал
сигнал с помехами
5 В
U
1 0 1
время
полезный сигнал
-
10
в такой форме можно закодировать (почти) все виды информации
нужны только устройства с двумя состояниями
почти нет ошибок при передаче данных
компьютеру легче обрабатывать данные
человеку сложно воспринимать двоичные коды
Можно ли использовать не «0» и «1», а другие символы, например, «А» и «Б»?
?
кодировщик
числа
символы
рисунки
звук
101011011101110110101
-
Декодирование
11
Декодирование – это восстановление сообщения из последовательности кодов.
МАМА МЫЛА ЛАМУ → 00 1 00 1 11 00 01 0 1 11 0 1 00 10
0010011100010111010010 ???
ЛЛАЛЛАААЛЛЛАЛАААЛАЛЛАЛ
Не все коды допускают однозначное декодирование!
!
Почему?
?
Приняли сообщение:
-
Равномерные коды
12
Равномерные коды – все кодовые слова (коды отдельных букв) имеют одинаковую длину.
МАМА МЫЛА ЛАМУ:000 001 000 001 101 000 010 011 001 101 011 001 000 100
Равномерные коды позволяют однозначно декодировать сообщения!
!
сообщения получаются длинными
-
Неравномерные коды
13
кодовые слова имеют разную длину
У
Ы
Л
А
М
0
0
0
0
0
1
1
1
1
1
0100010011011011100001110000011010
М
А
М
А
М
Ы
Л
А
А
Л
М
У
Префиксный код – ни одно кодовое слово не совпадает с началом другого кодового слова (условие Фано).
Любой префиксный код позволяет однозначно декодировать сообщения!
!
-
Постфиксные коды
14
Постфикс = окончание слова.
Постфиксный код – ни одно кодовое слово не совпадает с концом другого кодового слова («обратное»условие Фано).
Любой постфиксный код позволяет однозначно декодировать сообщения (с конца)!
!
для декодирования нужно получить всё сообщение целиком
-
Задачи на построение кода
15
Для передачи по каналу связи сообщения, состоящего только из букв А, Б, В, Г, решили использовать неравномерный по длине код:
Как нужно закодировать букву Г, чтобы длина кода была минимальной и допускалось однозначное разбиение кодированного сообщения на буквы?
1) 00 2) 01 3) 11 4) 010
Решение:
для букв А-Б-В выполнятся условие Фано
при Г=00 условие Фано нарушится (пары Г-Б, Г-В)
при Г=01 условие Фано выполняется
при Г=11 условие Фано нарушится (пара А-Г)
при Г=010 условие Фано выполняется (но длиннее 01)
-
Кодирование информации
Тема 2. Кодирование чисел и символов
-
Кодирование чисел (двоичная система)
17
Алфавит: 0, 1Основание (количество цифр): 2
10 2
2 10
19
2
9
18
1
2
4
8
1
2
2
4
0
2
1
2
0
2
0
0
1
19 = 100112
система счисления
100112
4 3 2 1 0
разряды
= 1·24 +0·23+0·22+1·21+1·20
= 16 + 2 + 1 = 19
-
Кодирование символов
18
Текстовый файл
на экране (символы)
в памяти – двоичные коды
В файле хранятся не изображения символов, а их числовые коды в двоичной системе!
!
А где же хранятся изображения?
-
19
Сколько символовнадо использовать одновременно?или 65536 (UNICODE)
Сколько местанадо выделитьна символ:
Выбрать256 любых символов(или 65536) - алфавит.
Каждому символу –уникальный код 0..255(или 0..65535). Таблица символов:
Коды – в двоичную систему.
256
256 = 28 8 битна символ
коды
-
8-битные кодировки (1 байт на символ)
20
таблица ASCII
(международная)
расширение
(национальный алфавит)
ASCII = American Standard Code for Information Interchange
0-31 управляющие символы:7 – звонок, 10 – новая строка, 13 – возврат каретки, 27 – Esc.
32 пробел
знаки препинания: . , : ; ! ?
специальные знаки: + - * / () {} []
48-57 цифры 0..9
65-90 заглавные латинские буквы A-Z
97-122 строчные латинские буквы a-z
Кодовая страница (расширенная таблица ASCII)для русского языка:
CP-866для системы MS DOS
CP-1251 для системыWindows (Интернет)
КОИ8-Р для системы UNIX (Интернет)
-
1 байт на символ – файлы небольшого размера!
просто обрабатывать в программах
нельзя использовать символы разных кодовых страниц одновременно (русские и французские буквы, и т.п.)
неясно, в какой кодировке текст (перебор вариантов!)
для каждой кодировки нужен свой шрифт (изображения символов)
21
-
Стандарт UNICODE
22
110 182 символа (2012)
каждому символу присвоен код
кириллица:
А –041016, Б – 041116, …
а –043016, б – 043116, …
коды 0..10FFFF16, всего 1 114 112
Идея: объединить все символы в одну таблицу!
!
-
UNICODE в Windows (UTF-16)
23
можно одновременно использовать символы разных языков (Интернет)
размер файла увеличивается
общеупотребительные символы0..65535 = 216-1 (0..FFFF16)
эти символы можно закодировать с помощью 16 бит
кодировка UTF-16 (почти все символы по 16 бит)
-
UNICODE в Linux (кодировка UТF-8)
24
символы ASCII – 1 байт на символ
остальные символы от 2 до 4 байт
более 50% сайтов используют UTF-8
тексты, состоящие только из кодов ASCII (коды 0 – 127) не увеличиваются в размере
переменное число байтов на символ
замедление работы программ
-
Кодирование информации
Тема 4. Кодирование рисунков
-
Два типа кодирования рисунков
26
растровое кодированиеточечный рисунок, состоит из пикселей
фотографии, размытые изображения
векторное кодированиерисунок, состоит из отдельных геометрических фигур
чертежи, схемы, карты
-
Растровое кодирование
27
Шаг 1. Дискретизация: разбивка на пиксели.
Шаг 2. Для каждого пикселя определяется единый цвет.
Пиксель – это наименьший элемент рисунка, для которого можно независимо установить цвет.
Есть потеря информации!
почему?
как ее уменьшить?
!
Разрешение: число пикселей на дюйм,pixels per inch (ppi)
экран 96ppi, печать 300-600ppi, типография 1200ppi
-
Растровое кодирование(True Color)
28
Шаг 3. От цвета – к числам: модель RGB
цвет = R + G + B
red
красный
0..255
blue
синий
0..255
green
зеленый
0..255
R = 218G = 164B = 32
R = 135G = 206B = 250
Шаг 4. Числа – в двоичную систему.
Сколько памяти нужно для хранения цвета 1 пикселя?
?
Сколько разных цветов можно кодировать?
?
256·256·256 = 16 777 216 (TrueColor)
R: 256=28вариантов, нужно 8 бит = 1 байтRGB: всего 3 байта
Глубина цвета
-
Растровое кодирование с палитрой
29
Шаг 1. Выбрать количество цветов: 2, 4, … 256.
Шаг 2. Выбрать 256 цветов из палитры:
248088
022121
1811920
21097
Шаг 3. Составить палитру(каждому цвету – номер 0..255)палитра хранится в начале файла
0
1
254
255
45
65
Шаг 4. Код пикселя = номеру его цвета в палитре
-
30
Сколько занимает палитра и основная часть?
?
Файл с палитрой:
256 = 28цветов: палитра 256·3 = 768 байт
рисунок 8 бит на пиксель
16 цветов: палитра 16·3 = 48 байт
рисунок 4 бита на пиксель
2цвета: палитра 2·3 = 6 байт
рисунок 1 бит на пиксель
Один цвет в палитре: 3 байта (RGB)
Глубина цвета
-
Форматы файлов (растровые рисунки)
31
-
Кодирование цвета при печати
G
R
B
G
B
G
R
B
32
Белый – красный = голубой C = Cyan
Белый – зелёный = пурпурныйM = Magenta
Белый – синий = желтыйY = Yellow
Модель CMY
C
M
Y
0
0
0
255
255
0
255
0
255
0
255
255
255
255
255
Модель CMYK: +Key color
Меньший расход краски и лучшее качество для чёрного и серого цветов.
-
Растровые рисунки
33
лучший способ для хранения фотографий и изображений без четких границ
спецэффекты (тени, ореолы, и т.д.)
есть потеря информации (почему?)
при изменении размеров рисунка он искажается
размер файла не зависит от сложности рисунка (а от чего зависит?)
Какие свойства цифрового рисунка определяют его качество?
?
-
Векторные рисунки
34
Строятся из геометрических фигур:
отрезки, ломаные, прямоугольники
окружности, эллипсы, дуги
сглаженные линии (кривые Безье)
Для каждой фигуры в памяти хранятся:
размеры и координаты на рисунке
цвет и стиль границы
цвет и стиль заливки (для замкнутых фигур)
Форматы файлов:
WMF (Windows Metafile)
CDR(CorelDraw)
AI (Adobe Illustrator)
SVG(Inkscape)
для Web
-
35
прямоугольник
размеры
координаты
контур
заливка
-
36
лучший способ для хранения чертежей, схем, карт;
при кодировании нет потери информации;
при изменении размера нет искажений;
меньше размер файла, зависит от сложности рисунка;
неэффективно использовать для фотографий и размытых изображений
-
Кодирование информации
Тема 5. Кодирование звукаи видео
-
Оцифровка звука
38
аналоговый сигнал
Оцифровка – это преобразование аналогового сигнала в цифровой код (дискретизация).
T
t
– интервал дискретизации (с)
– частота дискретизации (Гц, кГц)
8 кГц – минимальная частота для распознавания речи
11 кГц, 22 кГц,
44,1 кГц – качество CD-дисков
48 кГц – фильмы на DVD
96 кГц, 192 кГц
Человек слышит
16 Гц … 20 кГц
-
Оцифровка звука: квантование
39
Сколько битов нужно, чтобы записать число 0,6?
?
T
t
0
1
2
3
4
5
7
6
3-битное кодирование:
8 битов = 256 уровней
16 битов = 65536 уровней
24 бита = 224 уровней
АЦП = Аналого-Цифровой Преобразователь
Квантование (дискретизация по уровню) – это представление числа в виде цифрового кода конечной длины.
Разрядность кодирования — это число битов, используемое
для хранения одного отсчёта.
-
Оцифровка звука
40
Задача. Определите информационный объем данных, полученных при оцифровке звука длительностью 1 минута с частотой 44 кГц с помощью 16-битной звуковой карты. Запись выполнена в режиме «стерео».
За 1 сек каждый канал записывает 44000 значений, каждое занимает 16 битов = 2 байта
всего 44000 2 байта = 88000 байтов
С учётом «стерео»
всего 88000 2 = 176000 байтов
За 1 минуту
176000 60 = 1056000 байтов
10313 Кбайт 10 Мбайт
-
41
Как восстановить сигнал?
T
t
без сглаживания
после сглаживания
Какой улучшить качество?
?
уменьшать T
Что при этом ухудшится?
?
размер файла
аналоговые устройства!
ЦАП = Цифро-Аналоговый Преобразователь
было до оцифровки
-
Оцифровка – итог
42
можно закодировать любой звук (в т.ч. голос, свист, шорох, …)
есть потеря информации
большой объем файлов
Какие свойства оцифрованного звука определяют качество звучания?
?
Форматы файлов:
WAV (Waveform audio format), часто без сжатия (размер!)
MP3(MPEG-1 Audio Layer 3, сжатие с учётомвосприятия человеком)
AAC(Advanced Audio Coding, 48 каналов, сжатие)
WMA(Windows Media Audio, потоковый звук, сжатие)
OGG(Ogg Vorbis, открытый формат, сжатие)
-
Инструментальное кодирование
43
MIDI (Musical Instrument Digital Interface — цифровой интерфейс музыкальных инструментов).
в файле .mid:
нота (высота, длительность)
музыкальный инструмент
параметры звука (громкость, тембр)
до 1024 каналов
в памяти звуковой карты:
образцы звуков (волновые таблицы)
MIDI-клавиатура:
нет потери информации при кодировании инструментальной музыки
небольшой размер файлов
невозможно закодировать
нестандартный звук, голос
программа для звуковой карты!
128 мелодических и 47 ударных
-
Трекерная музыка
44
В файле (модуле):
образцы звуков (сэмплы)
нотная запись, трек (track) – дорожка
музыкальный инструмент
до 32 каналов
Использование: демосцены (важен размер файла)
Форматы файлов:
MOD разработан для компьютеров Amiga
S3M оцифрованные каналы + синтезированный звук, 99 инструментов
XM, STM, …
-
Кодирование видео
45
Синхронность!
Видео = изображения + звук
!
изображения:
≥25 кадров в секунду
PAL: 768×576, 24 бита
за 1 с: 768×576×3 байта ≈ 32 Мб
за 1 мин: 60×32 Мбайта ≈ 1,85 Гб
HDTV: 1280×720, 1920×1080.
исходный кадр + изменения (10-15 с)
сжатие (кодеки – алгоритмы сжатия)
DivX, Xvid, H.264, WMV, Ogg Theora…
звук:
48 кГц, 16 бит
сжатие (кодеки – алгоритмы сжатия)
MP3, AAC, WMA, …
-
Форматы видеофайлов
46
AVI – Audio VideoInterleave – чередующиеся звук и видео; контейнер – могут использоваться разные кодеки
MPEG– Motion Picture Expert Group
WMV– Windows Media Video, формат фирмы Microsoft
MP4– MPEG-4, сжатое видео и звук
MOV– Quick Time Movie, формат фирмы Apple
WebM – открытый формат, поддерживается браузерами
-
Конец фильма
47
ПОЛЯКОВ Константин Юрьевич
д.т.н., учитель информатики высшей категории,
ГОУ СОШ № 163, г. Санкт-Петербург
kpolyakov@mail.ru
Нет комментариев для данной презентации
Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.