Презентация на тему "Описательная статистика"

Презентация: Описательная статистика
1 из 56
Ваша оценка презентации
Оцените презентацию по шкале от 1 до 5 баллов
  • 1
  • 2
  • 3
  • 4
  • 5
3.0
1 оценка

Комментарии

Нет комментариев для данной презентации

Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.


Добавить свой комментарий

Аннотация к презентации

Посмотреть и скачать презентацию по теме "Описательная статистика" по математике, включающую в себя 56 слайдов. Скачать файл презентации 1.48 Мб. Средняя оценка: 3.0 балла из 5. Для студентов. Большой выбор учебных powerpoint презентаций по математике

Содержание

  • Презентация: Описательная статистика
    Слайд 1

    Основные понятия. Описательная статистика. Занятие 1

  • Слайд 2

    Данные – результаты некоторого количества измерений какой-либо ПЕРЕМЕННОЙ (переменных) – variable. Например: вес, длина тела, пол, окрас, температура ..... Статистика – инструмент для количественного анализа и интерпретации данных Статистический анализ данных Описательная статистика descriptive statistics Индуктивная статистика inferential statistics

  • Слайд 3

    ДАННЫЕ Количественные Ранговые ordinal (качественные, но могут быть упорядочены; размер интервалов на шкале неодинаковый) Качественные nominal Дискретные discrete Непрерывные continuous шкала отношенийratio scale интервальная шкала interval scale (их нельзя выстроить в последовательность) Потеря информации и точности

  • Слайд 4

    шкала отношений(ratio scale): размер интервалов на протяжении всей шкалы одинаковый; существует реальное нулевое значение. Примеры: масса тела, размер выводка, объём, температура по Кельвину интервальная шкала (interval scale): размер интервалов на протяжении всей шкалы одинаковый; положение нулевой точки выбрано произвольно. Примеры: температура по Цельсию, время дня, дата

  • Слайд 5

    Непрерывные переменные: Не нужно писать много знаков после запятой – количество знаков показывает точность измерения (= ошибку измерения) Если почему-то необходимо округлить числа, чётные округляют в меньшую сторону, нечётные – в большую (2.5 в 2, 3.5 в 4); рост, вес Ани, Тани и Мани

  • Слайд 6

    наблюдение ВЫБОРКА популяция – совокупность всех интересующих нас объектов Описательная статистика: ОПИСЫВАЕМ ВЫБОРКУ Индуктивная статистика: на основе свойств выборки (параметров выборки) делаем заключения о СВОЙСТВАХ ПОПУЛЯЦИИ.

  • Слайд 7

    Три основные концепции в анализе данных: Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной Что такое СТАТИСТИКА КРИТЕРИЯ Необходимо для обдумывания и обсуждения данных

  • Слайд 8

    Частотное распределение переменной (frequency distribution) – это соответствие между значениями переменной и их вероятностями (на практике – количеством таких значений в выборке) Можно представить в виде таблички или картинки.

  • Слайд 9

    Частотное распределение переменной (frequency distribution) Картинка распределения качественных или ранговых переменных (bar graph). В русском языке обозначается словом «гистограмма» (не совсем верно). трава листва корни плоды Виды пищи Оставим на некоторое время качественные и ранговые переменные и обратимся только к КОЛИЧЕСТВЕННЫМ промежутки между столбиками

  • Слайд 10

    Частотное распределение переменной (frequency distribution) Взвешиваем Nкроликов

  • Слайд 11

    Частотное распределение переменной (frequency distribution) Упорядочим по возрастанию значения переменной (выстроим кроликов от меньшего к большему); разобьём их на группыпо равным интервалам.

  • Слайд 12

    Масса кролика, кг Частота Гистограмма – графическое представление частотного распределения, разбитого по интервалам, где высота столбика отражает ЧАСТОТУ Частотное распределение переменной (frequency distribution) Частота – то, сколько раз встретилось данное значение переменной Интервалы должны быть: одного размера, не должны иметь общих точек, для биологических данных – 10-20 интервалов Полигон частот (frequency polygon)

  • Слайд 13

    Частотное распределение переменной (frequency distribution)

  • Слайд 14

    наблюдение ВЫБОРКА популяция – совокупность всех интересующих нас объектов Популяция может быть воображаемой (гипотетической).

  • Слайд 15

    Выборка должна быть РЕПРЕЗЕНТАТИВНОЙ, т.е. её свойства должны отражать свойства популяции. Для этого она должна быть СЛУЧАЙНОЙ (random) – т.е., все особи в популяции должны иметь одинаковые шансы попасть в неё, и попадание в выборку одного элемента не должно влиять на попадание другого элемента. Пример: если в одну группу поместить зверьков, которые первыми вышли из клетки, а в другую – тех, кто в ней остался, выборки буду неслучайными клетка

  • Слайд 16

    Три ОСНОВНЫЕ ХАРАКТЕРИСТИКИ, которыми можно почти полностью описать большинство распределений «Середина» распределения; «Ширина» распределения; Форма распределения Как описать частотное распределение переменной? Речь идёт не только о количественных данных, но и о качественных

  • Слайд 17

    «Середина» распределения «Середина» Мода (mode) Медиана (median) Среднее значение (mean) Разница понятий parameter и statistic Все они могут служить оценками популяционного среднего. Среднее в выборке – наиболее эффективная и несмещённая оценка.

  • Слайд 18

    Частотное распределение переменной (frequency distribution) «Середина» распределения Среднее значение – сумма всех значений переменной, делённая на количество значений *«balancing point» method Среднее для выборки Среднее для популяции

  • Слайд 19

    Частотное распределение переменной (frequency distribution) «Середина» распределения Медиана(median)– значение, которое делит распределение пополам (его площадь в т.ч.): половина значений больше медианы, половина – не больше. 1,0 1,5 4,1 5,7 9,5 6,0 7,1 7,9 10,4 11,0 Медиана Имеет смысл не только для количественных переменных, но и для ранговых! (не для качественных). 3,2

  • Слайд 20

    Если распределение не симметричное, медиана лучше характеризует центр распределения. она содержит меньше информации, чем среднее (определяется только рангом измерений, а не их значениями) но зато она не чувствительна к «аутлаерам» и может применяться даже в случае, если не для всех особей измерения точные. Распределение можно поделить не только на ДВЕ равные части, но и на: четыре (значения, стоящие на границах - квартили); восемь (... октили); сто (... процентили); N (... квантили). Частотное распределение переменной (frequency distribution)

  • Слайд 21

    Частотное распределение переменной (frequency distribution) Квартили(quartiles) делят распределение на четыре части так, что в каждой из них оказывается поровну значений (2-я квартиль = медиана). 1-я квартиль = 25% процентиль 3-я квартиль = 75% процентиль Интерквартильный размах – разница между третьей и первой квартилями.

  • Слайд 22

    Квартиль 1 Квартиль 3 медиана Частота Значение переменной 25% 25% 25% 25% 1 2 3 4 5 6 Частотное распределение переменной (frequency distribution)

  • Слайд 23

    Мода (mode) – наиболее часто встречающееся значение Частотное распределение переменной (frequency distribution) «Середина» распределения Существует не только для количественных, но и для ранговых, и для качественных переменных В первую очередь биолога интересует количество мод в распределении, а не мода как таковая

  • Слайд 24

    Частотное распределение переменной (frequency distribution) «Середина» распределения Мода, медиана и среднее СОВПАДАЮТ для симметричного унимодального распределения К появлению перекоса чувствительнее всего среднее значение 1/3 2/3

  • Слайд 25

    Частотное распределение переменной (frequency distribution) «Ширина» распределения = Разброс* Размах (range) Стандартное отклонение (standard deviation) Дисперсия (variance) * Это лишь основные параметры разброса Размах (range) – разность между максимальным и минимальным значениями= Xn – X1 Хорош тем, что легко считается и имеет «биологический смысл». Плох тем, что зависит лишь от 2-х точек из распределения. Недооценивает истинный размах в популяции. Если в статье приводится размах, следует привести ещё какую-нибудь характеристику разброса.

  • Слайд 26

    Стандартное отклонение (standard deviation) Частотное распределение переменной (frequency distribution) Разброс распределения Для выборки: Для популяции: Поправка на то, что в выборке разброс всегда будет меньше, чем во всей популяции Стандартное отклонение зависит ото всехзначений переменной. Измеряется в тех же единицах, что и переменная! Сумма квадратов (sum of squares = SS)

  • Слайд 27

    Частотное распределение переменной (frequency distribution) Разброс распределения Дисперсия (variance) Для выборки: Для популяции: Равна стандартному отклонению в квадрате и содержит почти ту же информацию; измеряется в единицах переменной, возведённых в квадрат (что не всегда удобно). Дисперсия используется скорее в различных статистических тестах, а не в описательной статистике

  • Слайд 28

    Коэффициент вариации (Coefficient of variation) Частотное распределение переменной (frequency distribution) Разброс распределения Даёт понять, насколько на самом деле велик разброс в данных, независимо от масштаба измерений. Не годится для данных, измеренных по интервальной шкале (температура, время и пр.)

  • Слайд 29

    Параметры разброса для качественных данных: Индексы разнообразия (indices of diversity) Показывают, насколько равномерно данные распределены по категориям. Разнообразие считается высоким, когда распределение более-менее равномерное, и низким, когда превалирует 1-2 категории Индекс Шеннона-Винера p = доля объектов в той или иной категории; k – число категорий. Нормированный индекс Шеннона ( ) Этих индексов много для разных целей; это показатели ОПИСАТЕЛЬНОЙ статистики!

  • Слайд 30

    Частотное распределение переменной (frequency distribution) Как описать непрерывное распределение? По количеству «максимумов» (мод): унимодальное бимодальное мультимодальное обычно возникают, если популяция имеет естественные обособленные подгруппы

  • Слайд 31

    Частотное распределение переменной (frequency distribution) По признаку симметрии: Симметричное Скошенное (skewed) вправо (positively) влево negatively Как описать непрерывное распределение?

  • Слайд 32

    Частотное распределение переменной (frequency distribution) 3. распределение асимптотическое не асимптотическое Как описать непрерывное распределение?

  • Слайд 33

    Частотное распределение переменной (frequency distribution) Нормальное распределение (Гауссово): первое знакомство Унимодальное Симметричное Асимптотическое Высота деревьев, масса тела новорожденных, IQ, скорость прохождения лабиринта крысами и многие, многие другие переменные Это непрерывное распределение Название в честь Гаусса не совсем справедливо – первым его описал вовсе не он. Симметрия и эксцесс.

  • Слайд 34

    Стандартное отклонение (standard deviation): для нормального распределения = дистанции от среднего значения до каждой из точек перегиба Частотное распределение переменной (frequency distribution) Разброс распределения s s

  • Слайд 35

    Частотное распределение переменной (frequency distribution) «Площадь распределения» Площадь, которую занимает график распределения, соответствует количеству измерений в выборке. Отрезая часть распределения на графике, мы отделяем эквивалентную часть от выборки частота масса, кг 16% площади распределения ~ 16% объёма выборки

  • Слайд 36

    Частотное распределение переменной (frequency distribution) Процентили и z-оценка 95% процентиль – значение переменной, левее которого находится 95% значений переменной 95%

  • Слайд 37

    Частотное распределение переменной (frequency distribution) Процентили и z-оценка Z-оценка (z-scores)– переменная, соответствующая количеству стандартных отклонений относительно среднего значения точка перегиба Z-оценка выборка популяция

  • Слайд 38

    Частотное распределение переменной (frequency distribution) Площадь нормального распределения Нормальное распределение определяется лишь 2-мя параметрами – μи σ . Необыкновенное свойство: Относительные площади под участками нормального распределения всегда одинаковы!

  • Слайд 39

    Частотное распределение переменной (frequency distribution) Площадь нормального распределения Z-оценка (количество стандартных отклонений) Откладывая от среднего значения стандартное отклонение (в ту или другую сторону) мы всегда отрезаем строго определённую долю популяции, приблизительно: Пример с IQ (μ=100, σ=15)

  • Слайд 40

    Частотное распределение переменной (frequency distribution) Площадь нормального распределения

  • Слайд 41

    Площадь нормального распределения

  • Слайд 42

    Распределение выборочных средних (sampling distribution of the means) Три основные концепции в анализе данных: Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной Что такое СТАТИСТИКА КРИТЕРИЯ выборка популяция

  • Слайд 43

    Распределение выборочных средних (sampling distribution of the means) Ещё раз центральный статистический вопрос: что мы можем сказать обо всей ПОПУЛЯЦИИ, если всё, что у нас есть, это лишь ВЫБОРКА из неё? На 1-м курсе института 25 групп по 22 студента. Средняя масса студента – μ=50 кг, σ= 4 кг. Посчитаем средние массы для каждой группы! Форма распределений маленьких выборок не обязательна должна удовлетворять критериям нормального распределения. …..

  • Слайд 44

    Распределение выборочных средних (sampling distribution of the means) Мы посчитали средние массы студентов в КАЖДОЙ группе, и теперь построим распределение из этих СРЕДНИХ значений! 50 5 55 60 45 40 50 1.2 Оно будет намного УЖЕ распределения всех студентов 1-го курса, и УЖЕ, чем каждое из распределений из отдельных групп Это и будет распределение выборочных средних (sampling distribution of the means) Пример про бутылки с кока-колой

  • Слайд 45

    Распределение выборочных средних (sampling distribution of the means) s Распределение выборочных средних Выборка (группа) Популяция (1-й курс) среднее стандартное отклонение >> Стандартная ошибка среднего (Standard error = SE)

  • Слайд 46

    Распределение выборочных средних (sampling distribution of the means) ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА Определяет форму, среднее и разброс в распределении выборочных средних Форма: с увеличение размера выборок (групп) распределение выборочных средних приближается к нормальному распределению (независимо от формы распределения популяции). Среднее: среднее значение в распределении средних равно среднему значению в популяции, т.е., Разброс: распределение выборочных средних Уже распределения популяции на , где n – объём выборки, т.е. Пример с монеткой

  • Слайд 47

    Распределение выборочных средних (sampling distribution of the means) Следствие: если некоторая величина отклоняется от среднего под воздействиемслабых, независимых друг от друга факторов, она имеет нормальное распределение. Поэтому оно так широко распространено в природе! Пример про высоту деревьев в лесу

  • Слайд 48

    Распределение выборочных средних (sampling distribution of the means) У нас есть только одна выборка. Из неё мы получили среднее значение Насколько оно близко среднему значению в популяции (μ)? Мы знаем, что для нормального распределения есть z-оценка, значениям которой соответствуют определённые площади распределения. Но мы также знаем, что выборочные средние образуют нормальное распределение!! Это значит, что, зная среднее в популяции, мы можем предсказать (с … вероятностью) интервал, в который попадёт выборочное среднее. Решим обратную задачу. Пусть нам известно μ, найдём

  • Слайд 49

    Распределение выборочных средних (sampling distribution of the means) 0 5 1 2 -1 -2 Z - оценка 0 1.2 Z - оценка Вопрос: какая часть ОСОБЕЙ имеет массу больше 55 кг? Другой вопрос: какая часть ВЫБОРОК имеет СРЕДНЮЮ массу больше 55 кг?

  • Слайд 50

    Оценка параметров популяции на основе свойств выборки Пусть мы изначально знаем среднюю массу студентов 1-го курса и стандартное отклонение в популяции. Как оценить среднюю массу в одной из групп? Построим распределение выборочных средних! Вспомним, что оно – нормальное, а его среднее значение соответствует среднему в популяции. 0 1 2 -1 -2 1.2 μ Зная стандартное отклонениев нем (=SE!!) можем рассчитать интервал, в который попадёт 95% (99%) всех средних масс в группах:

  • Слайд 51

    Оценка параметров популяции на основе свойств выборки 95% доверительный интервал (95% confidence interval): интервал значений переменной, который с вероятностью 95% содержит нужный параметр. Т.е., расстояние от среднего значения в популяции до выборочного среднего для 95% выборок не больше 1.96 SE Вернёмся к исходной задаче: Как оценить среднюю массу в популяции, если нам известно среднее в выборке?? Расстояние от среднего в выборке до (неизвестного) среднего в популяции с вероятностью 95% не больше 1.96 SE cv – critical value, критическое значение статистики (в данном случае, Z)

  • Слайд 52

    Оценка параметров популяции на основе свойств выборки Вопрос: где расположено μ? Ответ: я точно не знаю, но наиболее вероятно – в пределах ± 2-х стандартных ошибок среднего (SE) Чем больше уровень достоверности – 99%, 99,9%... (= доверительный уровень) тем ШИРЕ будет интервал Вопрос: где расположено μ? Ответ: я совершенно уверен, что оно лежит в пределах... от до В примере нам было известно σ, но на практике оно обычно неизвестно!

  • Слайд 53

    Оценка параметров популяции на основе свойств выборки Мы не знаем стандартное отклонение в популяции, и оцениваем его через стандартное отклонение в выборке – поэтому, доверительный интервал должен быть ШИРЕ, чем при известном σ. Насколько шире? Это будет зависеть от РАЗМЕРА ВЫБОРКИ (от числа степеней свободыdf = n-1) df Пояснить про число степеней свободы

  • Слайд 54

    t-распределение (Стьюдента) df=k При больших (>30)размерах выборок приближается к нормальному

  • Слайд 55
  • Слайд 56

    В чём ошибка?

Посмотреть все слайды

Сообщить об ошибке