Презентация на тему "Первичный анализ и обработка данных"

Презентация: Первичный анализ и обработка данных
Включить эффекты
1 из 35
Ваша оценка презентации
Оцените презентацию по шкале от 1 до 5 баллов
  • 1
  • 2
  • 3
  • 4
  • 5
4.2
2 оценки

Комментарии

Нет комментариев для данной презентации

Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.


Добавить свой комментарий

Аннотация к презентации

Презентация по информатике на тему "Первичный анализ и обработка данных" станет прекрасным мультимедийным сопровождением занятия. В материале описаны все ключевые моменты и основные понятия темы. Лекция с использованием такой уникальной презентации поможет студентам быстрее и глубже усвоить новый материал.

Краткое содержание

  • Базовые понятия
  • Статистическая совокупность
  • Распределения
  • Сравнение средних величин
  • Критерии достоверности отличий
  • Оценка репрезентативности выборки
  • Оптимальный объем выборки

Содержание

  • Презентация: Первичный анализ и обработка данных
    Слайд 1
    • Информационные технологии в биологических исследованиях
    • Раздел: «Информационные технологии и математическая обработка результатов биологического эксперимента»
    • Лекция 2: «Первичный анализ и обработка данных»
  • Слайд 2

    Базовые понятия и операции первичной обработки экспериментальных данных

    • 1. Распределения, их виды и характеристики
    • 2. Оценка сильно отклоняющихся значений
    • 3. Основные параметры совокупности – средняя, арифметическая, ошибка средней, достоверность
    • 4. Мера варьирования величин – среднеквадра-тичное отклонение, коэффициент вариации
    • 5. Оценка репрезентативности выборки
    • 6. Некоторые конкретные примеры
  • Слайд 3
    • Вбиологических исследованиях основной интерес представляют сведения, относящиеся не к индивидуальному объекту, а к целой группе или некоторому статистическому среднему объекту.
    • Необходимость использования статистических методов в биологических исследованиях связана с тем, что свойства биологических объектов варьируют в пределах популяции, а физиологические и другие параметры одной особи испытывают флуктуации во времени.
  • Слайд 4

    Статистическая совокупность – это и объекты исследования и полученные данные

    • Объекты каждого исследования (растения, животные, микроорганизмы, урожаи с опытных делянок или вегетационных сосудов, образцы плодов, семян и пр.) образуют общую, или генеральную, совокупность.
    • Термин совокупность относят и к полученным в опыте или путем наблюдений числам, характеризующим с какой-либо одной количественной стороны объекты, входящие в данную генеральную совокупность.
    • В статистическую совокупность следует включать лишь числа, относящиеся к качественно однородным признакам (свойствам) объекта исследования.
  • Слайд 5
    • Признаки (их количественная мера, варианта) варьируют случайным образом по причине естественной изменчивости и ошибок измерений
    • Основное – естественная изменчивость, вызванная биологическими причинами
    • Характер самого наблюдаемого явления, особенности причин, вызывающих колебания данного признака определяют особенности колебаний данных.
    • Вычисления можно проводить как угодно точно, но результат вычисления не может быть точнее тех данных, на которых оно основано
  • Слайд 6

    Распределения

    • Чаще всего в природе наблюдается закономерность: большие по величине колебания данных встречаются значительно реже, чем меньшие по величине
    • Большинство членов статистической совокупности оказывваются среднего или близкого к нему размера.
    • Чем дальше они отстоят от среденего уровня, тем реже стречаются.
    • Существует связь между числовыми значениями варьирующих признаков и частотой их встречаемости в данной совокупности - это и есть распределение
  • Слайд 7

    Пример распределения

    • Вариационный ряд
    • В случае, если глубина выборки, т. е. количество чисел, полученных в результате измерений, невелико, можно составить вариационный ряд
    • Например, подсчет количества глазков в 25 клубнях картофеля.
    • Всего: 6, 9, 5, 7. 10, 8 9 10 8 11, 9. 12, 9, 8, 10, 11, 9, 10, 8, 10, 7, 9, 11, 9, 10.
  • Слайд 8

    Непрерывное распределение

    • где f' частоты нормальной кривой; х — варианты (середины классов) ряда
  • Слайд 9

    Нормальное распределение

    • Распределение – это соотношение между значениями случайной величины и частотой их встречаемости. Большое число случайных величин, распространенных в природе, может быть описано с помощью закона нормального распределения, который задается уравнением:
    • где f' — теоретические частоты нормальной кривой; N — объем выборки; с — классовый интервал; σ — среднее квадратическое отклонение; е — основание натуральных логарифмов; t =(х— М)/ σ — нормированное отклонение; М — средняя арифметическая; х — варианты (середины классов) ряда
  • Слайд 10

    Характеристики нормального распределения

    • Основные параметры нормального распределения – среднее арифметическое (М) и среднеквадратическое отклонение – сигма (σ)
    • На расстоянии М + σ и М - σ от среднего значения на графике нормальной кривой расположены абсциссы ее двух точек перегиба, которые показывают переход от типичных величин вариант совокупности к нетипичным, хотя и принадлежащих еще к данной совокупности.
    • В интервале нормы, между абсциссами, от М - σ до М + σ находится 68,27% всей площади нормального распределения, т. е. вариант, или дат совокупности; между М - 2σ и М+2σ заключается 95,45% дат от всего объема и в интервале от М - 3σ до М+3σ лежит 99,73% от всего объема нормально распределенной совокупности.
  • Слайд 11

    Биномиальное распределение

    • Где f частоты,
    • Nn – число проб,
    • t – нормированное отклонение, (x-M)/σ,
    • c – классовый интервал.
    • Относится к дискретным величинам, то есть к тем, которые могут быть представлены только целыми числами. Например, глазков в картофелине может быть только целое число и т.д.
    • В общем виде.
  • Слайд 12

    Характеристики биномиального распределения

    • Во многом близко к нормальному. Отличие состоит лишь в том, что оно характеризует поведение дискретных признаков,
    • выраженных целыми числами.
    • Как правило, для описания биологических признаков подходит симметричное биномиальное распределение, у которого дисперсия много меньше средней.
    • Выборка при биномиальном распределении обычно образуется, когда берут Nnпроб одинакового объема, равного n
    • Вероятность появления события постоянна для кажлой пробы (лист растения либо заразится грибом, либо нет)
    • Два исхода – поэтому бином
  • Слайд 13

    Распределение Пуассона

    • Частный случай биномиального распределения:
    • Вариант описания стохастического поведения дискретных количественных признаков для случаев, когда вероятность элементарных альтернативных событий неодинакова, одно из них наблюдается заметно чаще другого (p << q).
    • Закон Пуассона описывает редкие события, происходящих 1, 2, 3 и т. д. раз на сотни и тысячи обычных событий.
    • Примеры таких явлений ­– частота нарушений хромосомного аппарата на каждую тысячу митозов, встречаемость семян сорняка в большой серии навесок семян культурного растения, число повторных попаданий животных в ловушки.
  • Слайд 14

    Пример распределения Пуассона

    • Распределение Пуассона резко асимметрично, причем дисперсия равна средней арифметической, что может служить критерием для оценки характера распределения изучаемого признака .
    • Пример. В течение одного года пометили кольцами и выпустили на волю 32 птицы. В последующие пять лет часть из них отлавливали повторно: 7 экз. по одному разу, 7 – по два, 2 – по три, 1 экз. – четыре раза, 15 экз. окольцованных птиц повторно не попадались:
  • Слайд 15
    • Расчеты показали, что средняя арифметическая (M) примерно равна дисперсии (σ²)
    • = 0.968 экз
    • 1.121 экз., σ² = 1.257,
    • σ² ≈ M
  • Слайд 16

    Распределение Пуассона

    • где f' — теоретические частоты распределения Пуассона, т. е. число проб, обладающих той или иной долей наблюдаемого признака; х — варианты, отдельные значения наблюдаемого признака; х!— (икс-факториал) обозначает произведение ряда натуральных чисел, например: 3! = 1-2-3 = 6; М — средняя арифметическая данного ряда; Nп — общее число проб
  • Слайд 17
    • При возрастании произведения np - (вероятная частота ожидаемого события) распределение Пуассона стремится к нормальному
  • Слайд 18

    Оценка сильно отклоняющихся вариант

    • Относится ли данная варианта вместе с другими вариантами изучаемой выборки к одной и той же генеральной совокупности или – к разным?
    • Сформировано ли данное значение варианты под действием тех же доминирующих и случайных факторов, что и все остальные варианты данной выборки, или это были иные факторы?

    2 возможных ответа:

    • 1. Факторы те же, т. е. все варианты взяты из одной и той же генеральной совокупности.
    • 2. Факторы иные, т. е. особенная варианта и выборка порознь взяты из разных генеральных совокупностей
  • Слайд 19

    Ответ можно получить с использованием свойств нормального распределения

    • Если все варианты были взяты из одной генеральной совокупности, они должны отличаться друг от друга только в силу случайных причин и (с вероятностью P = 0.95) находиться в диапазоне M ± 2 σ.
    • Эта величина, нормированное отклонение, и служит безразмерной характеристикой отклонения варианты от средней арифметической:
    • ~tтабл
    • .,
    • где t – критерий выпада (исключения),
    • x – выделяющееся значение признака,
    • М – средняя величина для группы вариант,
    • tтабл. – стандартные значения критерия выпадов, определяемые свойствами нормального распределения, их можно найти по таблице
    • Для больших выборок пользуются значением tтабл. = 2 при P = 0.95,
  • Слайд 20
    • Значение критерия t для отбраковки «выскакивающих» вариант с известными параметрами распределения
  • Слайд 21
    • Когда параметры распределения неизвестны, можно использовать сравнение различий максимальной и минимальной вариант, «размах» значений ряда. Для этого существуют два критерия, для максимальной и минимальной вариант
    • Имеется ранжированный ряд, где представлена высота растений одного вида (в см)
    • 8277 74 74 73 66 64 63 63 62 54 4443
    • Табличное значение критерия для N = 13 составляет 0,52 > 0,13, т. е. больше, чем вычисленная величина. Варианту нельзя исключать из выборки.
    • Для максимальной
    • Для минимальной
    • Полученное значение меньше табличного 0,029<0,520, поэтому данное значение отбрасывать также не стоит.
  • Слайд 22

    Средняя арифметическая, среднеквадратическое отклонение, ошибка средней, достоверность

    • Насколько статистические оценки совпадают с истинными, свойствами генеральной совокупности?
    • Для вычисления статистической ошибки выборочной средней M используется формула
    • Стандартное отклонение отражает разброс всех вариантов относительно средней, а стандартная ошибка показывает пределы, в которых, с известной вероятностью, может располагаться средняя величина.
    • В интервале M ± 1m средняя величина генеральной совокупности может находиться с вероятностью 68.3 %, в интервале M ± 2m - с вероятностью 95.5 %, а в пределах M ± 3m - с вероятностью 99.7 %.
  • Слайд 23
    • Метод нахождения доверительных интервалов в случае анализа небольших выборок найден английским статистиком Госсетом, известном под псевдонимом Стьюдент
    • Величина tпоказывает, во сколько раз необходимо увеличить стандартную ошибку выборочного статистического параметра для того, что бы при определенном уровне вероятности судить о тех пределах, в которых располагается генеральное значение.
    • Величина t напрямую зависит лишь от уровня вероятности P и числа степеней свободы n, которое равно глубине выборки -1. (объем выборки без числа ограничений)
    • В большинстве биологических исследований принимают P=0.95 (то есть 95 случаев из 100), в наиболее ответственных случаях - 0.99 или 0.999
  • Слайд 24

    Сравнение средних величин

    • В биологических экспериментах особое значение имеют различия, на основании которых судят об эффективности действия тех или иных факторов, например, по разности между опытной и контрольной группами делают заключение о результатах опыта.
    • Важно оценить статистическую достоверность разности, т. е. определить, можно ли данное различие считать закономерным, характерным для всей генеральной совокупности и рассматривать его как результат действия особенных факторов, или же оно случайно и является следствием недостаточного количества данных и в следующих опытах может не проявиться
    • Обнаружение достоверных отличий статистических параметров – первый шаг к познанию новых биологических закономерностей, причем количественно доказанных
  • Слайд 25

    Критерии достоверности отличий

    Сравнения выборочных средних – это вопрос о том, действовал ли при составлении одной из выборок новый систематический фактор по сравнению с другой выборкой

    Отличия между средними могут иметь два противоположных источника:

    • 1. Обе выборки взяты из одной генеральной совокупности, но средние отличаются в силу ошибки репрезентативности.
    • 2. Выборки взяты из разных генеральных совокупностей, отличие средних вызвано, в основном, действием разных доминирующих факторов (а также и случайно).

    Исходно предполагается (Но): «достоверных отличий между средними нет»

  • Слайд 26
    • Поскольку выборочные средние имеют нормальное распределение, критерий отличия двух выборочных средних также базируется на свойствахнормального распределения: в границах Mобщ.±1.96∙m (или приблизительно Mобщ.± 2∙m) выборочные средние арифметические отличаются от общей (генеральной) средней по случайным причинам.
    • Критерий Стьюдента
    • ~ t(α, df).
    • Полученное значение критерия t Стьюдента сравнивают с табличным при выбранном уровне значимости (обычно для α = 0.05) и числе степеней свободы (объемы выборок без числа ограничений, df = n1 + n2 − 2).
    • Если полученная величина критерия меньше табличной, то при данном уровне значимости и числе степеней свободы различия между параметрами недостоверны. Это говорит о том, что различия случайны, определенного вывода сделать нельзя, нулевая гипотеза остается неопровергнутой.
  • Слайд 27

    Мера варьирования величины – σ, (сигма), коэффи-циент вариации

    • «Именованность» - недостаток среднего квадратического отклонения, как мерила изменчивости признаков устраняется, если выразить этот показатель в процентах от величины средней арифметической данного распределения, Полученный таким образом показатель называется коэффициентом вариации
    • Если коэффициент вариации больше 33%, выборка неоднородна
    • Чем больше случайных факторов, чем они сильнее, тем дальше разбросаны варианты вокруг средней и тем больше среднее квадратичное отклонение.
    • Термин «случайное» - синоним слова «неизвестное», «неподконтрольное». Пока мы каким-либо способом не выразим интенсивность фактора (группировкой, градацией, числом), до тех пор он останется фактором, вызывающим случайную изменчивость.
  • Слайд 28

    Оценка репрезентативности выборки

    • В практике биометрического анализа используется относительная ошибка измерений – «показатель точности опыта» – отношение ошибки средней к самой средней арифметической, выраженное в процентах:
    • Чем точнее определена средняя, тем меньше будет ε, и наоборот. Точность считается хорошей, если ε меньше 3%, и удовлетворительной при 3 < ε < 5%
  • Слайд 29

    Оптимальный объем выборки

    • Для непрерывных признаков метод состоит в том, чтобы, используя известные соотношения между средней, стандартным отклонением, ошибкой средней, плотностью вероятности распределения Стьюдента, найти число степеней свободы, соответствующее доверительному интервалу для средней при уровне значимости α = 0.05
    • Где CV – приблизительное значение коэффициента вариации (%),
    • ε – планируемая точность оценки (погрешности) (%).
    • п – объем выборки,
    • t – граничное значение из таблицы распределения Стьюдента (таблица), соответствующее принятому уровню значимости при планируемом объеме выборки,
  • Слайд 30

    Пример оценки объема выборки

    • Рассчитаем необходимый объем условной выборки, обеспечивающий хорошую точность ε = 3%, для уровня значимости α = 0.05 (t = 1.98, для df ≈ 100) и для коэффициента вариации CV = 12% (такова относительная изменчивость многих размерно-весовых признаков животных):
    • ≈ 63 экз
  • Слайд 31

    Несколько примеров

    В процессе анализа данных, как правило, присутствуют следующие основные этапы:

    • 1. Ввод данных
    • 2. Преобразование данных
    • 3. Визуализация данных
    • 4. Статистический анализ
    • 5. Представление результатов
  • Слайд 32
    • Что позволяет программа Excel
  • Слайд 33

    Статистические показатели

  • Слайд 34
    • Длина корней проростков пшеницы
  • Слайд 35
    • Длина корней проростков гороха
    • Электрофорез, в сочетании с иммунохимическими методами (блоттинг)
    • Электрофорез
Посмотреть все слайды

Сообщить об ошибке