Содержание
-
- Информационные технологии в биологических исследованиях
- Раздел: «Информационные технологии и математическая обработка результатов биологического эксперимента»
- Лекция 2: «Первичный анализ и обработка данных»
-
Базовые понятия и операции первичной обработки экспериментальных данных
- 1. Распределения, их виды и характеристики
- 2. Оценка сильно отклоняющихся значений
- 3. Основные параметры совокупности – средняя, арифметическая, ошибка средней, достоверность
- 4. Мера варьирования величин – среднеквадра-тичное отклонение, коэффициент вариации
- 5. Оценка репрезентативности выборки
- 6. Некоторые конкретные примеры
-
- Вбиологических исследованиях основной интерес представляют сведения, относящиеся не к индивидуальному объекту, а к целой группе или некоторому статистическому среднему объекту.
- Необходимость использования статистических методов в биологических исследованиях связана с тем, что свойства биологических объектов варьируют в пределах популяции, а физиологические и другие параметры одной особи испытывают флуктуации во времени.
-
Статистическая совокупность – это и объекты исследования и полученные данные
- Объекты каждого исследования (растения, животные, микроорганизмы, урожаи с опытных делянок или вегетационных сосудов, образцы плодов, семян и пр.) образуют общую, или генеральную, совокупность.
- Термин совокупность относят и к полученным в опыте или путем наблюдений числам, характеризующим с какой-либо одной количественной стороны объекты, входящие в данную генеральную совокупность.
- В статистическую совокупность следует включать лишь числа, относящиеся к качественно однородным признакам (свойствам) объекта исследования.
-
- Признаки (их количественная мера, варианта) варьируют случайным образом по причине естественной изменчивости и ошибок измерений
- Основное – естественная изменчивость, вызванная биологическими причинами
- Характер самого наблюдаемого явления, особенности причин, вызывающих колебания данного признака определяют особенности колебаний данных.
- Вычисления можно проводить как угодно точно, но результат вычисления не может быть точнее тех данных, на которых оно основано
-
Распределения
- Чаще всего в природе наблюдается закономерность: большие по величине колебания данных встречаются значительно реже, чем меньшие по величине
- Большинство членов статистической совокупности оказывваются среднего или близкого к нему размера.
- Чем дальше они отстоят от среденего уровня, тем реже стречаются.
- Существует связь между числовыми значениями варьирующих признаков и частотой их встречаемости в данной совокупности - это и есть распределение
-
Пример распределения
- Вариационный ряд
- В случае, если глубина выборки, т. е. количество чисел, полученных в результате измерений, невелико, можно составить вариационный ряд
- Например, подсчет количества глазков в 25 клубнях картофеля.
- Всего: 6, 9, 5, 7. 10, 8 9 10 8 11, 9. 12, 9, 8, 10, 11, 9, 10, 8, 10, 7, 9, 11, 9, 10.
-
Непрерывное распределение
- где f' частоты нормальной кривой; х — варианты (середины классов) ряда
-
Нормальное распределение
- Распределение – это соотношение между значениями случайной величины и частотой их встречаемости. Большое число случайных величин, распространенных в природе, может быть описано с помощью закона нормального распределения, который задается уравнением:
- где f' — теоретические частоты нормальной кривой; N — объем выборки; с — классовый интервал; σ — среднее квадратическое отклонение; е — основание натуральных логарифмов; t =(х— М)/ σ — нормированное отклонение; М — средняя арифметическая; х — варианты (середины классов) ряда
-
Характеристики нормального распределения
- Основные параметры нормального распределения – среднее арифметическое (М) и среднеквадратическое отклонение – сигма (σ)
- На расстоянии М + σ и М - σ от среднего значения на графике нормальной кривой расположены абсциссы ее двух точек перегиба, которые показывают переход от типичных величин вариант совокупности к нетипичным, хотя и принадлежащих еще к данной совокупности.
- В интервале нормы, между абсциссами, от М - σ до М + σ находится 68,27% всей площади нормального распределения, т. е. вариант, или дат совокупности; между М - 2σ и М+2σ заключается 95,45% дат от всего объема и в интервале от М - 3σ до М+3σ лежит 99,73% от всего объема нормально распределенной совокупности.
-
Биномиальное распределение
- Где f частоты,
- Nn – число проб,
- t – нормированное отклонение, (x-M)/σ,
- c – классовый интервал.
- Относится к дискретным величинам, то есть к тем, которые могут быть представлены только целыми числами. Например, глазков в картофелине может быть только целое число и т.д.
- В общем виде.
-
Характеристики биномиального распределения
- Во многом близко к нормальному. Отличие состоит лишь в том, что оно характеризует поведение дискретных признаков,
- выраженных целыми числами.
- Как правило, для описания биологических признаков подходит симметричное биномиальное распределение, у которого дисперсия много меньше средней.
- Выборка при биномиальном распределении обычно образуется, когда берут Nnпроб одинакового объема, равного n
- Вероятность появления события постоянна для кажлой пробы (лист растения либо заразится грибом, либо нет)
- Два исхода – поэтому бином
-
Распределение Пуассона
- Частный случай биномиального распределения:
- Вариант описания стохастического поведения дискретных количественных признаков для случаев, когда вероятность элементарных альтернативных событий неодинакова, одно из них наблюдается заметно чаще другого (p << q).
- Закон Пуассона описывает редкие события, происходящих 1, 2, 3 и т. д. раз на сотни и тысячи обычных событий.
- Примеры таких явлений – частота нарушений хромосомного аппарата на каждую тысячу митозов, встречаемость семян сорняка в большой серии навесок семян культурного растения, число повторных попаданий животных в ловушки.
-
Пример распределения Пуассона
- Распределение Пуассона резко асимметрично, причем дисперсия равна средней арифметической, что может служить критерием для оценки характера распределения изучаемого признака .
- Пример. В течение одного года пометили кольцами и выпустили на волю 32 птицы. В последующие пять лет часть из них отлавливали повторно: 7 экз. по одному разу, 7 – по два, 2 – по три, 1 экз. – четыре раза, 15 экз. окольцованных птиц повторно не попадались:
-
- Расчеты показали, что средняя арифметическая (M) примерно равна дисперсии (σ²)
- = 0.968 экз
- 1.121 экз., σ² = 1.257,
- σ² ≈ M
-
Распределение Пуассона
- где f' — теоретические частоты распределения Пуассона, т. е. число проб, обладающих той или иной долей наблюдаемого признака; х — варианты, отдельные значения наблюдаемого признака; х!— (икс-факториал) обозначает произведение ряда натуральных чисел, например: 3! = 1-2-3 = 6; М — средняя арифметическая данного ряда; Nп — общее число проб
-
- При возрастании произведения np - (вероятная частота ожидаемого события) распределение Пуассона стремится к нормальному
-
Оценка сильно отклоняющихся вариант
- Относится ли данная варианта вместе с другими вариантами изучаемой выборки к одной и той же генеральной совокупности или – к разным?
- Сформировано ли данное значение варианты под действием тех же доминирующих и случайных факторов, что и все остальные варианты данной выборки, или это были иные факторы?
2 возможных ответа:
- 1. Факторы те же, т. е. все варианты взяты из одной и той же генеральной совокупности.
- 2. Факторы иные, т. е. особенная варианта и выборка порознь взяты из разных генеральных совокупностей
-
Ответ можно получить с использованием свойств нормального распределения
- Если все варианты были взяты из одной генеральной совокупности, они должны отличаться друг от друга только в силу случайных причин и (с вероятностью P = 0.95) находиться в диапазоне M ± 2 σ.
- Эта величина, нормированное отклонение, и служит безразмерной характеристикой отклонения варианты от средней арифметической:
- ~tтабл
- .,
- где t – критерий выпада (исключения),
- x – выделяющееся значение признака,
- М – средняя величина для группы вариант,
- tтабл. – стандартные значения критерия выпадов, определяемые свойствами нормального распределения, их можно найти по таблице
- Для больших выборок пользуются значением tтабл. = 2 при P = 0.95,
-
- Значение критерия t для отбраковки «выскакивающих» вариант с известными параметрами распределения
-
- Когда параметры распределения неизвестны, можно использовать сравнение различий максимальной и минимальной вариант, «размах» значений ряда. Для этого существуют два критерия, для максимальной и минимальной вариант
- Имеется ранжированный ряд, где представлена высота растений одного вида (в см)
- 8277 74 74 73 66 64 63 63 62 54 4443
- Табличное значение критерия для N = 13 составляет 0,52 > 0,13, т. е. больше, чем вычисленная величина. Варианту нельзя исключать из выборки.
- Для максимальной
- Для минимальной
- Полученное значение меньше табличного 0,029<0,520, поэтому данное значение отбрасывать также не стоит.
-
Средняя арифметическая, среднеквадратическое отклонение, ошибка средней, достоверность
- Насколько статистические оценки совпадают с истинными, свойствами генеральной совокупности?
- Для вычисления статистической ошибки выборочной средней M используется формула
- Стандартное отклонение отражает разброс всех вариантов относительно средней, а стандартная ошибка показывает пределы, в которых, с известной вероятностью, может располагаться средняя величина.
- В интервале M ± 1m средняя величина генеральной совокупности может находиться с вероятностью 68.3 %, в интервале M ± 2m - с вероятностью 95.5 %, а в пределах M ± 3m - с вероятностью 99.7 %.
-
- Метод нахождения доверительных интервалов в случае анализа небольших выборок найден английским статистиком Госсетом, известном под псевдонимом Стьюдент
- Величина tпоказывает, во сколько раз необходимо увеличить стандартную ошибку выборочного статистического параметра для того, что бы при определенном уровне вероятности судить о тех пределах, в которых располагается генеральное значение.
- Величина t напрямую зависит лишь от уровня вероятности P и числа степеней свободы n, которое равно глубине выборки -1. (объем выборки без числа ограничений)
- В большинстве биологических исследований принимают P=0.95 (то есть 95 случаев из 100), в наиболее ответственных случаях - 0.99 или 0.999
-
Сравнение средних величин
- В биологических экспериментах особое значение имеют различия, на основании которых судят об эффективности действия тех или иных факторов, например, по разности между опытной и контрольной группами делают заключение о результатах опыта.
- Важно оценить статистическую достоверность разности, т. е. определить, можно ли данное различие считать закономерным, характерным для всей генеральной совокупности и рассматривать его как результат действия особенных факторов, или же оно случайно и является следствием недостаточного количества данных и в следующих опытах может не проявиться
- Обнаружение достоверных отличий статистических параметров – первый шаг к познанию новых биологических закономерностей, причем количественно доказанных
-
Критерии достоверности отличий
Сравнения выборочных средних – это вопрос о том, действовал ли при составлении одной из выборок новый систематический фактор по сравнению с другой выборкой
Отличия между средними могут иметь два противоположных источника:
- 1. Обе выборки взяты из одной генеральной совокупности, но средние отличаются в силу ошибки репрезентативности.
- 2. Выборки взяты из разных генеральных совокупностей, отличие средних вызвано, в основном, действием разных доминирующих факторов (а также и случайно).
Исходно предполагается (Но): «достоверных отличий между средними нет»
-
- Поскольку выборочные средние имеют нормальное распределение, критерий отличия двух выборочных средних также базируется на свойствахнормального распределения: в границах Mобщ.±1.96∙m (или приблизительно Mобщ.± 2∙m) выборочные средние арифметические отличаются от общей (генеральной) средней по случайным причинам.
- Критерий Стьюдента
- ~ t(α, df).
- Полученное значение критерия t Стьюдента сравнивают с табличным при выбранном уровне значимости (обычно для α = 0.05) и числе степеней свободы (объемы выборок без числа ограничений, df = n1 + n2 − 2).
- Если полученная величина критерия меньше табличной, то при данном уровне значимости и числе степеней свободы различия между параметрами недостоверны. Это говорит о том, что различия случайны, определенного вывода сделать нельзя, нулевая гипотеза остается неопровергнутой.
-
Мера варьирования величины – σ, (сигма), коэффи-циент вариации
- «Именованность» - недостаток среднего квадратического отклонения, как мерила изменчивости признаков устраняется, если выразить этот показатель в процентах от величины средней арифметической данного распределения, Полученный таким образом показатель называется коэффициентом вариации
- Если коэффициент вариации больше 33%, выборка неоднородна
- Чем больше случайных факторов, чем они сильнее, тем дальше разбросаны варианты вокруг средней и тем больше среднее квадратичное отклонение.
- Термин «случайное» - синоним слова «неизвестное», «неподконтрольное». Пока мы каким-либо способом не выразим интенсивность фактора (группировкой, градацией, числом), до тех пор он останется фактором, вызывающим случайную изменчивость.
-
Оценка репрезентативности выборки
- В практике биометрического анализа используется относительная ошибка измерений – «показатель точности опыта» – отношение ошибки средней к самой средней арифметической, выраженное в процентах:
- Чем точнее определена средняя, тем меньше будет ε, и наоборот. Точность считается хорошей, если ε меньше 3%, и удовлетворительной при 3 < ε < 5%
-
Оптимальный объем выборки
- Для непрерывных признаков метод состоит в том, чтобы, используя известные соотношения между средней, стандартным отклонением, ошибкой средней, плотностью вероятности распределения Стьюдента, найти число степеней свободы, соответствующее доверительному интервалу для средней при уровне значимости α = 0.05
- Где CV – приблизительное значение коэффициента вариации (%),
- ε – планируемая точность оценки (погрешности) (%).
- п – объем выборки,
- t – граничное значение из таблицы распределения Стьюдента (таблица), соответствующее принятому уровню значимости при планируемом объеме выборки,
-
Пример оценки объема выборки
- Рассчитаем необходимый объем условной выборки, обеспечивающий хорошую точность ε = 3%, для уровня значимости α = 0.05 (t = 1.98, для df ≈ 100) и для коэффициента вариации CV = 12% (такова относительная изменчивость многих размерно-весовых признаков животных):
- ≈ 63 экз
-
Несколько примеров
В процессе анализа данных, как правило, присутствуют следующие основные этапы:
- 1. Ввод данных
- 2. Преобразование данных
- 3. Визуализация данных
- 4. Статистический анализ
- 5. Представление результатов
-
- Что позволяет программа Excel
-
Статистические показатели
-
- Длина корней проростков пшеницы
-
- Длина корней проростков гороха
- Электрофорез, в сочетании с иммунохимическими методами (блоттинг)
- Электрофорез
Нет комментариев для данной презентации
Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.