Содержание
-
Что такое биоинформатика
- С.А.Спирин
- 7, 8,10 февраля 2006 г., ФББ МГУ
-
- Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции).
- Изучение и внедрение в компьютерную науку «биологических» методов анализа информации (нейросетей, генетических алгоритмов, нечеткой логики и др.).
- Применение компьютерных методов для решения биологических задач.
- Телепатия, парапсихология, информационные поля и т.п.
- ?
-
Биоинформатика
- Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции).
- Изучение и внедрение в компьютерную науку «биологических» методов анализа информации (нейросетей, генетических алгоритмов, нечеткой логики и др.).
- Применение компьютерных методов для решения биологических задач.
- Телепатия, парапсихология, информационные поля и т.п.
-
Примеры задач биоинформатики
- Разработка алгоритмов для анализа большого объема биологических данных
- Алгоритм поиска генов в геноме
- Анализ и интерпретация биологических данных таких, какнуклеотидные и аминокислотные последовательности, структура молекул белков, структура комплексов молекул белков с другими молекулами.
- Изучение структуры активного центра белка
- Разработка программного обеспечения для управления и быстрого доступа к биологическим данным
- Создание банка данных аминокислотных последовательностей
-
Что понимать под биоинформатикой
- Как видим, смысл термина ещё ỳже...
- Применение компьютерных методов для решения биологических задач
- Применение компьютерных методов для решения задач
- молекулярной биологии
- ... и еще ỳже...
- Компьютерный анализ экспериментальных данных о структурах биологических макромолекул (белков и нуклеиновых кислот) с целью получения биологической информации
-
Итак
- Биоинформатика = вычислительная молекулярная биология
- Почему так сузился смысл термина?
-
- gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg
- ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct
- ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa
- gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg
- ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa
- agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa
- attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat
- aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga
- gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc
- tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga
- acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta
- cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag
- ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa
- aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata
- cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga
- gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac
- tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg
- acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc
- tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa
- acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca
- ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac
- ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa
- actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag
- gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct
- ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac
- ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa
-
- В конце 1970-х годов был изобретён относительно
- быстрый и дешёвый метод экспериментального определения
- последовательности оснований в ДНК
- Организм
- ДНК «в пробирке»
- Последовательность
- выделение
- секвенирование
- ...TGCCACAAATCAC...
-
- GenBank — хранилище последовательностей нуклеиновых кислот в виде компьютерных файлов
- Объем GenBank'а:
- 1982: 680 338 букв в 606 последовательностях
- 1992: 101 008 486 букв в 78 608 последовательностях
- 2002: 28 507 990 166 букв в 22 318 883 последовательностях 2004: 44 575 745 176 букв в 40 604 319 последовательностях 2005:56 037 734 462 букв в 52 016 762 последовательностях (из ~165 000 организмов)
- Размер файлов — 196 Gb
-
Пионеры биоинформатики
- Лайнус Полинг
- 1962
- Zuckerkandl, E., and L. Pauling. 1962. Molecular disease, evolution, and genic heterogeneity. Horizons in Biochemistry, Academic Press, New York, 189-225.
- Zuckerkandl, E., and L. Pauling. 1965. Evolutionary divergence and convergence
- in proteins. Evolving Genes and Proteins, Academic Press, New York, 97-166.
- Анализ аминокислотных последовательностей глобинов нескольких позвоночных
- Гипотеза молекулярных часов
-
- Маргарет Дейхофф
- Однобуквенный код аминокислот
- A,C,D,E,F,G,H…
- Матрицы аминокислотных замен PAM (Point Accepted Mutation)
- 1965
- Атлас последовательностей белков и их структур (1965)
-
Первый “банк данных”
- Атлас белковых последовательностей и их структур
- 1965-1978
- Первая версия атласа содержала описание 65 (!) последовательностей белков
-
Банки данных
- Архивные (примеры: PDB, GenBank) за содержание каждой записи отвечает её автор-экспериментатор
- Курируемые за содержание записей отвечают специальные люди — кураторы
- Автоматические записи генерируются компьютерными программами
-
Банк данных Swiss-Prot
- 1986
- Swiss-Prot – база знаний о белковых последовательностях
- http://www.expasy.org/sprot/
- Курируемая база данных
- “Золотой стандарт" аннотации
-
- Амос Байрох
- Руководитель группы Swiss-Prot в Швейцарском Институте Биоинформатики
- С 1987 поддерживается в сотрудничестве между
- Swiss Institute of Bioinformatics (SIB)
- European Bioinformatics Institute (EBI)
-
- Статистика роста
- количества документов
- Текущий релиз 48.9 (24 января 2006) содержит 206586 документов
- 1986
- 2006
- 2001
-
Банк данных TrEMBL
- Формальная трансляция всех кодирующих нуклеотидных последовательностейиз банка EMBL
- Автоматическая классификация и аннотация
- TrEMBL (Translated EMBL)
- Текущий релиз 31.9 (24 января 2006) содержит 2 586 884 документа
-
Тенденция объединения
2002
-
Банк данных UniProt
- UniProt (Universal Protein Resource)
- UniProt Knowlegebase – SwissProt+TrEMBL
- UniProt Archive – UniParc
- UniProt Reference – UniRef
-
- ~2 500 000
- последовательностей
- DDBJ
- EMBL
- GenBank
- ttttacctctttttagtgatattgtgatatagagcaaaaatcccgacattgtgtcgggattgtttttaaactcttgttgattttaatttttcaatcgcttctttattaaagaagtagtgtgtgccacaacactcacattgcatatcaatacggcctttatgttcggctaatatttcgtcaatttcttcatcagagatgagcagtagatgcagaactagaacgctcagcagagcagccacagaaaaattgtacatcttgtgctggataaagattaacggtttcttcgtgatataaacgataggagtaactcttctgcagggagaccaaataattcttcatcttttactgttgctgcgagcgtagttaaatgctcaaaatcttctggtgtaccagaaccatcaggcataatttgtaataacatacctgctgccactggcttgccttcatattctccagtacgaataattaattgagtttgaagactcatattttcagtgaagtttcgatcgcccttaggaggggccgcgctttctctttcaa
- компьютерный поиск гена, трансляция и компьютерная аннотация
- UniRef
- (UniProt
- non-redundant
- Reference
- databases)
- PIR-PSD
- UniParc(UniProt Archive)
- 200 000 последовательностей
- Экспертиза
- Базы данных
- научной литературы
-
Соотношение числа белков,представленных в разных банках
- 3 078 524
- 33 321
- 206 586
- Последовательностей во много раз больше, чем структур!
- Большинство последовательностей не аннотированы!
-
Документ банка данных Swiss-Prot
- Описание документа: идентификатор,
- имя, дата создания и модификации
- Аннотация
- последовательности
- Последовательность
-
Основные поля записи SwissProt
- ID
- AC
- DE
- OS
- OC
- И сама последовательность, конечно.
Посмотреть все слайды
Нет комментариев для данной презентации
Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.