Содержание
-
Корпусная лингвистика. Обзор корпусов. Сферы использования корпусов
-
Корпусная лингвистика – раздел компьютерной лингвистики, разрабатывающий общие принципы построения и использования лингвистических корпусов с применением компьютерных технологий. Объект – корпус текстов. Лингвистический, или языковой, корпус текстов – большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Предмет – теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей.
-
История корпусной лингвистики
Брауновский корпус (The Brown Corpus) (1960-е гг.) корпус Ланкастер-Осло-Берген (The Lancaster-Oslo-Bergen Corpus) (1970-е гг.) У. Френсис (1910 – 2002) Г. Кучера (1925 - 2010) Создатели Брауновского корпуса
-
Классификация корпусов
Письменные (Брауновский корпус, LOB); Устные: Корпус Лондон-Лунд (The London-Lund Corpus); Смешанные (НКРЯ). Тип языковых данных: Одноязычные; Двуязычные; Многоязычные. «Параллельность»: Литературные; Диалектные; Разговорные (корпус Один Речевой День); Терминологические; Смешанные. «Литературность»:
-
Многоцелевые; Специализированные. Цель: Литературные; Фольклорные; Драматургические; Публицистические. Жанр: Свободно доступные; Коммерческие; Закрытые. Доступность: Динамические (мониторные); Статические. Динамичность:
-
Требования к национальному корпусу
1. Необходимый и достаточный объём. 2. Достаточно протяжённый хронологический охват языка. 3. Репрезентативность выборки текстов. 4. Тексты должны пройти филологическую экспертизу. 5. Тексты должны быть представлены в электронной форме. 6. Многопрофильная система аннотирования. 7. Многофункциональность корпуса. 8. Общедоступность.
-
http://corpus.byu.edu/coca/
-
-
http://www.natcorp.ox.ac.uk/
-
Упсальскийкорпус русского языка
Упсальский университет (Швеция) Специальные тексты с 1985 по 1989 год и художественные тексты с 1960 по 1988 год.
-
Компьютерный корпус текстов русских газет конца XX-ого века
Место и время создания: Филологический факультет МГУ, Лаборатория общей и компьютерной лексикологии и лексикографии, 2000-2002 гг. Состав – полные тексты избранных номеров ряда российских газет на русском языке, опубликованных в 1994 – 1997 гг. Доступ в Интернете – http://www.philol.msu.ru/~lex/corpus/
-
http://ruscorpora.ru/
-
Сферы использования лингвистических корпусов
3 типа данных: эмпирическая поддержка; информация по частотности; метаинформация.
-
2. Программирование, компьютерная лингвистика. 3. Методика преподавания родного языка. 4. Методика преподавания иностранного языка. 5. Журналистика, редактирование. 6. Переводоведение. 7. Литературоведение. 8. Текстология. 9. Судебно-лингвистическая экспертиза. 10. Другие общественные науки.
-
Литература
Баранов А.Н. Введение в прикладную лингвистику: учеб. пособие. М., 2001. Грудева Е.В. Корпусная лингвистика: учеб. пособие. М., 2012. Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. Иркутск, 2011. Корпусная лингвистика [Электронный ресурс]. URL: http://corpora.iling.spb.ru/. Плунгян В.А. Зачем нужен Национальный корпус русского языка? Не- формальное введение // Национальный корпус русского языка: 2003 – 2005. М., 2005. С. 12 – 17. Плунгян В.А. Почему современная лингвистика должна быть лингвистикой корпусов [Электронный ресурс]. URL: http://www.polit.ru/article/2009/10/23/corpus.
Нет комментариев для данной презентации
Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.