Содержание
-
Поиск информации.
Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск 2009 г.
-
Поиск информации
2 Задача, которую человечество решает уже многие столетия.
-
3 Все найденные за много лет средства и приемы поиска информации доступны и эффективны и при поиске информации в Интернет.
-
“ПЕРТИНЕНТНЫЙ ДОКУМЕНТ”
4 Слово “пертинентный” происходит от английского “pertinent”, что значит “относящийся к делу, подходящий по сути”.
-
Цель информационного поиска
5 Найти все пертинентные и только пертинентные документы (мы хотим найти “только то, что хотим, и ничего больше”). Эта цель - идеальна и пока недостижима.
-
6 Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются - “ШУМ”.
-
7 Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена средствами, которые “понимает” ИПС - должен быть сформулирован ЗАПРОС.
-
РЕЛЕВАНТНОСТЬ
8 Степень соответствия документа запросу.
-
9 Виды информационно поисковых систем
-
Классификационные ИПС
10 В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ.
-
11 Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог.
-
Предметная ИПС Web-кольца
12 Поиск названия нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет.
-
Словарные ИПС
13 Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.
-
14 Два основных алгоритма работы словарных ИПС: -с использованием ключевых слов, -с использованием дескрипторов.
-
Использование ключевых слов
15 Для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность.
-
Использование дескрипторов
16 Индексируемые документы переводятся на некоторый дескрипторный информационный язык. Дескрипторный информационный язык, как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами.
-
Ранжирование результатов поиска
17 Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.
-
Критерии при ранжировании в ИПС
18 наличие слов из запроса в документе, их количество, близость к началу документа, близость друг к другу; наличие слов из запроса в заголовках и подзаголовках документов; количество ссылок на данный документ с других документов; «респектабельность» ссылающихся документов.
-
Современные проблемы поисковых систем
19 Когда эти технологии разрабатывались никто из разработчиков не представлял себе, что Интернет станет глобальной информационной средой.
-
Архитектура
20 crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках изменений на страницах; indexer (индексатор) - индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним; gateway (шлюз) - осуществляет прием запросов от пользователей и выдачу им информации из базы данных.
-
Алгоритмы поиска и ранжирования
21 Основной проблемой современных поисковых систем является то, что по причине фактически устаревшей архитектуры они не могут обеспечить качественный поиск информации.
-
Основные моменты новой архитектуры ИПС
22 Переход к распределенной модели вычислений; Переход от модели «один поиск на всех» к модели персонального поиска; Переход от критериев релевантности к критерию пертинентности; Переход от поиска только текстовой информации к распознаванию и поиску мультимедийной информации.
Нет комментариев для данной презентации
Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.