Презентация на тему "Поиск неструктурированной информации"

Презентация: Поиск неструктурированной информации
1 из 26
Ваша оценка презентации
Оцените презентацию по шкале от 1 до 5 баллов
  • 1
  • 2
  • 3
  • 4
  • 5
0.0
0 оценок

Комментарии

Нет комментариев для данной презентации

Помогите другим пользователям — будьте первым, кто поделится своим мнением об этой презентации.


Добавить свой комментарий

Аннотация к презентации

"Поиск неструктурированной информации" состоит из 26 слайдов: лучшая powerpoint презентация на эту тему находится здесь! Вам понравилось? Оцените материал! Загружена в 2018 году.

  • Формат
    pptx (powerpoint)
  • Количество слайдов
    26
  • Слова
    другое
  • Конспект
    Отсутствует

Содержание

  • Презентация: Поиск неструктурированной информации
    Слайд 1

    Поиск неструктурированной информации

    Информационный поиск — процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности. Виды поиска Полнотекстовый поиск (www.yandex.ru, www.google.com) Поиск по метаданным ( по атрибутам документа, поддерживаемым системой ) Поиск изображений (PolarRose, Picollator) Методы поиска 1. Адресный поиск Наличие у документа точного адреса Обеспечение строгого порядка расположения документов в хранилище системы. 2. Семантический поиск Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык. Составление поискового описания, в котором указывается дополнительное условие поиска. 3. Документальный поиск Библиотечный, направленный на нахождение первичных документов. Библиографический, направленный на нахождение сведений о документах 4. Фактографический поиск Документально - фактографический, заключается в поиске в документах фрагментов текста, содержащих факты. Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

  • Слайд 2

    Подходы к поиску информации в ГВС

    В современных условиях научно-техническая и инженерная деятельность специалистов, независимо от прикладной области, немыслима без использования распределенных информационных систем глобальной вычислительной сети, предоставляющих пользователю доступ к различным знаниям. Успех получения информации из ГВС зависит: От знания компьютерного оборудования От знания пользователя техники поиска, особенностей построения документов и баз данных в электронном виде От профессионального владения предметной областью деятельности

  • Слайд 3

    Алгоритм поиска информации в ГВС

  • Слайд 4

    Разработка предпоисковой и поисковой стратегии

    Предпоисковое взаимодействие пользователя с системой основывается на понятии информационной потребности (ИП). Границы ИП практически никогда не бывают четко определены, они стечением времени могут изменяться. Причем чем большими знаниями обладает человек, тем границы ИП шире. Информационная потребность - потребность, возникающая, когда цель, стоящая перед пользователем в процессе его профессиональной деятельности либо в его социально-бытовой практике, не может быть достигнута без привлечения дополнительной информации. Обычно используют два типа удовлетворения ИП: Информационный поиск, в котором четко определены границы поиска; Предпоисковое взаимодействие не предусматривает ведение диалога пользователя с информационной системой Информационный поиск используется для получения из систем фактографической информации Решается одноразовым ретроспективным способом Информационный поиск, в котором не определены границы поиска (в дальнейшем могут изменяться). Диалог пользователя с системой принципиально необходим Используется для получения документальной информации Решение осуществляется при помощи итеративного поискового процесса Требования к необходимости создания поискового предписания Составление типовых задач или определение своих задач Основой любого ПП является информационно-поисковый тезаурус (ИПТ).

  • Слайд 5

    Информационно-поисковый тезаурус - словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц. Формирование ИПТ объединяет следующие этапы: Набор по специализированным текстам слов и словосочетаний, характерных для исследуемой предметной области; Просмотр экспертом выявленных слов и терминологических словосочетаний; Выбор из терминологических словосочетаний дескрипторов, установление синонимии и других связей между дескрипторами; Пользователь должен сам сформировать свой ИПТ, на основе которого и производить формирование ПП.

  • Слайд 6

    В процессе формирования ПП пользователь определяет следующие декларативные компоненты: перечень стандартных фраз, в которых предусмотрено включение переменных элементов в виде ключевых слов и словосочетаний, отражающих специфику предметной области; словарь ключевых слов и словосочетаний (он может быть специфичным для каждой предметной области), из которой берутся переменные элементы.

  • Слайд 7

    Целесообразно при формировании стандартных фраз, словарей ключевых слов и словосочетаний использовать следующие смысловые аспекты: описание основной темы или предмета; описание документа, раскрывающего или уточняющего основную тему; описание, посвящённое изложению (оценке) современного состояния разработок; цель использования; описание материала или объекта использования; описание методов (методик), приёмов и способов, использованных в процессе исследования; описание технических средств, инструментов или аппаратуры; описание конкретных результатов исследований; указание на область применения результатов исследований; описание рекомендаций использования; описание возможностей и перспектив развития. Поисковое предписание должно обеспечивать соответствие информационного запроса информационным потребностям пользователя.

  • Слайд 8

    Сложность формирования ПП определяется и тем, что к пользователю предъявляется ряд требований, специфичных для специалистов в определенной предметной области. В связи с этим, пользователь должен: быть квалифицированным специалистом в той области знаний, по которой производится информационный поиск; знать структуру и правила подготовки документов, образующих массивы информации; иметь знания основ математической логики и технологии поиска информации с помощью конкретного прикладного пакета программ, т.е. знать набор используемых логических операторов, оценивать их влияние на результат поиска; знать состав и возможности лингвистических средств, из единиц которых должно быть сформировано ПП; уметь правильно формулировать запрос на поиск информации.

  • Слайд 9

    При формулировании запроса, а как следствие и подготовки ПП необходимо: минимизировать текст запроса, т.е. удалить неинформативные, а при необходимости и избыточные термины; провести лексикографическую обработку оставшихся терминов, т.е. осуществить проверку на орфографические ошибки; осуществить расстановку логических элементов; провести пополнение логических единиц ПП нижестоящими и ассоциативными дескрипторами, т.е. провести уточнение дополнительными ключевыми словами для дальнейшего уточнения поиска.

  • Слайд 10

    Инструменты, позволяющие реализовать эти стратегии

    Поисковые системы в сети Интернет CRAWLER. «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице. SPIDER (паук). браузероподобная программа, которая скачивает веб-страницы Indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками. Thedatabase (база данных): хранилище скаченных и обработанных страниц. Searchengineresults (система выдачи результатов): извлекает результаты поиска из базы данных

  • Слайд 11

    Механизм работы поисковых машин

  • Слайд 12

    Основные принципы определения релевантности следующие: Количество слов запроса в текстовом содержимом документа (т.е. в html-коде). Тэги, в которых эти слова располагаются. Местоположение искомых слов в документе. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа. Время - как долго страница находится в базе поискового сервера. Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

  • Слайд 13

    Метаданные, как механизм описания данных в сети интернет Субканальная информация об используемых данных. Структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими. Набор допустимых структурированных описаний, которые доступны в явном виде и предназначение которых может помочь найти объект. Данные из более общей формальной системы, описывающей заданную систему данных. Информация о содержащейся на веб-странице информации. Формат метаданных Дублинское ядро (DCIM) - стандарт метаданных, простой и эффективный набор для описания широчайшего диапазона сетевых ресурсов. ГОСТ Р 7.0.10-2010 (ИСО 15836:2003)

  • Слайд 14

    Описание метаданных с помощью мета тегов Мета-теги — HTML- или XHTML-теги, предназначенные для предоставления структурированных метаданных о веб-странице. Группы мета-тегов Мета-теги разделены на две основные группы — NAME и HTTP-EQUIV. Группа NAME отвечает за текстовую информацию о странице, ее авторе, а также — рекомендации для поисковых систем. Группа HTTP-EQUIV фактически эквивалентны гипертекстовым заголовкам, формируют заголовок страницы и определяют его обработку. Как правило, они управляют действиями браузеров и используются для формирования информации, выдаваемой обычными заголовками.

  • Слайд 15

    Группа NAME Мета-тег Author и Copyright (идентификация автора или принадлежности документа) Мета-тег Description (создании краткого описания страницы, индексация) Мета-тег Document-state (Static и Dynamic, индексация) Мета-тег Generator (для редактирования веб-страниц с целью саморекламы ) Мета-тег Keywords (Ключевые слова) Мета-тeг Resource-type (описывает свойство или состояние страницы) Мета-тeгRevisit (управлять частотой индексации документа ) Мeтa-тeгRobots (разрешение индексации) Мeтa-тeгSubject (Определяет тематику документа) Мeтa-тeгurl (перенаправляет робота поисковой машины по указанной ссылке)

  • Слайд 16

    Теоретико-множественная модель системы поиска НТИ Система поиска НТИ представляет собой пространство состояний Sв произвольный момент времени tивключает в себя следующие основные компоненты: S1 ― совокупность функций (заказов) на обработку информации, поставленных на исполнение и ожидающих (если таковая образовалась) в очереди; S2― использование оборудования из множества рабочих мест А; S3― привлечение персонала из множества V. Первая компонента описывает поток поступающих заданий на информационное обеспечение рассчитанной на предельное скопление заказов S1на обработку информации, еще не поступивших на исполнение. Для второй компоненты номер выполняемого задания из S1 приписывается конкретному оборудованию. На третью компоненту возлагается задача по распределению элементарных функций обработки информации из S1 между оборудованием S2 и персоналом S3.

  • Слайд 17

    Теоретико-множественная модель системы поиска НТИ Обработка информации, необходимой для информационной поддержки инновационной деятельности наукоемкого промышленного предприятия, включает следующие элементарные функции: 1(µ,) – прием задания заказчика (оператора) µ на обработку информации с объекта ; 2(b,g) – доступ к информационному ресурсу bс целью поиска по заданным в заказе признакам информационного объектаg; 3(g,ПА) – поиск и обработка информационного объекта с признаками gпо варианту сложности (уровню аналитической нагрузки) ПА с использованием существующих систем обработки информации в сети интернет; 4(,y) – перенос копии информационного носителя с использованием средств доставки y; 5(µ,y) – отправка результата обработки информации заказчику µ с использованием средств доставки y. Отсюда, функция  опишется композицией элементарных функций:

  • Слайд 18

    Математическая постановка задачи поиска НТИ сети интерент Первую группу задач Вторая группа задач Пертине́нтность (pertineo— касаюсь, отношусь) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. 6(γ,λ) – разработка тематического запроса γна аналитическую обработку информации λ.

  • Слайд 19

    Информационная модель процесса обработки информации в сети интернет Для представления процесса обработки информации в сети интернет в качестве информационного объекта zрассмотрим элементарный фрагмент информации информационного ресурса Z, Описать информационный объект (запись) можно четверкой: Аz- алфавит (русский, латинский, …); Rz- разделительные знаки (« » – пробел, :, -, …); Ψz- словарь, являющийся языком в алфавите А: Lz-язык информационного объекта: Произвольная совокупность записей ИР Z1, также опишется четверкой: Пz – полный набор всех возможных записей ИР характеризующегоинформацию находящеюся на данном ресурсе.

  • Слайд 20

    Модель обработки информации в сети интернет Обработка информации в сети интернет относится к классу итеративных задач. - среднее время решения одной задачи; - эфирное время обработки информации в РИС сети интернет; - среднее число входящих в нее процедур обработки; - средняя продолжительность одной процедуры обработки.

  • Слайд 21

    Модель обработки информации в сети интернет Время одной процедуры обработки информации складывается из двух разнохарактерных по реализации составляющих: - время затрачивается на аналитическую работу по построению очередной функции обработки информации, - время на ее решение в интернет, т.е. машинной составляющей, связанной с работой вычислительных и коммуникационных средств.

  • Слайд 22

    Модель обработки информации в сети интернет Аналитическая составляющая лежит в основе: Формирования тезаурусов ПО, необходимых для составления поисковых предписаний (ПП) на обработку информации, и предусматривает использование имитационных моделей синонимии, дедукции и индукции. Синонимия используется для расширения ПО, Дедукция – для формирования тезаурусов с использованием подхода от общего к частному, Индукция – для формирования тезаурусов с использованием подхода от частного к общему. Аналитическая составляющая базируется на использовании известных рубрикаторов (ГРНТИ, УДК, МПК и других). Тезаурусы формируются как тезаурусы КС и дескрипторов. Сформированные тезаурусы лежат в основе составления оптимальных ПП, отражающих в своей сути искомый поисковый образ документа (ПОД) в РИС сети интернет.

  • Слайд 23
  • Слайд 24
  • Слайд 25

    1. Анализ и краткое описание предметной области. 2. Выявление(определение) информационной потребности. 3. Формирование информационно-поисковых задач. 4. Определение поисковой стратегии: Поиска структурированной информации Определение предметной области поиска информации (ГРНТИ, УДК, МПК и т.п.) Составление списка ключевых слов. Формирование дескрипторов Формирование поисковых предписаний Поиска неструктурированной информации Определение предметной области поиска информации (ГРНТИ, УДК, МПК и т.п.) Составление списка ключевых слов. Формирование дескрипторов (Эталонных) Формирование словоформ (Словарь Зализняка) Формирование синонимии (Синонимов) Расширение предметной области поиска информации ((ГРНТИ, УДК, МПК и т.п., по методу дедукции и индукции)) Формирование дескрипторов с учетом синонимов и расширения ПО Формирование поисковых предписаний

  • Слайд 26

    Ключевые слова Дескрипторы Ключевые слова и словоформы Дескрипторы и синонимы Дескрипторы и синонимы с учетом расширенной предметной области Все перечисленные выше комбинации вместе. 5. Выбор инструментов и механизмов поиска информации: Структурированной информации Неструктурированной информации 6. Осуществление поиска информации. Комбинация поискового предписания n,n+1,…. Результат поиска (Релевантный, только ссылки, не менее 200 просмотренных ссылок) Результат поиска (Пертинентный, полный текст) Процент результативности (Отношение релевантных документов к пертинентным) 7. Выводы по информационному поиска

Посмотреть все слайды

Сообщить об ошибке