Презентация на тему "Про internet"

Скачать презентацию (3.12 Мб)
0 загрузок
0.0 оценка

1 из 81

ВКонтакте Одноклассники Мой Мир Телеграм

Ваша оценка презентации

Оцените презентацию по шкале от 1 до 5 баллов

0.0

0 оценок

Аннотация к презентации

Посмотреть и скачать презентацию по теме "Про internet", включающую в себя 81 слайд. Скачать файл презентации 3.12 Мб. Большой выбор powerpoint презентаций

Формат

pptx (powerpoint)
Количество слайдов

81
Слова

другое
Конспект

Отсутствует

Содержание

Слайд 1
Про Internet

А.В. Цыганов 2011
Слайд 2

65% startup компаний приходится на создание поисковых систем
Слайд 3

Виды поиска в WWW поиск поизвестным адресам Тематические каталоги Поисковые машины Специализированный поиск в базах данных (резервирование, поиск справочной информации о людях, организациях …) Wikipedia, arXiv, Math World, Planet Math, Science World, Physics.org, The Math Forum, S.O.S. Mathematics, www.springerlink.com, www.iop.orgи.т.д.
Слайд 4

Критерии профессионального поиска: контроль полноты охвата ресурсов; контроль достоверности информации, полученной из Сети (точность); высокая скорость проведения поиска; удобство, понятность и пр. субъективные критерии
Слайд 5

Релева́нтность (relevant) - степень соответствия запроса и найденного, уместность результата. Это субъективное понятие, поскольку результаты поиска, уместные для одного пользователя, могут быть неуместными для другого. Релевантным называется документ или страница в интернете, которая формально соответствует сути сделанного через поисковую систему запроса. При оценке релевантности информации, найденной в интернете, оценивается полнотаинформации, означающая, что ничего из имеющегося в интернете не потеряно точность, показывающая, что не найдено ничего лишнего из имеющейся в сети информации.
Слайд 6

Что влияет на релева́нтность?
Что такое релевантность и пертинентность, как сделать релевантный сайт, как оценить релевантность сайта, определение релевантности …… Чтотакое релевантность….. ….Вопросы поиска необходимой информации в интернете, представляющем из себя огромное информационное пространство с массой содержащихся разнообразных информационных данных, потребность в которых испытывают все пользователи всемирной сети, являются очень важными и требующими пристального внимания со стороны разработчиков поисковых систем
Слайд 7

Семантические показатели - основаны на оценке релевантности между документами и запросами Полнота выдачи (ПВ) а – множество релевантных и выданных системой документов b – множество релевантных, но не выданных системой документов Потери информации (ПИ) а – множество релевантных и выданных системой документов b– множество релевантных, но не выданных системой документов
Слайд 8

Точность выдачи (ТВ) а – множество релевантных и выданных системой документов c – множество нерелевантных, но выданных системой документов Информационный шум (ИШ) а – множество релевантных и выданных системой документов c– множество нерелевантных, но выданных системой документов
Слайд 9

Пертинентность Пертинентность(рertinence) – субъективно оцениваемое соответствие полученной информации информационной потребности пользователя. Грубо говоря это отношение объемаполезной для пользователя информации к объему информации полученной по запросу, т.е. КПД поиска. Можно улучшить, используя учёт прошлых интересов данного пользователя, учёт поведения пользователей на поисковике, уточнение формулировок запросов, ранжирование по весовым критериям, ограничение числа выданных в результате поиска документов…… В свое время Google реализовала новые алгоритмы достижения неформальной релевантности (пертинентности) и благодаря этому стала самой популярной ПС в интернете…..
Слайд 10

При создании сайтов, кроме решения важных вопросов дизайна сайта и его наполненности, необходимо оценивать релевантность и пертинентность сайта, с точки зрения отношения к нему существующих поисковых систем.
Слайд 11

Алгоритм + Структура данных = Поисковая система Как и любая программа, поисковая система оперирует со структурами данных и исполняет алгоритм. В настоящее время есть четыре класса поисковых алгоритмов. Три алгоритма из четырех требуют «индексирования», предварительной обработки документов, при котором создаются вспомогательный файл, сиречь «индекс», призванный упростить и ускорить сам поиск. Это алгоритмы инвертированных файлов, суффиксных деревьев и сигнатур. Четвертый класс алгоритмов прямого поиска не требует индексирования.
Слайд 12

Анатомия поисковой системы Любая поисковая система содержит три базовых части: Робот - краулер, спайдер, индексатор …..Извлечение и накопление данных документов. Базы данных - обработка полученных данных и создание данных, пригодных для поиска. Клиент – обработка запросов (поиск по созданным данным). Существует масса других частей, однако их назначение заключается главным образом именно в эффективной поддержке этих трёх базовых.
Слайд 13

Анатомия поисковой системы (2)
Слайд 14

Анатомия поисковой системы (3)
Слайд 15

Web spider или Web scraper – это разновидности программных роботов или агентов (в терминологии, предложенной Аланом Кеем (Alan Kay) в начале 1980-х годов). Программный агент должен действовать в качестве посредника (proxy) между пользователем и компьютерным миром. Такой агент может иметь определённую цель и должен работать над достижением этой цели в отведённой ему области. Цельможет состоять в сборе информации или в понимании структуры какого-либо Web-сайта и его полезности. Такие пауки автоматически извлекают данные из Web-сайта ( например HTML-код документа) и передают их другим приложениям, которые индексируют контент этого Web-сайта с целью формирования наилучшего набора поисковых терминов. «Паук» (spider)
Слайд 16

"Web-скребок" (Webscraper) – это агент, который действует аналогично Web-паукам, но более интересен с юридической точки зрения. Scraper– это разновидность паука, которая нацелена на работу с определённымИнтернет-контентом, например, с данными о стоимости продуктов или услуг. Один из вариантов применения scraper-агентов – конкурентное ценообразование, т. е. выявление существующих на рынке цен на определённую категорию товаров с целью установления соответствующих цен на собственную продукцию. Кроме того, scraper способен объединять данные из нескольких источников в Интернете и предоставлять эту итоговую информацию пользователю и т.д.
Слайд 17

Глаза и ноги паука Основными органами зрения и перемещения Web-паука в Интернете является HTTP – ориентированный на сообщения протокол, с помощью которого клиент подключается к серверу и посылает запросы. В ответ на эти запросы сервер генерирует отклик. Каждый запрос или отклик состоит из заголовка и тела. Заголовок содержит информацию о состоянии и описание содержимого тела. Протокол HTTP поддерживает запросы трех основных типов. Запрос типа HEAD запрашивает информацию об активах определенного сервера. Запрос типа GET запрашивает сам актив, например, файл или изображение. Запрос типа POST разрешает клиенту взаимодействовать с сервером через Web-страницу (обычно через Web-форму).
Слайд 18

Простой агент типа Webscraper(другое название – screenscraper) для сбора информации о котировках акций - приведен сценарий на языке Ruby. #!/usr/local/bin/ruby require 'net/http' host = "www.smartmoney.com" link = "/eqsnaps/index.cfm?story=snapshot&symbol="+ARGV[0] begin # Create a new HTTP connection httpCon = Net::HTTP.new( host, 80 ) # Perform a HEAD request resp = httpCon.get( link, nil ) stroffset = resp.body =~ /class="price">/ subset = resp.body.slice(stroffset+14, 10) limit = subset.index('
Слайд 19
«Червяк» (crawler)

Программа, способная найти на web-странице все ссылки на другие страницы. Ее задача – определить, куда дальше должен «ползти» «паук», руководствуясь ссылками или заранее заданным списком адресов. Каждую найденную ссылку в документе crawlerдолжен проверить на правильность, с точки зрения интернет-имени сервера. Для этих целей используется стандартный механизм DNS – однако если рассматриваемая страница содержит массу ссылок на другие страницы и при этом первичный сервер зоны, в которой располагаются данные страницы в данный момент по каким-либо причинам не доступен, то возникают огромные потери времени на попытках установления соответствия - в итоге ваша страничка не индексируется!!!!
Слайд 20

Web-пауки и краулерыминимизируют порождаемую ими нагрузку на Интернет с помощью набора политик. Чтобы представить масштабы проблемы, необходимо учесть, что Google индексирует более 8 млрд. Web-страниц. Поиск в Интернете весьма дорог, как с точки зрения пропускной способности, необходимой для передачи Web-контента индексатору, так и с точки зрения вычислительных затрат на индексирование результатов. Политики поведения определяют, какие страницы Web-краулер должен вводить в индексатор и как часто Web-краулер должен возвращаться на какой-либо Web-сайт для повторной проверки, а также т.н. "политику вежливости". Web-серверы могут запрещать работу краулеров с помощью стандартного файла robot.txt, который сообщает краулерам о том, что можно, а что нельзя просматривать на данном сервере + такие директивы как Disallow, Allow, User-agent, Crawl-delay и другие.
Слайд 21
Индексатор (Indexer)

Программа, которая «разбирает» web-страницу на составные части и анализирует их. Вычленяются и анализируются заголовки, ссылки, текст документов. Отдельно анализируется текст, набранный полужирным шрифтом, курсивом и т.п. ( вспомните про алгебраический тип данных )
Слайд 22
База данных (database)

Хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки. Data center Google in US В 2008 году 63,272 Machines 126,544 Processors 253,088 GHz Proccessing ability 126,544 GB Memory 5,062 TB Hard Drive Space
Слайд 23

Система выдачи результатов поиска (Search Engine Results Engine - клиент)
Слайд 24
Индексация и индекс

Процесс загрузки информации из интернета и предварительного анализа ее поисковой машиной называют индексацией. База данных ПС, в которой храниться вся информация –это и есть индекс , грубо говоря.
Слайд 25
Слайд 26

Перед нами упорядоченный по алфавиту список слов. Для каждого слова перечислены все «позиции», в которых это слово встретилось (первая цифра - глава, вторая - стих) Поисковый алгоритм состоит в отыскании нужного слова и загрузке в память уже созданного списка позиций.
Слайд 27

Вопрос, что индексировать волк или волка или волку. ЗАмок или заМОК ( ударение) Большие/маленькие буквы - General Motors Пунктуация - C.Ш. А. или США (сокращение, аббревиатура). Числа (в каком формате?) 3/12/91, Март 12,1991 55 В.С, В-55 Как обрабатывать синонимы и омонимы, индексировать эквивалентные слова или расширять/уточнять запрос? Классы эквивалентности: автомашина и автомобильопушка – край леса или меховая обшивка одежды?
Слайд 28

Пример - выделение корня Сокращаем слова к их корню до их индексирования -языковая зависимость -например, бегун, побег, пробежка все сокращаются к бег. Для примера, слова бегун и бегунок предполагаются относящимися к слову бег Так как корни бег и бег совпадают с корнем бег. "алгоритм стемминга", от слова стем - "корень".
Слайд 29

Пример - алгоритм Портера Алгоритм не использует словарь слов и их корней, а лишь, применяя последовательно ряд правил, отсекает окончания и суффиксы, основываясь на особенностях языка, в связи с чем работает быстро, но не всегда безошибочно (не отсекает приставки!). Соглашения + 5-фазное сокращение фазы применяют последовательно каждая фаза состоит из набора команд пример соглашения: из правил в составной команде, выбираем применимое к самому длинному суффиксу. Типичные правила Портера Прилагательное существительное Множественное число единичноечисло The Porter Stemming Algorithm — Project «Snowball» - специальный язык для работы со строками Стеммер Портера для русского языка: Russianstemmingalgorithm
Слайд 30

Суффиксы имен существительных. ан-(-ян-), -анин(-янин), -ач, -ени[j-э], -ет-, -еств-(-ств-), -есть, -ец, -изм, -изн-, -ик(-ник), -ин, -ист, -итель(-тель), -их -иц-(-ниц-), -к-, -л-, -лк, -льник, -льщик(-льщиц-), -ни[j-э], -от-, -ость, ун, -чик(-чиц-, -щик); Суффиксы прилагательных. -ал-(-ел-), -ан-(-ян-), -аст-(-ат-), -ев-(-ов-, -[j]-), -еват-(-оват-), -ен-, -енн-(-онн-), -енск-(-инск-), -ив-(-лив-,-чив-), -ин- ист-, -ит- (-овит-), -к-, -л-, -н-(-шн-), -тельн-, -уч-(-юч-,-яч-), -чат-; Суффиксы глаголов. -а(ть) (-я(ть), -ка(ть)), -е(ть), -ева(ть) -ова(ть)), -и(ть), -нича(ть), -ну(ть), -ствова(ть), -ся; Суффиксы наречий. -а, -е, -и, -жды, -либо, нибудь, -о, -то, -учи(-ючи). Суффиксы местоимений. -либо, -нибудь, -то. Суффиксы субъективной оценки - алфавитный указатель А - -а(ть), -ал-, -ан-, -анин, -аст-, -ат-, -ач Е --е(ть), -ев-, -ева(ть), -еват-, -ел-, -ен, -ени[j-э], -енн-, -енск-, -ет-, -еств-, -есть, -ец И - -ив-, изм, -изн-, -ик, -ин-, -инск-, -ист, -ит-, -итель, -и(ть), -их-, -иц- Ж -жды К -, -ка(ть) Л-, -либо, -лив-, -лк-, -льник, -льщик,-льщиц- Н-, -нибудь, -ни[j-э], -ник, -ниц-, -нича(ть), -ну(ть) Оов-, -ова(ть), -оват-, -овит-, -о, -онн-, -от-, -ость С -ств-, -ствова(ть), -ся Т -тель, -тельн-, -то У -ун, -уч-, -учи Ч -чат-, -чив-, -чик, -чиц- Ш -шн- Щ -щик- Ю -юч-, -ючи Я -я(ть), -ян-, -янин, -яч-
Слайд 31

Most of the stemmers make use of at least one of the region definitions R1 and R2. They are defined as follows: R1 is the region after the first non-vowel following a vowel, or is the null region at the end of the word if there is no such non-vowel. R2 is the region after the first non-vowel following a vowel in R1, or is the null region at the end of the word if there is no such non-vowel. Below, R1 and R2 are shown for a number of English words, b e a u tif u l || R1 || R2 Letter t is the first non-vowel following a vowel in beautiful, so R1 is iful. In iful, the letter f is the first non-vowel following a vowel, so R2 is ul. b e a u t y || R1 ->|| R1 || R2 e u c h a r i s t || R1 || R2
Слайд 32

Еще примеры: a n i m a d v e r s i o n | R1 || R2 s p r i n k l e d || R1 ->|| R1 || R2
Слайд 33
Механизмы и алгоритмы поиска

Каждая поисковая система использует свой алгоритм поиска и его детали представляют собой ноу-хау разработчиков поисковика.(есть классификация алгоритмов и систем) Алгоритм поиска – метод, руководствуясь которым поисковая система принимает решение, включать или не включать ссылку на web-страницу в результаты поиска.
Слайд 34

ПC осуществляет отбор на основании постоянно меняющихся критериев - например: • Title (заголовок): Имеется ли ключевое слово в заголовке? • Domain/URL (Домен/адрес): Имеется ли ключевое слово в имени домена / в адресе страницы? • Style (стиль): (STRONG или B), Курсив (EM или I), Заголовки HEAD.• Density (плотность): Количество ключевых слов относительно всего текста страницы называется плотностью ключевого слова. • MetaInformation (мета данные): - мета ключевые слова (metakeywords) и мета описания (metadescription). OutboundLinks (ссылки наружу): Какие ссылки есть на странице и содержит ли они и ключевое слово? InboundLinks (внешние ссылки): Имеются ли в Интернет ссылки на данный сайт? Каков текст ссылки? «внестраничный» критерий (автор страницы не всегда может им управлять). • InsiteLinks (ссылки внутри страницы): Какие ссылки на страницы данного сайта содержит эта страница?
Слайд 35
Закономерности поиска

Правило Парето Правило S Законы Зипфа-Мандельброта Закономерность Брэдфорда ЗакономерностьХипса
Слайд 36

Правило Парето 80/20 Анализируя общественные процессы, Парето рассматривал социальную среду как пирамиду. В результате кропотливых исследований ученый сформулировал математическую зависимость между величиной дохода и количеством получающих его лиц. Ученыйв 1906 году установил, что 80 процентов земли в Италии принадлежит лишь 20 процентам ее жителей. Парето пришел к выводу, что параметры полученного им распределения примерно одинаковы и не различаются принципиально в разных странах и в разное время. ВильфредоПарето
Слайд 37

Распределение Парето Распределение доходов по Парето описывается уравнением: N = A /Х p+1, где Х – величина дохода, N - численность людей с доходом, равным или выше Х, A и p- коэффициенты уравнения - Х ≥1, p > 0. Распределение Парето обладает свойством устойчивости, т.е. сумма двух случайных переменных, имеющих распределение Парето, также будет иметь это распределение. Wiki
Слайд 38

При информационном поиске достаточно определить 20% необходимых ключевых слов, позволяющих найти 80% требуемых документов. 80% посещений Web-сайта приходится лишь на 20% его Web-страниц. При создании (программировании) необходимо учитывать то, что наиболее сложным функциональным возможностям системы, на реализацию которых ушло > 80% трудозатрат будут использоваться не более, чем 20% пользователей данной системы. Если предположить, что идеальная система имеет 100% необходимых функций, а систему, которая реализует 90% функций можно создать за 10 человеко-лет, то для доведения функциональности системы до уровня 95% потребуется еще не менее 10-ти человеко-лет. Таким образом, цена последних 5-ти процентов равна цене всей системы, работающей с функциональностью 90%.
Слайд 39

О переходе количества в качество Если система достигла 99% своей идеальной функциональности, то дальнейшие попытки ее совершенствования ведут, в лучшем случае, к повышению качества сопровождения реализованных уже функций, и, если изобразить график, отмечая по оси абсцисс затраченные ресурсы на развитие системы, а по оси ординат - уровень функциональности, то график будет иметь вид кривой, у которой в начале наблюдается резкий подъем, и которая стабилизируется – распределение Парето.
Слайд 40

Буква S технологическогопрогресса В реальной жизни бывают случаи, когда после длительного процесса стабилизации происходит резкий взлет этой кривой выше уровня 100%, т.е. график принимает вид перевернутой буквы S. Этот феномен обычно бывает связан с появлением новых подходов и взглядов на ставшие уже традиционными устоявшиеся процессы.
Слайд 41
Законы Зипфа (Ципфа) – Мандельброта

Зипф заметил, что длинные слова встречаются в текстах любого языка реже, чем короткие. Это по всей видимости связано с природой человека и вообще любого живого существа. На основе этого наблюдения Зипф вывел два закона.
Слайд 42
Первый закон Зипфа

Первый закон связывает частоту появления (вхождения) того или иного слова с рангом этой частоты. Наиболее часто встречающимся словам присваивается ранг, равный единице. Тем словам, что встречаются реже – ранг, равный двойке и т.п. Зипф обнаружил, что произведение частоты вхождения слова и его ранга является постоянной величиной. Такая зависимость обычно отображается гиперболой. Значение константы Зипфа для разных языков различно, но внутри одной языковой группы оно остаетсянеизменным. Для русского и украинского языков коэффициенты Зипфа составляют приблизительно 0,06-0,07.
Слайд 43
Слайд 44
Второй закон Зипфа

Частота вхождения слов и количество слов, входящих в текст с данной частотой, тоже взаимосвязаны. Получившая кривая будет сохранять свои параметры для всех текстов в пределах одного языка. С другой стороны, на каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Отличаться будут лишь коэффициенты. частота вхождения слов количество слов
Слайд 45
Следствия законов Зипфа

Законы Зипфауниверсальны. Они применимы не только к текстам. В аналогичную форму выливается, например, зависимость между количеством городов и числом проживающих в них жителей. Характеристики популярности ресурсов интернета отвечают законам Зипфа. В законах Зипфа отражается «человеческое» происхождение объектов – т.е. можно отличать искусственное от природного – например распределение кратеров на Луне. Известный математик Бенуа Мандельброт математическим путём пришёл к аналогичной первому закону Зипфа зависимости f*re = c , где e - близкая к единице переменная величина, которая может изменяться в зависимости от свойств текста и языка
Слайд 46
Как ПС используют законы Зипфа

Из анализа графика можно предположить, что наиболее значимые для текста слова лежат в средней части графика.
Слайд 47
Центральная часть графика

Центральная зона графика содержит термины (слова), наиболее характерные именно для данного текста – по правилу Парето их будет около 20%!. Эти значимые или ключевые слова в совокупности выражают специфичность текста, отличие его от других текстов, охватывают его основное содержание. Каждая ПС по-своему решает, какие слова отнести к наиболее значимым. Однако, если к числу значимых будет отнесены слишком много слов, то важные термины будут забиты «шумом» случайных слов. Если значимых слов будет слишком мало, то есть риск потерять главное.
Слайд 48
Стоп-слова

Для того, чтобы безошибочно сузить диапазон значимых слов, создается словарь «бесполезных» слов или «стоп-слов». Словарь этих слов («стоп-лист») содержит, например, артикли и предлоги, частицы и личные местоимения (а, без, более, бы, был, была, были, было, быть, в, вам, вас, весь, во, вот, все, всего, всех, вы, где, да, даже, для, до, его, ее, если, есть, ещё, же, за, здесь, и, из, из-за, или, им, их, к, как, как-то, ко, когда, кто, ли, либо, мне, может, мы, на, надо, наш, не, него, неё, нет, ни, них, но, ну, о, об, однако, он, она, они, оно, от, очень, по, под, при, с, со, так, также, такой, там, те, тем, то, того, тоже, той, только, том, ты, у, уже, хотя, чего, чей, чем, что, чтобы, чьё, чья, эта, эти, это, я), а также целый ряд других слов. Их конкретный перечень может состоять от нескольких сот до нескольких тысяч слов и различен для разных поисковых машин.. Для уменьшения размера индекса поисковой системы стоп-слова не включаются в индекс и не учитываются при поиске.
Слайд 49
Весовой коэффициент

При определении значимых слов применяется и т.н. «весовой коэффициент». Часто встречаемое на всех сайтах слово - имеет весовой коэффициент, близкий к нулю. Слово встречаемое редко на всех сайтах- может иметь весьма высокий коэффициент. Параметр, определяющий «весовой коэффициент», называется инверсная частота термина. ПС может вычислять «весовой коэффициент» с учетом местоположения слова внутри документа, взаимного расположения разных слов, морфологических особенностей и т.п. Необходимо например для того, чтобы ПС могла игнорировать некоторые часто встречающиеся слова - прайс, сайт, Интернет, и т.д
Слайд 50

Модели информационного поиска Все многообразие моделей традиционного информационного поиска (IR) принято делить на три вида: теоретико-множественные(булевская, нечётких множеств, расширенная булевская), алгебраические (векторная, обобщённая векторная, латентно-семантическая, нейросетевая) вероятностные.
Слайд 51

Большинство поисковых систем функционируют безо всяких математических моделей, так как их разработчики не ставят перед собой задачу реализовывать абстрактную модель. Как только речь заходит о повышении качества поиска, о большом объёме информации, о потоке пользовательских запросов, кроме эмпирически проставленных коэффициентов полезным оказывается оперировать каким-нибудь пусть и несложным теоретическим аппаратом. Модель поиска – это некоторое упрощение реальности, на основании которого получается формула (сама по себе никому не нужная), позволяющая программе принять решение: какой документ считать найденным и как его ранжировать. После принятия модели входящие в эмпирические формулы коэффициенты приобретают физический смысл и становятся понятней.
Слайд 52

Булевская модель Это самая простая модель, основанная на теории множеств где запросы представляются в виде булевских выражений из слов и логических операторов И, ИЛИ, НЕ. Релевантными считаются документы, которые удовлетворяют булевскому выражению в запросе.Недостатки– недостаточно возможностей для описания сложных запросов результатов запроса либо слишком много либо слишком мало проблематичность при ранжирования результатов
Слайд 53
Булевская модель

53 Матрица документ-термин C(d,t) показывает какие встречаются слова tи в каких документах d Запрос:q = a И ( bИЛИ (НЕc) )
Слайд 54

Векторная модель Документы и запросы представляются в виде векторов в N-мерном евклидовом пространстве. Компоненты вектора соответствуют N терминам, образующим пространство. Чем больше используется терминов, тем сложнее понять какие подмножества слов являются общими для подобных документов. Как выбирать размерность пространства терминовN? Как вычислять весовые коэффициентыwt?
Слайд 55

Векторная модель
Слайд 56

Релевантность в векторной модели
Слайд 57

Пример В каких из русских сказок есть слово волк, но нет упоминания медведя и поросенка? Достоинства: Учетвесов повышает эффективность поиска Позволяет оценить степень соответствия документа запросу Косинусная метрика удобна при ранжировании Недостатки Нет достаточного теоретического обоснования для построения пространства терминов Поскольку термины не являются независимыми друг от друга, то они не могут быть полностью ортогональными
Слайд 58

Вектор слово-документной встречаемости 0,если слова нет в документе,1 если есть
Слайд 59

Итак мы имеем вектора из 0/1 для каждого слова размерности равной количеству документов. Запрос: В каких из русских сказок есть слово волк, но нет упоминания медведя и поросенка? Ответ: возьмемвектора длямедведя(дополнение), волкаи поросенка(дополнение) и выполним между ними побитное умножение 1100&1111&0111 = 0100 – второй документ!
Слайд 60
Слайд 61
Вероятностные модели

61 Заключаются в оценке вероятности того, что документ d является релевантным по отношению к запросу q Вероятность вычисляется на основе теоремы Байеса: P(R)– вероятность того, что случайно выбранный из коллекции документ Dявляется релевантным P(d|R)– вероятность случайного выбора документа dиз множества релевантных документов P(d)– вероятность случайного выборадокумента dиз коллекции D
Слайд 62

Google Page Rank
Слайд 63

Все его используют, но мало кто знает, как он работает и как его вычисляют. Поиск среди миллиардов существующих и миллионов создаваемых каждый день страниц, задача более сложная, чем вы можете сразу представить. PageRank, только один из сотен факторов, используемых Google для улучшения качества поиска. Но как он работает, и какие факторы на него влияют, а какие нет, и, что мы знаем о PageRank?
Слайд 64
Слайд 65

Алгебраическое определение Рассмотрим восемь web-страниц связанных соответствующими гиперссылками и найдем PageRankэтих страниц
Слайд 66

Начнем с построения матрицы гиперссылок H элемент которой в ith строке и jth столбце определяется по правилу Здесь - страничка с номером j , которая имеет гиперссылок на другие страницы, множество страниц на которые ведут гиперссылки сi- той страницы
Слайд 67
Слайд 68

По определению матрица гиперссылок будет матрицей с положительными элементами, сумма которых в каждом столбце равна 1 – такие матрицы называют стохастическими.
Слайд 69

Теперь найдем стационарный вектор матрицы гиперссылок (т.е. вектор отвечающий единичному собственному значению) H I = I Элементы этого вектора и есть значения PageRank соответствующей страницы. Чем больше эти значение – тем выше “качество ” данной страницы.
Слайд 70
Слайд 71

Метод простых итераций:
Слайд 72
Слайд 73

Теоретическое решение n→∞
Слайд 74
Синтаксис поискового запроса

Расширенный поиск (цель – сузить зону поиска: точнее указать время появления и редакции документа, язык, доменную область (или даже сайт), формат (например, если ищете xls или ppt). Место на странице (в заголовке или в теле текста), расстояние между поисковыми словами. Булев поиск (логические отношения между поисковыми словами). Сейчас уже чаще не надо писать операторы (“and”, “or”, “not”), а заполняются поля («без слов»). Хотя при помощи операторов Вы можете соорудить сложный запрос, с несколькими уровнями скобок. Поиск «в найденном». У поисковых машин разные синтаксисы. Смотрите на страницы расширенного поиска и на хелпы: http://www.yandex.ru/advanced.html, http://www.yandex.ru/info/compare.html (сравнение поисковых машин), http://www.yandex.ru/info/syntax.html, http://www.google.com/intl/ru/help/features.html, http://www.google.ru/intl/ru/help/interpret.html (экспертиза страницы)
Слайд 75

Для примера: советы по поиску в Яндексе - http://www.yandex.ru/ya_detail.html

Проверяйте орфографию Используйте синонимы Ищите больше, чем по одному слову Не пишите большими буквами Найти похожие документыЕсли один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы". Ссылка расположена под краткими описаниями найденных документов. Яndex проанализирует страницу и найдет документы, похожие на тот, что вы указали. Используйте знаки "+" и "-" "путеводитель по парижу -агентство -тур". Попробуйте использовать язык запросов Искать без морфологии Поиск картинок ифотографий Была еще полезная вещь – трункация: подстановка вместо неизвестных или любых символов искомого слова (допустим, окончаний) специальных символов (чаще всего – «?» = «один любой символ» и «*» = «любое количество символов»). Но с реализацией русской морфологии – исчезла?
Слайд 76
Примеры фишек Google:

Неспециализированные для ученых: подсказки правописания, калькулятор, поиск карт, картинок, товаров, определений, синонимов и т.п. Ansvers – платные вопросы Специализированные для ученых: http://books.google.com/ и http://print.google.com/ - поиск и покупка книг, бумажных и электронных, с возможностью частичного предварительного ознакомления. http://scholar.google.com/ - поиск только внутри «официального» научного Интернета (журналы и библиотеки с репутацией, кто кого цитирует). Groups - группы новостей (сетевые конференции, конференции, телеконференции). Т.е. тематические обсуждения в Интернете (форумы). News – новости (события), о которых (в т.ч. и давно) писали разные авторы и ресурсы. Высокая степень персонализации: Google desktop (ну очень медленно индексирует!), история поисков, настройка панели виджетов, можно пытаться агрегировать новостные ленты (http://www.google.com/reader/) и т.п. www.google.com/alerts - можно заказать (ежедневные) оповещения электронной почтой: например, с новостями на определенную тему или, допустим, заставить Гугл регулярно проводить интересующий Вас сложный поиск. Учитывать ли (как и при рассылках) рекламу, замусоривание ящика…
Слайд 77
«Видимый» и «невидимый» (неиндексированный) Интернет

Кузнецов С. Как вести бизнес-разведку в «невидимом» интернете - http://www.rususa.com/news/news.asp-nid-21056-catid-2 базы данных (в т.ч. библиографические записи) и прочие неформаты страницы глубокой вложенности ответы на динамическую информацию (т.е. все, где пользователь что-то должен ввести, простыми поисковиками не индексируется) с момента прошедшего индексирования (как правило, несколько месяцев) соотношения между сайтами и т.д. Если чего не нашли в Интернете, это не означает, что этого там нет или не было
Слайд 78

Презентация «ConductingOnlineResearch» - http://owl.english.purdue.edu/owl/resource/558/1. Сайт в целом: http://owl.english.purdue.edu/sitemap/ - много по academic writing, очень полезно также для изучения «функционального английского». Порядка 750 презентаций TheWritingProcess Professional, Technical, and Job Search Writing GeneralAcademicWriting ResearchandCitation GrammarandMechanics English as a Second Language (ESL) InternetLiteracy WritingintheSocialSciences WritinginEngineering LiteraryAnalysisandCriticism CreativeWriting TeachingWriting TutoringWriting
Слайд 79

Источники: Юрий Лифшиц - курс "Алгоритмы для Интернета" Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. - СПб.: Питер, 2000. Добрынин В. Теория информационно-логических систем. Информационный поиск. - СПб., 2002. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. - М.: Издательский центр "Академия", 2006. Пенроуз Р. Новый ум короля: О компьютерах, мышлении и законах физики. – М.: УРСС, 2003. Библиотека на www.nigma.ru Страница Леонида Бойцова Русский национальный корпус, http://www.ruscorpora.ru Частотный словарь Сергея Шарова, http://www.artint.ru/projects/frqlist.asp Поисковые машины и поисковая оптимизация, http://searchengines.ru РОМИП, http://romip.narod.ru Список стоп-слов, http://forum.searchengines.ru/showthread.php?postid=7670 Страница Андрея Коваленко, http://linguist.nm.ru Cайт"Автоматическая Обработка Текста", http://www.aot.ru Гусев В.С. Google: эффективный поиск. Краткое руководство. – М.: «Вильямс», 2006. ЛандэД.В. Поиск знаний в INTERNET. Профессиональная работа.: Пер. с англ. – М.: «Вильямс», 2005.
Слайд 80

Поиско́ваяоптимиза́ция (англ. searchengineoptimization, SEO) — комплекс мер для поднятия позиций сайта в результатах выдачи поисковых систем по определенным запросам пользователей. Обычно, чем выше позиция сайта в результатах поиска, тем больше заинтересованных посетителей переходит на него с поисковых систем. При анализе эффективности поисковой оптимизации оценивается стоимость целевого посетителя с учетом времени вывода сайта на указанные позиции и Конверсия сайта, на который привлекаются целевые посетители. Бе́лаяоптимиза́ция или естественная оптимизация — поисковая оптимизация (подстройка кода, текста и других параметров сайта под алгоритмы поисковых систем с целью поднятия его позиций в выдаче) без применения запрещённых и недобросовестных методов. Это комплекс мер по повышению посещаемости веб-сайта, основанный на анализе поведения целевых посетителей. Естественная оптимизация относится к комплексу мероприятий интернет-маркетинга.
Слайд 81

Чёрная оптимизация — поисковая оптимизация (подстройка кода, текста и других параметров сайта под алгоритмы поисковых систем с целью поднятия его позиций в выдаче) с применением запрещённых и недобросовестных методов. К чёрной оптимизации относится использование дорвеев — страниц и ресурсов, созданных (зачастую автоматически) специально для роботов поисковых систем. В теории человек не должен читать текст, который размещен на дорвее, так как он представляет собой бессмысленный набор ключевых слов, используемых в возможных поисковых запросах. Как правило, дорвеи рассчитаны на привлечение с поисковых систем посетителей, использующих в поиске любые поисковые запросы. Другой способ черной оптимизации — клоакинг: пользователю отдается одна страница, читабельная, а поисковому роботу — другая, оптимизированная под какие-либо запросы. Похожий способ — немедленная замена текста на странице сразу же после индексации этой страницы поисковой системой. Также к чёрным методам SEO можно отнести использование скрытого текста на страницах сайта. Для пользователей данный текст не виден, однако поисковые роботы легко его индексируют. Обычно в скрытом тексте содержатся ключевые слова для придания «веса» оптимизируемой странице. Ещеодним способом черной оптимизации являются «однопиксельные ссылки». Использование графических изображений-ссылок размером 1*1 пиксель (то есть фактически невидимых посетителю) также воспринимается поисковыми системами как попытка обмана и может привести к бану сайта.