Российский рынок информационных технологий: тенденции и прогнозы. Тенденции развития поисковых систем

Алгоритмы ранжирования поисковых систем постоянно развиваются и совершенствуются. Главные цели этого развития - обеспечение высокого качества поиска для пользователей и создание максимальных трудностей для манипулирования поисковой выдачей оптимизаторами сайтов.

Данные цели взаимосвязаны, так как качество поиска напрямую зависит от возможности или невозможности повлиять на него заинтересованным лицам.

Когда поисковые системы Яндекс и Google только начинали свое развитие, их алгоритмы ранжирования были примитивны, что позволяло довольно просто манипулировать ими.

В те далекие времена на релевантность страницы оказывали высокое влияние:
- мета-теги ;
- плотность ключевых слов на странице;
- теги выделения.

Это была золотая пора для дорвейщиков всех разновидностей, которым не составляло никакого труда добывать килотонны целевого трафика без особых усилий, ухудшая при этом общее качество поиска.

В результате, поисковые системы перестали учитывать мета-тег Keywords и, по всей видимости - Description, который теперь используется лишь для формирования сниппета в Google. Так же снизилась значимость других факторов внутренней оптимизации, которые позволяли злостно манипулировать поисковой выдачей.

Затем оптимизаторами было установлено, что количество внешних ссылок на сайт, а так же их анкоры влияют на позиции сайта в результатах поиска. Сразу же появились тысячи каталогов сайтов и программы автоматического добавления в них (самая известная программа такого рода - AllSubmitter).

Это были золотые времена для спамеров. Поисковые системы довольно быстро забанили большую часть каталогов сайтов, резко понизив эффективность прогонов по каталогам, которые стали массово использоваться оптимизаторами.

После этого эффективные попытки манипулирования поисковой выдачей стали, главным образом, заключаться в покупке ссылок с обычных сайтов, созданных не на каталожных скриптах.

Это были золотые времена сателлитчиков. Очень скоро поисковые системы научились распознавать грубую работу по продаже ссылок и ввели санкции в виде фильтра или бана для сайтов, созданных исключительно для продажи ссылок. Причем в некоторых случаях санкции могут касаться сайтов, на которые ссылки закупаются.

Все этапы развития поисковых систем представляют собой следующую логическую цепочку:

1. Создается некоторый базовый алгоритм ранжирования.

2. Оптимизаторы выявляют в нем слабые места и начинают массово манипулировать поисковой выдачей.

3. Поисковые системы серьезно корректируют алгоритм ранжирования, изменяя степень влияния тех или иных факторов.

4. Оптимизаторы анализируют эти изменения, приспосабливаются к новым условиям и вновь начинают массово манипулировать поиском.

Однако эта игра все же когда-нибудь закончится. Дело в том, что алгоритмы ранжирования поисковых систем в последнее время не только меняют значимость различных факторов, но и изменяются качественно вообще.

Мало того, что актуальным становится комплексный учет сотен различных факторов, так ещё упраздняется единая формула ранжирования, вместо которой начинает использоваться матричная система. Пример тому - алгоритм Яндекса «Снежинск» .

По новой системе, для каждого отдельного запроса генерируется своя формула ранжирования, которая может быть совершенно не похожа на формулу ранжирования по другим запросам. Если раньше можно было довольно просто выявить какие-то общие зависимости в принципах ранжирования поисковой системы, то в дальнейшем общих зависимостей просто не будет.

Платные инструменты для продвижения сайтов скорее всего останутся, но их использование с большой вероятностью станет экономически нецелесообразно. Именно такая ситуация наблюдается сейчас в англоязычном секторе интернета.

В недалеком будущем для продвижения сайта наибольший эффект будет оказывать совокупность следующих основных факторов:

Большой массив качественного контента (уникального и полезного);
- траст сайта;
- возраст сайта;
- разумная внутренняя оптимизация.

Какое-то особое техническое продвижение, основанное на выявлении слабых мест в алгоритмах ранжирования, скорее всего, потеряет актуальность. По крайней мере, все к этому идет.

Статьи по теме .

При традиционном подходе к организации, когда специализированные функции включаются в дело одна за другой, как в эстафете, высокая эффективность недостижима. Быстрота реагирования на внешние изменения требует постоянного сотрудничества между разными специализированными отделами и службами. Постоянно общаясь и обмениваясь информацией, они могут действовать быстро, согласованно и одновременно в самых разных направлениях. Информационные технологии исключительно полезны в случае такого координированного процесса.

Рис. 3.2.

Применение ИТ позволяет радикально изменить стиль управления и сами бизнес-процессы и значительно улучшить основные показатели деятельности компании ( рис. 3.2). Прежние правила ведения бизнеса стремительно устаревают. Компании, которые не в состоянии "увидеть" значимость этих изменений, рискуют сильно отстать (табл. 3.2).

Таблица 3.2. Информационные технологии, изменяющие правила работы компаний

Прежнее правило	Новое правило	Технология
Информация может появляться в одном месте, в одно время	Информация может появляться и быть востребованной в любом месте, в любое время - когда это необходимо	Распределенные базы и хранилища данных, поисковые системы , технологии поиска заданных данных
Сложную работу по оценке ситуаций могут выполнять только эксперты	Работу эксперта может выполнять специалист общего профиля	Экспертные системы
Необходимо выбирать между централизацией и децентрализацией	Можно одновременно получать преимущества от сочетания двух форм организации управления и производства	Распределенная работа в группах, телекоммуникации и сети
Все решения принимают только высшие руководители и ответственные менеджеры	Принятие решений становится частью работы каждого сотрудника, отвечающего за свой участок работы	Средства поддержки принятия решений, доступ к базам и хранилищам знаний, системы знания
Для поиска, получения, анализа, хранения и передачи информации требуются специально оборудованные помещения	Специалисты могут посылать и получать информацию из того места, где они находятся	Интернет/ Интранет -технологии, оптоволоконные и спутниковые системы связи, мобильные системы
Лучший контакт с покупателем - личный контакт	Лучший контакт с потенциальным покупателем - эффективное изучение особенностей покупателя	Интерактивное взаимодействие, базы данных, системы опроса и выявления предпочтений
Для того чтобы найти некую сущность, нужно знать, где она находится	Сущности сами говорят вам, где они находятся	Системы поиска. Мобильные агентные системы
Сверстанные планы не пересматриваются или пересматриваются под давлением форс-мажора	Планы пересматриваются и корректируются оперативно, по мере необходимости и адекватно требованиям потребителя	Экспертные системы , системы гибкого планирования и управления рисками, высокопроизводительные ЭВМ

ИТ-отделы в фирмах и корпорациях стали выдвигаться на первые роли . Этому способствовали три фактора, которые в полной мере проявились в 1990-е годы:

потребности бизнеса стали оказывать все большее давление на аналитические отделы и отделы ИТ с целью увеличения их вклада в общий результат деятельности компании;
компьютерная парадигма вычислительных работ, ориентированная на большие ЭВМ и мощные вычислительные центры с огромным персоналом, изживает себя и заменяется новой парадигмой - распределенными вычислениями (сети и кластеры ), что, в свою очередь, приводит к созданию новых ИТ;
переориентация с технологии на потребителя привела к необходимости психологической перестройки менеджера и к формированию новой дисциплины - стратегического планирования развития корпоративных ИТ для совмещения стратегии бизнеса и информационной стратегии.

В результате этого изменились сами составляющие бизнеса (табл. 3.3):

Таблица 3.3.

Динамика развития бизнеса	Ускорилась
Стратегическое планирование и тактические цели	Увеличилась дальность и точность прогноза
Оперативный простор	Расширилась область применения
Управление рисками	Моделирование и оптимизация ситуации
Гибкость управления	Быстрое маневрирование ресурсами
Конкурентоспособность	Распространение имеющегося превосходства на весь бизнес

Такое отношение к ИТ и их роли в бизнесе заставляет пересмотреть традиционный ответ на вопрос "В чем основная цель информационных технологий?". Прежний ответ, удовлетворявший требованиям 1980-1990-х годов, - "Повышение производительности труда, экономия финансов, поиск новых форм взаимодействия" - относится в настоящее время к способам достижения оперативных и тактических преимуществ.

Стратегическая роль ИТ в современном мире - способствовать менеджменту , адекватно реагировать на динамику рынка, создавать, поддерживать и углублять конкурентное преимущество (Сompetitive Advantage) с целью извлечения максимальной выгоды!

Современное состояние ИТ можно охарактеризовать следующими положениями:

наличие большого количества программно-аппаратных комплексов и платформ для эффективного управления и сопровождения производства, промышленно функционирующих баз данных и хранилищ знаний большого объема, содержащих информацию по всем направлениям деятельности общества;
наличие технологий, обеспечивающих интерактивный доступ любого пользователя к информации и ресурсам - технической основой для этого служат открытые (Free) и корпоративные системы поиска информации (Information Retrieval Systems - IRS ), государственные и коммерческие системы связи, глобальные (Global Network Systems ), национальные (NNS) и региональные (RNS) информационно-вычислительные сети; международные соглашения, стандарты и протоколы обмена данными;
расширение функциональных возможностей ИТ, обеспечивающих распределенную работу баз и хранилищ данных с данными разнообразной структуры и содержания, мультиобъектных документов, гиперсред; создание локальных и интегрированных проблемно-ориентированных ИС различного назначения на основе мощных серверов и локально-вычислительных сетей;
включение в ИС специализированных интерфейсов пользователя для взаимодействия с экспертными системами ( Expert System - ES), систем поддержки принятия решения ( Decision Support System - DSS ), системы поддержки исполнения (Executive Support System - ESS ), системы машинного перевода (Translating Computer System - TCS) и другие технологии и средства.

В развитии ИТ можно выделить пять основных тенденций.

Глобализация . Компании могут с помощью ИТ вести дела на мировом рынке, где угодно, немедленно получая исчерпывающую информацию. Происходит интернационализация программных средств и рынка информационного продукта. Получение преимуществ за счет постоянного распределения информационных расходов на более широкий географический регион становится необходимым элементом стратегии.
Конвергенция . Стираются различия между промышленными изделиями и услугами, информационным продуктом и средствами его получения, их профессиональным и бытовым использованием. Передача и прием цифровых, звуковых и видеосигналов объединяются в одних устройствах и системах.
Усложнение информационных продуктов и услуг . Информационный продукт в виде программно-аппаратных средств, баз и хранилищ данных, служб эксплуатации и экспертного обеспечения имеет тенденцию к постоянному развитию и усложнению. В то же время интерфейсная часть ИТ при всей сложности решаемых задач постоянно упрощается, делая все более комфортным интерактивное взаимодействие пользователя и системы.
Способность к взаимодействию ( Interoperability ). Проблемы оптимального обмена данными между компьютерными информационными системами, между системой и пользователями, проблемы обработки и передачи данных и формирование требуемой информации приобрели статус ведущих технологических проблем. Современные программно-аппаратные средства и протоколы обмена данными позволяют решать их во все более полном объёме.
Ликвидация промежуточных звеньев (Disintermediation). Развитие способности к взаимодействию однозначно ведет к упрощению доставки информационного продукта к потребителю. Становится ненужной цепочка посредников, если есть возможность размещать заказы и получать требуемое непосредственно с помощью ИТ.

Применительно к бизнесу это означает следующее:

осуществление распределенной обработки данных, когда на рабочем месте достаточно ресурсов для получения и анализа информации;
создание развитых систем коммуникации, когда рабочие места объединены для максимально быстрой пересылки сообщений ;
устранение помех в системе интеграции "организация - внешняя среда", прямой доступ в мировые информационные потоки ;
создание и развитие систем электронных заказов и торговли ;
поддержка социальных сетей.

Рассмотренные выше изменения требований к группам интересов в сфере ИТ и информационной культуре компании обусловлены динамикой развития предприятий и внешней среды и приводят к функциональным изменениям в системе управления. Основные аспекты этого развития и их влияние на роль ИТ в управлении предприятием состоят в следующем [Мюллер-Штевенс Г., Ашванден С. Проблемы теории и практики управления, № 1, 1998].

От обработки данных - к управлению знаниями

Уже давно отпала необходимость рассматривать ИТ только как средство обработки данных. С помощью технологий из данных надо извлекать информацию для нужд пользователя, а возникающая в этой связи проблема "информационных перегрузок" требует современных быстродействующих средств отбора, дальнейшей обработки и обновления информации. При этом следует продумать вопрос о коммерчески выгодных и удобных интерфейсах, а также о взаимодействии совместно используемых знаний между организационными подразделениями и партнерами по кооперации .

Быстрая интеграция сетей локальных систем с региональными и даже интернациональными структурами приводит к отказу от классических рабочих полей информатики и широкому привлечению средств телекоммуникаций . Организационно это ведет к "размыванию" информационных границ предприятия. Все труднее становится определить, где оно начинается и где кончается. Создание и эксплуатация соответствующей коммуникационной структуры для подобных "виртуальных предприятий" относятся к задачам информационного менеджмента , так же как и классическая функция обеспечения производственного процесса или разработки товаров и услуг на базе ИТ. Дело при этом состоит не только в обработке информации, но и в рациональном распределении и использовании знаний . Знания должны приносить прибыль и, если можно, сегодня же!

Кроме того, работники и руководители предприятия должны учитывать на профессиональном уровне все новые и важные для ИТ аспекты. Примером может служить вопрос о технологическом и хозяйственном значении технологий Internet/ Intranet . Именно на информационно-технологической службе лежит ответственность за создание платформы, на которой станет возможным корпоративный менеджмент, включая квалифицированную подготовку (в том числе и психологическую) персонала.

Децентрализация и рост информационных потребностей

Ориентация на максимальное сближение с клиентом потребовала от предприятий перехода к горизонтальным, децентрализованным структурам. Принятие решений в условиях децентрализации привело к резкому росту потребностей в информации относительно процесса производства товаров и услуг . Возникла необходимость в более подробном ознакомлении третьей стороны с состоянием дел в соответствующих хозяйственных областях и системами реализации качества продукта. В новой обстановке обеспечение информацией по всем направлениям должно функционировать безупречно.

Использование ИТ призвано нивелировать организационную сложность предприятия. Ранее это достигалось благодаря возложению на компьютеры сложных вычислений и обработки документации в очень больших объемах. Сейчас речь идет о том, чтобы непрерывно усложняющиеся горизонтальные и вертикальные модели взаимосвязей (структуры которых, в свою очередь, постоянно меняются) совершенствовались с помощью новой коммуникационной технологии.

Ранее на предприятиях устанавливались мощные вычислительные центры, готовившие огромное количество цифровых отчетов, на базе которых в последующем осуществлялось управление хозяйственной деятельностью. Сейчас задача ИТ-служб компании состоит в том, чтобы разработать такую технологию, с помощью которой можно было бы постоянно держать в курсе событий менеджеров и их партнеров, принимающих решения в условиях децентрализации. Новые информационно-технологические системы должны обеспечивать не какую-то абстрактную хозяйственную систему, а конкретных партнеров, которые в разнообразных формах участвуют в хозяйственном процессе.

Интеграция децентрализованных систем

Информация на предприятиях обрабатывается в рамках самых разнообразных систем, часто не связанных друг с другом. Обеспечение их широкой доступности для всех сотрудников (а также внешних партнеров) и облегчение тем самым принятия творческих решений может стать критически важным фактором успеха для многих предприятий. Вместе с тем объединение по вертикали и горизонтали информационно-технологических систем, возникших в условиях децентрализации, кажется почти невозможным. Во всяком случае, в классических областях ИТ опыт на этот счет отсутствует. Тем не менее, интеграция должна произойти.

Постановка подобной цели необходима высшему менеджменту для реального управления изменениями . Организационным рычагом в ее достижении могут стать виртуальные, проектные и рабочие группы , объединенные общими интересами выполнения текущих проектов и решения долгосрочных задач. Возможно, такие группы смогут даже эффективно управлять функциями распределенных отделов компании и сопровождающих их деятельность ИТ. Целью в этом случае мог бы стать интеграционный подход к взаимосвязанным технологическим, социальным, функциональным и хозяйственным процессам компании.

Капиталовложения и риски

Капиталовложения в ИТ сегодня влекут за собой многочисленные последствия. С одной стороны, они открывают определенные перспективы, а с другой - могут лишить предприятие перспективных возможностей в будущем из-за зависимостей, связанных с быстрыми технологическими изменениями и "привязки" к какой-либо одной технологии или определенному поставщику. Поэтому решения о капиталовложениях в ИТ не должны приниматься, пока не будут оценены риски применения тех или иных компьютерных и телекоммуникационных средств и не будет получена профессиональная консультация, по какому пути пойдет развитие следующего поколения технологии. При планировании капиталовложений в ИТ необходимо в обязательном порядке "держать в уме" конечную цель их приобретения и развертывания - насколько ИТ будут способствовать реализации бизнес-стратегии предприятия.

Психологический фактор и языковые уровни

Естественно, что новая технология повышает производительность, помогает фирме добиться лучших хозяйственных результатов. Наряду с этим менеджеры должны знать о том, как мыслят и как работают люди, использующие новую технологию. Фирмы, которым это удается лучше, могут надеяться на большую отдачу от средств, вложенных в ИТ.

Изготовители информационной техники и интеграционные команды должны научиться делать предложения не только в узкоспециальных терминах. На переговорах партнер будет ставить вопросы, имеющие принципиальное значение для высшего менеджмента в его компании. Здесь важно, чтобы обе стороны вышли на новый переговорный уровень, когда стороны говорили бы на одном языке . Речь в этом случае идет скорее не о качестве техники, а о качестве услуг в сфере ИТ. Техника, разумеется, должна хорошо работать, быть на высоком уровне. Вместе с тем ее изготовитель должен почувствовать себя на месте менеджера, который с помощью ИТ стремится добиться конкурентных преимуществ. "Чистый продавец" в системе сбыта ИТ уходит в прошлое. Аналогичная ситуация должна складываться и на самом предприятии, особенно когда речь идет о многопрофильном производстве или оказании разнообразных услуг. Умение ИТ-менеджера находить общий язык с менеджерами подразделений должно перестать быть искусством одиночек, а превратиться в повседневную практику.

Обмен информацией в обществе осуществляется главным образом в текстовой форме. Поэтому не случайно, что весьма значительную долю информационных ресурсов современных информационных систем составляет текстовая информация. Разработкам эффективных технологий хранения, обработки и поиска текстовой информации стало уделяться большое внимание уже на ранних стадиях развития информационных систем. Активные исследования и практические разработки в этой области начались еще в 50-х годах прошлого века, с того времени, когда средства вычислительной техники обеспечили возможность ввода-вывода текстовой информации.

Среди информационных систем, имеющих дело с текстовой информацией, наиболее распространенными являются системы текстового поиска. Их задача заключается в том, чтобы находить в хранимой в компьютере коллекции текстовых документов на естественном языке такие документы, которые интересуют пользователя.

Развитие систем текстового поиска стимулировалось в значительной мере потребностями информационной поддержки научных исследований и образования, разработками автоматизированных библиотечных систем. Однако в последние годы они все активнее используются также в управлении компаниями и во многих других сферах деятельности.Поиск информации с помощью компьютеров имеет уже почти полувековую историю. Первые автоматизированные информационные системы начали разрабатываться еще в 50-х годах прошлого века, и главной их функцией был именно поиск информации. Поэтому их назвали информационно-поисковыми системами (ИПС).

В зависимости от характера поддерживаемых информационных ресурсов эти системы было принято разделять на две категории: фактографическиеи документальные. Фактографические ИПС оперировали фактами, представленными в виде сущностей реального мира и их свойств, и позволяли находить сущности, обладающие заданными пользователем свойствами, а также свойства заданных сущностей. Когда в начале 1960-х годов начали зарождаться технологии баз данных, стало ясно, что информационная система этой категории представляет собой частный случай системы базы данных. В результате это направление в области информационного поиска постепенно было «поглощено» технологиями баз данных.

Документальные ИПС предназначены для хранения и поиска документов, содержащих тексты на естественных языках. Такие ИПС и представляют собой ранние системы текстового поиска.

Разрабатывавшиеся в этот период системы текстового поиска назывались дескрипторными ИПС. В таких системах содержание каждого текстового документа и пользовательских поисковых запросов описывается наборами слов или словосочетаний, называемых дескрипторами. В процессе поиска ИПС оперирует не самими текстовыми документами, а такими их «заместителями», которые в большинстве систем формируются вручную авторами документов, экспертами в предметной области документов и другими лицами. Сопоставление наборов дескрипторов, представляющих в системе документы, с набором дескрипторов, представляющим пользовательский запрос, позволяет находить требуемые пользователю документы. ДескрипторныеИПС обладают относительно несложными механизмами поиска, но качество поиска является сравнительно невысоким.

Одной из наиболее распространенных областей применения дескрипторных систем был библиографический поиск. В таких системах хранятся коллекции библиографических описаний документов, и система позволяет находить публикации заданного автора, публикации, выпущенные указанным издательством и/или вышедшие в некотором году и т.п. Многие библиографические дескрипторные ИПС используются до настоящего времени.

В процессе развития средств вычислительной техники компьютеры обрели устройства внешней памяти прямого доступа достаточно большого объема, значительно повысилась производительность процессоров. Это позволило создать и практически использовать в документальных ИПС более совершенные технологии, называемые технологиями полнотекстового поиска.

Благодаря возможности хранения и обработки в таких системах полных текстов документов удалось в большой мере автоматизировать процессы лингвистического анализа и поиска документов. Были разработаны подходы к автоматизации составления ряда используемых при этом словарей и тезаурусов. В технологиях полнотекстового поиска важное место занимают статистические методы анализа документов. Первоначально в полнотекстовых системах обеспечивался главным образом контекстный поиск, т.е. поиск документов, тексты которых содержат вхождение заданного в пользовательском запросе контекста. Позднее стал использоваться поиск по булевскому критерию. Были разработаны также различные более тонкие модели поиска.

На протяжении всей истории систем текстового поиска активно проводились научные исследования в этой области. Большое влияние на развитие систем текстового поиска оказали новаторские исследовательские проекты и разработки экспериментальных прототипов полнотекстовых поисковых систем, выполненные в 60-х годах прошлого века. Этот период характеризуется значительными продвижениями в разных аспектах организации систем текстового поиска и используемых в них методов. В настоящее время перспективные разработки в рассматриваемой области концентрируются вокруг авторитетной международной конференции по текстовому поиску ТRЕС (Техt Retrieval Соnfегеnсе), учрежденной в 1992 г. в США Американским национальным институтом по стандартам и технологиям (NIST).

Активное развитие технологий текстового поиска и информационных потребностей пользователей стимулировали трансформацию ИПС из систем текстового поиска в системы более общего класса, которые имеют дело не только с текстовыми документами, но и с документами, содержащими информацию иной природы. В таких системах (их называют мультимедийными) содержание их объектов поиска - документов - составляет сочетание информационных ресурсов, представленных в различных средах, - текстовых элементов, статических изображений, аудиоданных (музыкальные произведения, текст, произнесенный голосом, и т.п.), мультфильмов, видеоклипов и т.п.

Вероятно, для того чтобы различать системы текстового поиска и поисковые системы, оперирующие этими иными видами информационных ресурсов, в последние годы наряду с термином информационно-поисковая система (Information Retrieval System) стал употребляться термин система текстового поиска (Техt Search System или Техt Retrieval System).

Поскольку пользователи предъявляют к системам текстового поиска довольно высокие требования, современные технологии текстового поиска стали весьма сложной синтетической областью исследований и разработок. Эта область охватывает большой спектр проблем - от теории информационного поиска до методов удовлетворения потребностей пользователей в сборе, организации, хранении, поиске и распространении информации. К ней относятся также проблемы обеспечения интерфейсов между пользователями и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде. В системах текстового поиска находят применение как аналитические, так и эмпирические подходы.

Значительное место в технологиях текстового поиска занимает обработка естественного языка, т.е. компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относят к области искусственного интеллекта.

В современных технологиях текстового поиска используется не только аппарат лингвистики для анализа текстов, но и статистические методы, математическая логика и теория вероятностей, кластерный анализ, методы искусственного интеллекта, а также технологии управления данными.

Работы по информационной супермагистрали, в частности связанные с созданием электронных библиотек, развернувшиеся во многих странах мира в середине 1990-х годов, в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как обнаружение информации в глобальной компьютерной сети, текстовый поиск в Веб, мультиязыковой поиск.

За свою полувековую историю развития технологии текстового поиска сделали огромный шаг от простейших дескрипторных информационно-поисковых систем к изощренным системам полнотекстового поиска, от поисковых систем к системам с более богатой функциональностью. Ресурсы современных вычислительных систем позволяют хранить огромные объемы информационных ресурсов в системах текстового поиска, осуществлять в них не только технические, но и алгоритмически сложные процедуры обработки хранимых коллекций документов - их классификацию, кластеризацию, глубинный анализ текстов, перевод документов с одного языка на другой и т.д.

Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами, которые широко используются в настоящее время во многих крупных коммерческих компаниях и других организациях. В таких системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения и конечно же технологиям текстового поиска.

Развитие технологий текстового поиска в последние годы довольно интенсивно продолжается благодаря активным исследованиям и разработкам, проводимым во многих странах. Сформировалась индустрия коммерческого программного обеспечения для систем текстового поиска. Такие системы разрабатываются и широко используются и в нашей стране.

Как уже отмечалось, технологии текстового поиска имеют дело с информацией, представленной на естественных языках. Содержательное разнообразие такой информации довольно велико - это могут быть статьи, опубликованные в газетах и журналах, разнообразные технические руководства, отчеты, книги, диссертации, письма, законодательные акты и пр.

Основная единица информации в системах текстового поиска называется документом. Документ - это не юридическая сущность, а содержательно законченная идентифицируемая уникальным образом единица информации, представленная на каком-либо естественном языке. В раннихИПС документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как «черный ящик». В более развитых системах текстового поиска содержание документа доступно системе для обработки и анализа.

Полнотекстовые системы текстового поиска оперируют электронными документами, т.е. документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерный лингвистический анализ и обработка текстовых документов возможны лишь в случае, если программно-доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать текстовый документ на бумажном носителе и сохранить полученное его факсимиле в памяти компьютера в виде графического файла какого-либо формата. Необходимо иметь документ в оцифрованном виде, т.е. в таком формате, что каждая литера текста этого документа программно-доступна. Система может, таким образом, оперировать элементами содержания оцифрованного документа. Представление текстового документа в оцифрованном виде может быть создано, например, с помощью:

Сканирования его с бумажного носителя и использования программы распознавания оптических символов (Optikal Character Recognition – OCR);

Генерации текста программным путем распознавателями голоса или какими-либо другими способами.

Совокупность хранимых в системе документов по-разному называется в разных системах (поисковый массив, архив и т.п.). В последнее время для этой цели часто используется термин «коллекция документов». Каждая система текстового поиска, вообще говоря, может поддерживать несколько различных коллекций документов.

Документы хранятся в системе текстового поиска для того, чтобы удовлетворять информационные потребности пользователей. Представление информационных потребностей пользователя в форме, воспринимаемой программным обеспечением системы текстового поиска, называется пользовательским запросом (или просто запросом). Необходимым компонентом содержания пользовательского запроса является описание тех свойств, которыми обладают документы, интересующие пользователя. Это описание естественно называть критерием поиска.

Следует подчеркнуть, что единицей гранулярности поиска, т.е. наименьшей единицей информации, которая может выдаваться пользователю в результате обработки заданного им запроса, в большинстве систем текстового поиска является именно документ, а не какая-либо его порция. Как правило, в результате обработки пользовательского запроса система выдает множество результирующих документов, удовлетворяющих заданному в запросе критерию.

Критерии поиска в пользовательских запросах могут иметь различную форму. Например, это может быть набор термов (слов или словосочетаний), содержащихся в требуемых документах, или термов, соединенных символами булевских операторов. В последнем случае булевский оператор интерпретируется как условие одновременного (оператор «И») вхождения связываемых им слов в документ, альтернативного вхождения (оператор «ИЛИ») или отсутствия вхождений (оператор «НЕ») следующего за ним терма. В более сложных случаях роль критерия поиска может выполнять предложение на естественном языке или даже пример документа, удовлетворяющего информационным потребностям пользователя. Анализируя такой документ, система выделит термы для формирования некоторого «внутреннего» вида этого пользовательского запроса.

Хранящиеся в системе документы, которые соответствуют пользовательскому запросу, называются релевантными.

Релевантность документа не обязательно должна оцениваться в терминах двузначной логики («да - нет»). В некоторых развитых системах используются более тонкие оценки, которые вычисляются как значения специально подобранной числовой функции (функции релевантности), принимающей значения в интервале . В таких случаях уместно говорить о степени релевантности документа, понимая ее как значение этой функции. Некоторые системы текстового поиска выдают пользователю множества документов, полученных в результате обработки запросов, упорядочивая документы по убыванию степени релевантности. Такое упорядочение найденных документов называют их ранжированием. Пользователь более эффективно может анализировать ранжированное множество результирующих документов запроса. С большой вероятностью наиболее интересующие его документы из числа найденных находятся в начале выводимого списка документов.

В силу различных причин, связанных, в частности, с трудностями автоматизации понимания естественного языка, а также с неточностью отображения информационных потребностей пользователя в запросе, в результате обработки пользовательского запроса могут быть найдены документы, не соответствующие информационным потребностям пользователя. Такое явление называется информационным шумом.

Важными характеристиками качества поиска в системах текстового поиска являются полнота и точность поиска. Полнота поиска определяет отношение количества релевантных документов, выдаваемых в результате обработки пользовательских запросов, к количеству фактически имеющихся в системе релевантных документов. Для количественной оценки точности поиска может служить доля релевантных документов во множестве результирующих документов запроса.

2. Принципы текстового поиска

Рассмотрим теперь основные принципы построения современных систем текстового поиска. Разнообразие используемых здесь технологий вызвано различиями подходов, используемых для представления смысла хранимых в системе документов на естественных языках и информационных потребностей пользователей, многообразием критериев релевантности документов пользовательским запросам.

Источники сложности современных систем текстового поиска. В отличие от технологий ранних информационно-поисковых систем развитые современные технологии текстового поиска обеспечивают поиск интересующих пользователя документов на основе их информационного содержания, а не только по наборам дескрипторов или значениям каких-либо атрибутов, ассоциированных с этими документами (год издания, автор, издательство и т.п.). Эти атрибуты, хотя и могут, в частности, быть уникальными идентификаторами документов, но никак не зависят от их содержания.

Основные проблемы технологий текстового поиска связаны со сложностью однозначной автоматической интерпретации содержания текстов документов и формулировок информационных потребностей пользователей на естественном языке. Высказывания на естественном языке часто обладают двусмысленностью и избыточностью. Необходимо учитывать синонимию и омонимию терминов, многообразие грамматических форм элементов языка. Смысловые связи между словами в предложении часто представляются в неявной форме. Динамична лексика естественных языков, довольно часто во многих предметных областях появляются новые понятия и термины.

Указанные особенности приводят к отсутствию какой-либо регулярной структуры у текстовых документов на естественном языке. Поэтому данные, представляющие информационные ресурсы такой природы, называют неструктурированными.

Смысловое сопоставление содержания хранимых в системе документов и выраженных на естественном языке пользовательских запросов является довольно трудной задачей. Именно этим и объясняются сложности решения вопроса о том, соответствует ли рассматриваемый документ информационным потребностям пользователя в современных системах текстового поиска.

Для управления данными такой природы необходимо использовать иную, чем в системах баз данных, технику управления данными, хотя некоторые элементы управления данными, используемые в системах баз данных, применимы и для систем текстового поиска.

Представления документов. Коллекции документов, хранимых в системах текстового поиска, могут быть довольно крупными. Довольно большой объем могут иметь и содержащиеся в документах тексты. Поэтому нереально рассчитывать на то, что система текстового поиска сможет анализировать полные тексты хранимых документов в процессе обработки пользовательских запросов, даже если эта система базируется на очень мощном компьютере. Производительность такой системы была бы не слишком высока.

Выход из положения заключается в том, чтобы в процессе обработки пользовательского запроса работать не с самими документами, а с некоторыми структурированными представлениями их содержания, которые называют представлениями документов (в некоторых публикациях их называют также представителями документа). Использование представления документа вместо непосредственно самого документа позволяет избежать трудоемкого процесса просмотра и анализа полного его содержания на стадии поиска и вместе с тем использовать преимущества структурированного представления для повышения эффективности поиска.

В современных системах текстового поиска используются различные подходы к построению представлений хранимых документов. От характера используемых представлений документов существенно зависит качество поиска - его точность, полнота, производительность и другие характеристики. Поскольку введенные в систему текстовые документы остаются, как правило, неизменными на протяжении всего времени их существования в системе, построение представления каждого имеющегося в системе документа можно осуществлять однократно на этапе его ввода в систему.

Индексирование документов. Представление документа обычно конструируется на основе множества свойств (атрибутов) этого документа. В простых системах текстового поиска эти атрибуты, как уже указывалось, вообще не являются какими-либо компонентами содержания документа. В качестве таких атрибутов могут использоваться какие-либо внешние (по отношению к тексту документа) его характеристики, и совсем не обязательно, чтобы они идентифицировали его уникальным образом. Можно, например, использовать регистрационный номер документа в архиве, дату его регистрации, название организации - получателя документа, указание места его хранения и пр. В качестве таких внешних атрибутов документов могут также использоваться рубрики классификаторов документов или элементы метаданных Дублинского ядра.

Дублинское ядро (Dublin Core - DC) - это набор элементов метаданных, смысл которых описан вербально и зафиксирован в спецификации определяющего его стандарта. В терминах значений этих элементов можно описывать содержание различного рода текстовых документов и документов, представленных в иных средах. Такое описание будет однозначно пониматься всем сообществом, использующим DC для представления документов и пользовательских запросов.

Дублинское ядро находит все более широкое распространение в последние годы. Привлекательность такого подхода связана с его простотой, чтоконечно же оборачивается ограниченностью его возможностей.

Первоначальная версия Дублинского ядра, которая включала 13 элементов, была предложена на состоявшемся в 1995 г. в Дублине (США) симпозиуме, организованном On-line Computer Library Center (OCLC) и National Center for Supercomputing Applications (NCSA) для описания информационных ресурсов библиотечных систем, в частности информационных ресурсов Веб и т.п. Развитие Дублинского ядра поддерживается специально учрежденной для этой цели организацией - Инициативой по метаданным Дублинского ядра (Dublin Core Metadata Initiative - DCMI).

Текущая версия спецификаций Дублинского ядра DC 1.1 была принята в качестве стандарта DCMI в 1999 г. Она включает 15 элементов метаданных. К ним относятся:

Title (название ресурса);

Creator (лицо, организация или служба, ответственные за подготовку содержания ресурса);

Subject (тема, обсуждаемая в содержании ресурса);

Description (описание содержания ресурса в свободной форме);

Publisher (лицо, организация или служба, обеспечивающие доступ к ресурсу);

Contributor (другие участники подготовки содержания ресурса помимо указанного в Creator)",

Date (дата создания или предоставления доступа к ресурсу);

Format (характер представления ресурса);

Language (язык представления ресурса);

Coverage (область пространства, времени и т.д., к которой относится содержание ресурса);

Rights (права интеллектуальной собственности на ресурс и т.п.). Достигнутое соглашение о составе элементов метаданных Дублинского ядра фиксирует состав принадлежащих ему элементов. Однако на вербальном уровне трудно однозначным образом приписать каждому из них точный смысл. Например, элемент Date в различных случаях может иметь разный смысл - дата публикации страницы в Веб, дата последнего обновления этой страницы и т.д.

По этой причине в 2000 г. для Дублинского ядра DMCI была предложена концепция квалификаторов и опубликован их первоначальный состав.

Квалификаторы - это уточнители семантики элементов метаданных Дублинского ядра и их значений в различных конкретных случаях их применения. Например, для элемента Date можно указать, что имеется в виду время создания ресурса, время его доступности или время, в течение которого его содержание имеет силу, и т.д. Для значения элемента Relation можно указать, что оно представлено в формате URL.

Если квалификатор, указанный для некоторого элемента метаданных Дублинского ядра, оказался неизвестным для приложения Веб, то он должен игнорироваться.

Принятый DMCI в 2000 г. набор квалификаторов включает квалификаторы двух категорий: квалификаторы, которые уточняют семантику элементов метаданных ядра, и квалификаторы, определяющие способ кодирования значений его элементов, что позволяет адекватным образом их интерпретировать.

В настоящее время ведется работа по уточнению как приведенного состава набора элементов метаданных, так и их квалификаторов. На основе спецификаций DC 1.1 в 2001 г. был принят национальный американский стандарт ANSI/NISO Z39.85-2001.

В системах контекстного полнотекстового поиска атрибуты представления документа - это термы, извлеченные из его содержания, - слова, словосочетания и т.п., или значения каких-либо специально подобранных функций, вычисленные на основе этих извлеченных термов.

В любом случае ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание, называются его индексирующими свойствами. На основе индексирующих свойств документов в системе текстового поиска строится вспомогательная структура данных, позволяющая по их значениям или по значениям некоторой функции, использующей их в качестве аргументов, эффективным образом (без полного просмотра содержания документов и без полного их перебора) обнаруживать в системных коллекциях документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к этим документам. Такая вспомогательная структура данных называется индексом, а процесс назначения документу указанных атрибутов - индексированием документа.

В ранних системах текстового поиска использовалось простейшее представление документов, которое имело большую популярность благодаря его простоте, хотя и не могло обеспечить высокого качества поиска. В качестве такого представления служила совокупность слов или словосочетаний лексики предметной области системы, характеризующая содержание данного документа. Эти слова и словосочетания называются дескрипторами. Представление документа в дескрипторных системах называется поисковым образом документа.

ИПС, в которых используется рассматриваемый подход, называются дескрипторными системами. Такие системы используются до настоящего времени. Индексирование документа в них сводится к назначению для него совокупности дескрипторов.

Индексирование документов в системах текстового поиска может осуществляться на основе их названий, аннотаций или полного текста. Оно может производиться вручную авторами документов, экспертами в предметной области системы, подготавливающими документы к вводу в систему, или автоматически системными механизмами на основе анализа документов.

Методы представления и индексирования документов в современных развитых системах текстового поиска используют довольно трудоемкие вычислительные процедуры, поэтому они могут быть реализованы только автоматически.

Представление пользовательских запросов. Формирование структурированных представлений содержания пользовательских запросов является другой важной задачей систем текстового поиска. Точно так же, как в процессе поиска система оперирует структурированными представлениями документов вместо самих документов, она использует вместо заданного пользователем запроса его структурированное представление, которое конструируется в процессе обработки этого запроса. Представление запроса строится на основе тех же принципов, что и представления документов в данной системе, поскольку иначе их невозможно было бы сопоставлять.

Например, в дескрипторных системах текстового поиска в качестве представления запроса также используется совокупность дескрипторов, характеризующих содержание запроса. В таких системах представление запроса называется поисковым образом запроса.

Критерии релевантности документов. В процессе обработки пользовательского запроса системе необходимо оценивать релевантность очередного рассматриваемого документа. Для решений этого вопроса его представление должно сопоставляться по некоторому критерию релевантности (критерию близости) с представлением запроса.

Вид критерия близости зависит от подхода, используемого в системе для формирования представлений документов и запросов. В дескрипторных системах обычно используются теоретико-множественные критерии. Например, документ признается релевантным, если множество дескрипторов поискового образа запроса является подмножеством множества дескрипторов поискового образа документа. Другие варианты критерия - указанные множества дескрипторов равны или их пересечение не пусто. В продвинутых системах текстового поиска используются более сложные критерии близости.

Общие принципы текстового поиска. Современные системы текстового поиска используют довольно широкий спектр подходов к представлению и индексированию хранимых документов, к представлению пользовательских запросов, к оценке релевантности документов. Однако как в простых, так и в продвинутых системах используются некоторые общие принципы организации поиска. Эти общие принципы заключаются в следующем.

При вводе документа в систему осуществляется индексирование документа и строится его представление, которое будет далее выступать заместителем этого документа в процессе функционирования системы при обработке пользовательских запросов. Поскольку представление документа в достаточной мере формализовано, исключается необходимость анализа его полного текста каждый раз при обработке запросов. Представление документа остается неизменным в течение всего периода существования документа в системе, поскольку содержание документа не изменяется.

Далее, на основе индексирующих свойств конкретных документов, полученных извне системы или выявленных самой системой путем анализа содержания документов, система формирует и поддерживает индекс для каждой коллекции хранимых в ней документов. Она также обеспечивает актуализацию индекса при пополнении коллекции или, что случается сравнительно редко, при исключении документов из коллекции.

При поступлении в систему пользовательского запроса для него также строится соответствующее представление. Метод его построения аналогичениспользуемому для построения представлений документов.

Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рационально организованного индекса документов коллекции) осуществляется сопоставление представления запроса с представлениями хранимых в системе документов по принятому и системе критерию близости. В некоторых случаях для этих цепей вводится специальная метрика. Результаты обработки запросов представляются в виде множества найденных релевантных документов (результирующего множества документов).

Хотя на практике используются различного рода представлении документов и пользовательских запросов, указанные общие принципы текстового поиска используются в самых различных системах.

3. Средства лингвистической поддержки

При обработке полнотекстовых документов в системах текстового поиска приходится иметь дело со средствами обработки естественного языка. Эти средства представляют собой довольно сложный и важный функциональный компонент таких систем.

Средства обработки естественного языка в системах текстового поиска позволяют выделять из анализируемых текстовых документов и пользовательских запросов термы (слова, словосочетания или фразы) - носители их содержания, выявлять зависимости между этими термами, принимать во внимание их концептуальные связи в контексте данной предметной области, строить на этой основе представления документов, трансформировать поисковые запросы пользователей в удобную для реализации поиска форму, осуществлять расширение запросов для повышения полноты поиска.

Для выполнения указанных функций в большинстве систем рассматриваемого класса используются комплексы средств лингвистической поддержки. Такой комплекс может включать различные словари, тезаурусы, онтологические спецификации предметной области системы.

Системные словари. В системах текстового поиска, имеющих дело с обработкой естественного языка, могут поддерживаться словари общеязыковой лексики и лексики предметной области. Такие словари служат для морфологического анализа текста, для обеспечения отождествления слов в различных грамматических формах в процессе поиска, а также для построения некоторых видов представлений документов и запросов.

Тезаурусы. Важную роль в анализе и формировании формализованного представления текстовых документов играют специальные словари, называемые тезаурусами. Тезаурус - это словарь основных понятий языка, обозначаемых отдельными словами или словосочетаниями, с определенными семантическими связями между ними.

Тезаурус может быть общеязыковым (например, тезаурус русского языка) или ориентированным на какую-либо предметную область. Лексика тезауруса включает множество слов и/или множество фраз. Виды поддерживаемых семантических связей между ними могут быть зависимыми или независимыми от конкретной предметной области. Обычно такие связи определяют синонимы, омонимы, антонимы понятий языка, поддерживают между ними отношения вида «целое - часть», «род - вид», «используется для», «работает в» и т.д.

В настоящее время применяются два способа создания тезаурусов - ручной и автоматический. Тезаурус, созданный вручную, может быть универсальным, независимым от конкретной коллекции документов. Однако, к сожалению, разработка тезауруса вручную является весьма дорогостоящим, кропотливым и трудоемким делом, требующим значительного времени. Поэтому на практике часто используют автоматическое создание тезаурусов. Методы решения этой задачи начали разрабатываться еще в начале 60-х годов прошлого века. Автоматическое создание тезаурусов осуществляется обычно на основе заданных коллекций текстовых документов, поэтому такие тезаурусы предназначены для работы именно с этими коллекциями.

В системах, использующих тезаурус, он позволяет, например, при поиске по ключевым словам расширять запрос, включая в него синонимы первоначально заданных пользователем ключевых слов и обеспечивая тем самым более полный поиск. Могут быть отождествлены синонимы в документе и в запросе. Тезаурусы также часто используются в процессе ручного или автоматического индексирования документов.

Онтологии. Для адекватной интерпретации пользователем и/или системой содержания текстовых документов и поисковых запросов, представленных на естественном языке, система должна располагать контекстом, который определяет основные понятия предметной области и различного рода семантические связи между ними. Это описание не зависит от содержащихся в системных коллекциях конкретных документов и представляет собой спецификацию концептуализации предметной области системы. Выраженная явным образом такая спецификация называется онтологией предметной области. Онтологии получили в последние годы широкое распространение в разнообразных информационных системах, основанных на знаниях, в инженерии" знаний, в решении проблем семантической интеграции информационных ресурсов и т.д.

Онтология предметной области может поддерживаться в системе с различной степенью формализованности. В простейшем случае она представляется в виде некоторого вербального описания. Тогда она предназначена для использования человеком на стадии индексирования документов и при формулировке запросов. В более сложном случае онтология представляется в формализованном виде на языках представления знаний, допускающих логический вывод. Такие системы называют интеллектуальными.

Еще на ранней стадии развития систем текстового поиска начали использовать представление онтологии в форме иерархических классификаторов.Такие описания на каждом иерархическом уровне поддерживают отношение эквивалентности на множестве классифицируемых сущностей, обеспечивающее его разбиение на попарно непересекающиеся классы. При этом сущности соседних уровней иерархии обычно находятся в отношении «целое - часть» или «род - вид».

Другой неформальный способ описания онтологии, который довольно широко применяется в системах текстового поиска, - это представление ее в форме тезауруса предметной области системы.

Для формального описания онтологии в развитых системах используются языки логики первого порядка. Они допускают возможности логического вывода. Довольно широкое распространение получил для представления онтологии язык указанной категории KIF (Knowledge Interchange Format), разработанный в начале 1990-х годов в Лаборатории систем знаний (KSL) Стэнфордского университета.

Одной из последних разработок, посвященных созданию средств формального описания онтологии, является стандарт языка определения онтологии для информационных ресурсов Веб - Web Ontology Language. Работу над этим стандартом ведет Рабочая группа по онтологиям для Веб консорциумаW3C. Указанный язык, несомненно, найдет применение в интеллектуальных системах поиска информационных ресурсов в среде Веб второго поколения.

4. Модели поиска

Наиболее развитые технологии текстового поиска обеспечиваются в настоящее время полнотекстовыми системами. Как уже было показано, существуют различные подходы к построению таких систем. Эти различия связаны не только с разнообразием форм информационных потребностей пользователей, но и, главным образом, с различием способов представления полнотекстовых документов и пользовательских запросов в системе.

Понятие модели поиска. Ключевым понятием, характеризующим технологию поиска в той или иной конкретной системе, является модель поиска.Под моделью поиска понимается сочетание: способа формирования представлений документов; способа формирования представлений поисковых запросов; вида критерия релевантности документов.

Разнообразие функциональных возможностей различных систем текстового поиска связано именно с различием реализованных в них моделей поиска.

Простейшие модели поиска. Во многих системах используются простейшие модели поиска. К их числу относятся, например, рассмотренные выше модели поиска дескрипторных ИПС и систем, использующих Дублинское ядро.

Другим примером простейших моделей поиска являются модели, основанные на классификаторах. В модели, основанной на классификаторе, документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае также представляет собой идентификатор интересующего пользователя класса заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с каким-либо классом в представлении запроса или является его подклассом.

В более сложном случае в моделях поиска, основанных на классификаторе, допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов или его подклассу. Такая модель поиска близка к рассматриваемой далее булевской модели.

Модели контекстного поиска. Несколько более сложный характер имеют модели контекстного поиска. Применение этих моделей стало возможным, когда достаточно высокой производительности достигли процессоры вычислительных машин и вырос объем их внешней памяти прямого доступа. В моделях контекстного поиска используется представление документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов. Стоп-слова - это служебные слова (предлоги, союзы и т.п.), которые встречаются практически в любом документе. Поиск документов, содержащих такие слова, привел бы к выдаче полной коллекции документов в ответ на запрос. Поэтому такие слова не могут использоваться в качестве индексирующих свойств документов.

В системах рассматриваемого класса строится индекс по всем встречающимся в документах словам и словосочетаниям, кроме стоп-слов. При этом для построения индекса слова, выделенные из текста документа, приводятся сначала к «каноническому виду» с помощью поддерживаемых в системе словарей и средств грамматического разбора. Пользовательский запрос также подвергается грамматическому разбору, в процессе которого из запроса также выделяются встречающиеся в его тексте слова и словосочетания. Документ считается релевантным, если какие-либо слова или словосочетания из запроса встречаются с точностью до грамматических форм в тексте документа.

Иногда используется более жесткий критерий релевантности - вхождение в текст документа всех названных в запросе слов и словосочетаний и т.д.

Булевские модели поиска. В системах текстового поиска широко используются булевские модели поиска. Пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Термы булевского выражения могут быть различными в разных вариациях булевских моделей поиска. Это может быть, например, условие вхождения данного слова или словосочетания (с точностью до грамматических форм) в текст документа в булевском расширении контекстной модели поиска. В булевском расширении модели поиска по классификаторам термами выражения могут быть условия принадлежности документа данному классу классификатора. В булевской модели поиска с использованием Дублинского ядра термом может быть равенство, описывающее тот факт, что некоторый элемент метаданных для рассматриваемого документа имеет заданное в запросе значение.

Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, заданного в запросе.

Векторные модели поиска. Наиболее широкое применение в развитых системах текстового поиска имеют векторные модели поиска. Использование таких моделей требует значительно больших вычислительных ресурсов по сравнению с другими моделями, однако они обеспечивают существенно более высокое качество поиска.

В векторных моделях предполагается, что документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста - словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря сопоставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.

Координате вектора присваивается единичное значение в том случае, когда соответствующий ей терм встречается в данном документе или, соответственно, в пользовательском запросе. В противном случае координате вектора присваивается нулевое значение. Поскольку размер словаря может быть очень большим, а документы или тексты запросов содержат существенно меньшее количество содержащихся в нем термов, такие векторы оказываются очень разреженными. Поэтому нужно использовать какую-либо технику сжатого их представления.

Для оценки степени релевантности документа запросу (меры их близости) в векторных моделях поиска используются какие-либо векторные функции, аргументами которых выступают представляющие их векторы. Например, можно использовать в качестве такой меры косинус угла между вектором документа и вектором запроса. Важно заметить, что, поскольку ненулевые координаты этих векторов соответствуют только термам, входящим в текст документа и текст запроса, на значение функции - меры в обоих этих случаях - оказывают влияние только термы, общие для документа и запроса.

Для повышения управляемости векторных моделей поиска часто усложняют эти модели. Вводятся веса термов, характеризующие их значимость. Значения этих весов используются в качестве координат вектора документа, если его текст включает соответствующие термы. Таким образом, вхождения различных термов в текст документа оказывают различное влияние на значение функции близости документа и запроса. Существуют разные подходы к выбору указанных весов. Чаще всего для этой цели используют произведение частоты вхождения терма в данный документ и частоты его вхождения во все документы коллекции в целом. Взвешиваться могут также и термы запроса.

Различия между конкретными векторными моделями поиска сводятся именно к различным способам назначения весов термов и выбора мер близости. Векторные модели позволяют ранжировать результирующее множество документов запроса.

5. Состояние разработок систем текстового поиска

Системы текстового поиска в последние годы стали активно использоваться в самых различных областях деятельности. В то время как первоначально они разрабатывались главным образом как инструмент для библиотечного дела, в настоящее время они нашли применение в различных организациях для работы с их текстовыми информационными ресурсами. Особенно интенсивно технологии текстового поиска начали развиваться с появлением глобального информационного пространства Веб.

Круг проблем в области текстового поиска. В настоящее время проблематика текстового поиска стала довольно обширной. Она охватывает различные области теории и разработки систем текстового поиска, такие, как:

Развитие конкретных моделей поиска;

Методология проведения экспериментов, тестирования и оценки систем;

Методы реализации текстового поиска;

Подходы к интеграции технологий текстового поиска и баз данных;

Поиск в среде Веб;

Методы сжатия данных;

Оценка эффективности обработки запросов;

Обработка естественного языка;

Методы классификации и кластеризации текстовых документов;

Приложения информационного поиска в электронных библиотеках;

Глубинный анализ текстов;

Технологии индексирования и поиска мультимедийной информации;

Интерфейсы «человек - компьютер» и т.д.

Расширение функциональных возможностей текстовых систем.

Разработчики систем текстового поиска уделяют большое внимание не только совершенствованию механизмов выполнения их базовых функций, но и развитию ряда дополнительных возможностей, позволяющих существенным образом увеличить эффективность поиска, повысить управляемость системы, обеспечить более комфортные условия для работы пользователя. Перечислим некоторые такие возможности.

Повышение точности поиска. В формулировке пользовательского запроса не все термы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать веса используемым в запросе термам с тем, чтобы охарактеризовать их значимость в запросе. Эта информация используется при вычислении оценок релевантности документов информационным потребностям пользователя, и тем самым существенно повышается точность поиска.

Ранжирование результирующих документов запроса. В силу рассмотренных ранее причин системы текстового поиска не могут гарантировать строгого удовлетворения информационных потребностей пользователя в результате выполнения поисковых запросов. Количество результирующих документов обычно бывает значительным. Поэтому очень важно упорядочить документы, выдаваемые системой пользователю, таким образом, чтобы в начале списка находились документы, которые, вероятно, в большей мере представляют интерес для пользователя. Операция такого рода называется ранжированием документов. Развитые системы текстового поиска обладают механизмами, обеспечивающими такую возможность. В зависимости от реализуемой ими модели поиска, предусматривается упорядочение множества документов, выдаваемых в результате обработки пользовательского запроса, по некоторым оценкам степени их релевантности запросу или вероятности удовлетворения информационных потребностей пользователя.

Обратная связь релевантности - важная функция, позволяющая повысить эффективность поиска требуемых пользователю документов. Дело в том, что результаты обработки запроса могут не удовлетворять пользователя. В таких случаях во многих системах текстового поиска пользователю предоставляется возможность уточнить запрос. Для этого он может дать оценку релевантности полученных документов - указать, какие из них он считает релевантными или нерелевантными.

Поскольку количество результирующих документов может быть довольно большим, пользователю предлагается оценить хотя бы несколько первых документов в ранжированном списке, т.е. тех документов, которым система назначила наивысшие оценки степени релевантности. Система может использовать термы этих документов для формирования нового, расширенного запроса, который, скорее всего, будет точнее выражать информационные потребности пользователя.

Такой итерационный процесс обработки запроса и модификации его с помощью анализа данных, полученных на основе обратной связи пользователя с системой, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска. Обратная связь релевантности используется в системах, основанных на различных моделях поиска.

Автоматическое расширение пользовательских запросов. Имеется в виду расширение представления запроса, первоначально предложенного системе пользователем. Эта возможность также служит для повышения эффективности поиска.

Исходное представление запроса может пополняться за счет:

Синонимов термов, содержащихся в запросе, если система располагает тезаурусом, поддерживающим отношение синонимии;

Термов, которые находятся с термами запроса в некоторых других семантических отношениях, определенных тезаурусом предметной области,например представляют часть понятия, соответствующего некоторому терму запроса, и т.п.;

Термов результирующих документов, оцененных пользователем как релевантные или нерелевантные, в системах, обеспечивающих обратную связь релевантности;

Часто встречающихся орфографически ошибочных форм некоторых термов запроса и т.д.

Автоматическое индексирование документов. Исследования, проведенные еще на ранних стадиях развития систем текстового поиска, показали, что автоматическое индексирование документов не уступает по качеству ручному индексированию. Поэтому в современных развитых системах используется автоматическое индексирование.

Мулътиязыковой поиск. Некоторые системы текстового поиска позволяют осуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках. Одной из сложных проблем, которые при этом возникают, является идентификация языка, на котором представлен обрабатываемый документ или его фрагменты.

Кросс-языковой поиск. Существуют такие системы текстового поиска, в которых возможны ситуации, когда информационные потребности пользователя определены на одном языке, а документы коллекции, в которой должен осуществляться поиск, представлены на другом языке. Эта задача пока еще является в значительной мере исследовательской, хотя она уже довольно часто встречается на практике, например в системах международных организаций, транснациональных компаний или какой-либо организации в стране, где существует несколько государственных языков.

Основная проблема кросс-языкового поиска состоит в сопоставлении документа и пользовательского запроса, представленных на разных языках.Для ее решения необходимо использовать перевод документов, перевод запросов либо перевод того и другого вместе. При этом используются разные подходы - пословный перевод по двуязычному словарю, «ручной» перевод с поддержкой компьютера, автоматический машинный перевод полного документа или части документа.

Текстовый поиск в системах баз данных. Интеграция ресурсов баз данных и коллекций текстовых документов, а также использование инструментария систем баз данных для реализации систем текстового поиска уже давно востребованы практикой разработки информационных систем.

Действительно, текстовые документы могут обладать различными структурированными характеристиками, и в таких случаях может потребоваться не только традиционный поиск по содержанию документов, но и поиск по значениям таких ассоциированных с документами внешних атрибутов. Поддержка связей между ассоциированными с документами атрибутами и соответствующими им документами, а также поиск документов по значениям ассоциированных с ними атрибутов вполне вписываются в обычные технологии баз данных. Кроме того, механизмы среды хранения СУБД могут быть использованы и для хранения самих документов.

Вместе с тем информационные ресурсы, которыми оперируют системы баз данных, часто включают наряду со структурированными данными также и связанные с ними текстовые документы. Поэтому необходимость текстового поиска возникает и в среде традиционных систем баз данных. В связи с указанными причинами традиционные СУБД стали оснащаться механизмами текстового поиска по содержанию документов.

Технологии текстового поиска поддерживаются в настоящее время многими реляционными и объектно-реляционными серверами баз данных, например СУБД DB2 компании IBM, Oracle компании Oracle Corp., и SQL- Server 7.0 и SQL- Server 2000 компании Microsoft Corp. Нужно заметить, однако, что в большинстве таких СУБД механизмы текстового поиска не обеспечивают реализации продвинутых моделей поиска, которые обсуждались выше. Чаще всего дело ограничивается поддержкой булевской модели поиска, иногда с расширением запросов, с механизмами полнотекстового индексирования и с некоторыми другими дополнительными возможностями.

Поиск текстовых ресурсов в Веб. С ростом объема информационных ресурсов Веб проблема использования технологий текстового поиска в этой среде становится все более актуальной. Навигационный доступ к информационным ресурсам Веб не обеспечивает достаточно оперативного доступа к ним.

При реализации технологий текстового поиска в Веб учитываются специфика Веб как среды поиска, особенности поддерживаемых в ней информационных ресурсов, а также поведения пользователя при взаимодействии с Веб.

Ранние поисковые системы Веб, называемые также поисковыми машинами Веб, обеспечивали простейший контекстный поиск. Позднее стали появляться реализации булевских моделей поиска. В последние годы интерес к проблемам текстового поиска в Веб значительно вырос. Разными коллективами проводятся многочисленные и разнообразные исследования в этой области. В настоящее время существует целый спектр систем текстового поиска для Веб. Среди них имеются системы универсальные и ориентированные на определенные предметные области, системы международного и национального масштаба. К их числу относятся крупнейшая многоязыковая поисковая система AltaVista, системы Yahoo!, Google, поисковая система по русским страницам Веб Яndex и многие другие. Они различаются областью действия - составом сканируемых веб-серверов, организацией пользовательских интерфейсов, функциональными возможностями механизмов поиска. Все они поддерживают различные версии булевской модели поиска. Некоторые системы обеспечивают ранжирование результирующего множества документов, поддерживают обратную связь релевантности. Система AltaVista реализует возможности поэтапного сокращения области поиска. После проведения поиска пользователю предоставляется гистограмма, характеризующая статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рамках идентифицированного таким способом подмножества информационных ресурсов, доступных системе.

Весьма серьезных новых достижений в развитии систем текстового поиска в среде Веб можно ожидать в связи с интенсивными разработками платформы XML - технологической платформы Веб нового поколения. Важно заметить, что системы текстового поиска в Веб, основанные на стандартах платформы XML, обеспечивают уменьшение гранулярности поиска. Объектами поиска при этом вовсе не обязательно должны быть полные документы. Поисковая система может выдавать по запросам пользователей интересующие их фрагменты документов. Кроме того, представление текстовых информационных ресурсов Веб средствами XML позволяет использовать различные средства описания их семантики и на этой основе существенно снизить уровень информационного шума при обработке пользовательских запросов.

Новые требования к системам текстового поиска. Новые условия применения и рост потребностей пользователей выдвигают новые, более высокие требования к системам текстового поиска. Перечислим главные из них:

Обеспечение способности систем текстового поиска эффективно работать с очень большими коллекциями документов;

Разработка методов существенного улучшения представления смысла документов и пользовательских поисковых запросов;

Обеспечение возможностей для совместной обработки текстовых документов с документами иной природы - статическими изображениями, аудио, видео и др.;

Разработка эффективных методов поиска не только в статических коллекциях, но и в потоках документов;

Создание методологии оценки систем текстового поиска, построение текстовых коллекций, проведение экспериментов.

Контрольные вопросы

2. Какие системы назывались фактографическими ИПС?

3. Какие системы называются документальными ИПС?

4. На каких принципах основаны дескрипторные ИПС?

5. Какие условия были необходимы для создания технологий полнотекстового поиска?

6. Какие новые возможности обеспечиваются системами полнотекстового поиска?

7. Каким образом трансформировались функциональные возможности документальных ИПС под влиянием развития систем текстового поиска и информационных потребностей пользователей?

8. В связи с чем наряду с термином «информационно-поисковая система» стал использоваться термин «система текстового поиска»?

9. Какие задачи относятся к области обработки естественного языка?

10. Какие инструментальные средства используются в современных системах текстового поиска?

Ответы на вопросы необходимо направлять на электронную почту

Современные поисковые системы — это мощнейшие аппаратно-программные комплексы, целью которых является индексирование документов в сети интернет для выдачи данных по запросу пользователей.

Для предоставления качественной и актуальной информации поисковым системам приходится постоянно совершенствовать свои формулы ранжирования. Обеспечение максимально высокого качества выдачи для пользователей и воспрепятствование манипуляциям с ней со стороны оптимизаторов — вот ключевые цели развития поисковых систем.

Во времена, когда поисковые системы только-только стали появляться на свет, их алгоритмы ранжирования были очень примитивны. Благодаря чему наиболее находчивые оптимизаторы стали продвигать свои сайты так, чтобы они появлялись в выдаче по интересующим их запросам. В результате это привело к тому, что ресурсы, которые зачастую не несли пользователю никакой полезной информации, становились первыми, тем самым отодвигая более полезные сайты на второй план.

В ответ на эти действия поисковые системы стали защищаться, совершенствуя свои алгоритмы ранжирования, вводя в формулы все новые переменные и учитывая все новые факторы. Со временем эта борьба оптимизаторов и поисковых систем перешла на новый уровень и поспособствовала появлению более совершенных алгоритмов, основанных, в том числе и на машинном обучении.

Этапы развития поисковых систем:

Как можно увидеть из схемы, развитие поисковых систем и их алгоритмов идет по кругу. Одни создают новые алгоритмы, другие приспосабливаются к ним. Сложно сказать, остановится ли когда-нибудь этот процесс, но лично я склонен считать, что нет. Несмотря на то, что алгоритмы ранжирования поисковых систем в последнее время не только меняют значимость различных факторов, но и изменяются качественно, это не пугает оптимизаторов: их арсенал постоянно пополняется все более новыми приемами.

Как часто поисковые системы изменяют свои алгоритмы?

Обратимся к главной поисковой системе Рунета — Яндексу. Качественные и принципиальные изменения формул ранжирования в ней происходят в среднем один раз в год. Не так давно Яндекс представил новую поисковую платформу под названием “Калининград”. Ее суть состоит в формировании персональной выдачи для каждого пользователя на основании его поисковой истории и предпочтений.

Помимо этого не стоит забывать, что у каждой поисковой системы, в том числе и у Яндекса, постоянно случаются “подкрутки” формул ранжирования, когда в автоматическом либо полуавтоматическом режиме влияние определенных факторов занижается, а других, наоборот, — повышается. Все это делается лишь с одной целью — максимально улучшить поисковую выдачу, избавив её от сайтов, не удовлетворяющих потребности пользователей, и тем самым повысить её релевантность.

Рассматривая изменения в поисковой системе Google, можно увидеть, что преобразования формулы ранжирования также происходят постоянно, а сам Google из года в год рапортует о сотнях мелких изменений. Но если говорить не о формуле ранжирования, а о фильтрах, которые помогают Google очищать выдачу от низкокачественных сайтов, то новые версии алгоритмов, такие как Панда или Пингвин, появляются с периодичностью раз в 3-6 месяцев.

Ответить на поставленный выше вопрос можно так: поисковые системы постоянно совершенствуют алгоритмы ранжирования, а кардинальные изменения происходят в среднем раз в 6-12 месяцев.

Какие алгоритмы поисковых систем представляют реальную угрозу для продвижения?

Хочется ответить “слёту” — никакие, но все же давайте разберемся. А для этого нам надо задаться вопросом — ставят ли поисковые системы своей целью воспрепятствовать поисковому продвижению?

Я считаю, что нет. Для этого есть несколько обоснований:

1. Оптимизаторы помогают поисковым системам совершенствовать свои алгоритмы, что в конечном счете приводит к улучшению качества выдачи. Ведь если бы не было оптимизаторов, то и поисковые системы, вероятнее всего, остановились бы в своем развитии в 2000-м году.

2. Без оптимизаторов выдача по многим коммерческим запросам была бы похожа на сборник рефератов и бесполезных информационных статей.

Если бы поискового продвижения не существовало в принципе, то и поисковым системам не имело бы смысла расти и развиваться так же интенсивно, как они делают это сейчас.

Таким образом, мы приходим к следующему выводу:

Поисковые системы и SEO тесно и неразрывно связаны друг с другом. Именно поэтому, соблюдая установленные ими правила, можно абсолютно не бояться алгоритмов, ведь ПС не ставят своей целью уничтожить SEO как таковое.

Развитие сервисов поисковых систем

Говоря о поисковых системах, не стоит забывать о том, что у Яндекс, Google или Bing существуют собственные сервисы, призванные помочь пользователям. Помимо поисковых результатов, за годы эволюции ПС изучили поведение своих пользователей с целью повысить удовлетворенность результатами выдачи.

Собственно для этого поисковая система Яндекс и придумала механизм т.н. “Колдунщиков”, которые помогают пользователю быстро получить ответ на свой вопрос. Так, например, при вводе запроса «прогноз погоды» Яндекс прямо на странице с результатами поиска отобразит информацию о погоде на текущую дату, избавив тем самым пользователя от необходимости переходить по результатам выдачи.

Другие поисковые системы, например, Google, пошли дальше и вместо “Колдунщиков” предложили более интересное решение — “Граф знаний”.

“Граф знаний” (с англ. Knowledge Graph) — это первая ступень на пути Google к интеллектуальному поиску. Благодаря этому нововведению поисковик отображает в результатах выдачи не только стандартные ссылки, но и прямые ответы на вопросы пользователей, краткую справку об объекте запроса и информацию о связанных с ним фактах. Технически “Граф знаний” представляет собой семантическую сеть, связывающую воедино различные сущности: личности, события, сферы жизни, вещи, категории. Информационной базой для “графа знаний” служит целый ряд источников: открытая семантическая база данных Freebase, Википедия, сборник открытых данных ЦРУ и прочие источники.

Какие выводы можно сделать, спросите вы?

Ответ прост: поиск и поисковые сервисы и дальше будут развиваться в сторону быстрых и актуальных ответов на вопросы пользователей, предоставляя возможность получить всю необходимую информацию прямо в SERP (выдачу) и избавляя от необходимости переходить на другие сайты.

Существует мнение, что поисковые системы своим стремлением ответить на вопрос пользователя здесь и сейчас могут уничтожить поисковую оптимизацию, став этакими глобальными базами знаний. Но такие опасения беспочвенны, поскольку для того, чтобы стать глобальными базами знаний, им нужна информация, а её хранят те самые сайты, над которыми работают те самые оптимизаторы, которые причастны к тому, что поисковые системы не стоят на месте, а постоянно эволюционируют.

Как видно, и SEO, и поисковые системы — звенья одной цепи, которые не могут существовать друг без друга. Поэтому мысли о скорой смерти SEO безосновательны. Вполне возможно, что поисковая оптимизация со временем эволюционирует, к примеру, в консалтинг, но уж точно не умрет. Желаю всем удачного продвижения в ТОП!