Меры информации синтаксического уровня. Семантический способ измерения информации: сущность, основные понятия и свойства

В базе данных информация записывается и воспроизводится с помощью специально созданных лексических средств и на основе принятых синтаксических правил и ограничений.

Синтаксический анализ устанавливает важнейшие параметры информационных потоков, включая необходимые количественные характеристики, для выбора комплекса технических средств сбора, регистрации, передачи, обработки, накопления, хранения и защиты информации.

Синтаксический анализ обслуживаемых информационных потоков обязательно предшествует всем этапам проектирования информационных систем.

Семантический анализ позволяет изучить информацию с точки зрения смыслового содержания отдельных элементов, находить способы языкового соответствия (язык человека, язык ЭВМ) при однозначном распознавании вводимых в систему сообщений.

Прагматический анализ проводится с целью определения полезности информации, используемой для управления, выявления практической значимости сообщений, применяемых для выработки управляющих воздействий.

Постоянная информация остается без изменений или же подвергается незначительным корректировкам в течение более или менее длительного периода времени. Это различные справочные сведения, нормативы, расценки и т.п.

Переменная информация отражает результаты выполнения производственно-хозяйственных операций, соответствует их динамизму и, как правило, участвует в одном технологическом цикле машинной обработки.

При вводе и обработке информации используются пакетный и интерактивные режимы.

Пакетный режим был наиболее распространен в практике централизованного решения экономических задач, когда большой удельный вес занимали задачи отчетности о производственнохозяйственной деятельности экономических объектов разного уровня управления. Организация вычислительного процесса при пакетном режиме строилась без доступа пользователя к ЭВМ.

Его функции ограничивались подготовкой исходных данных по комплексу информационно-взаимосвязанных задач и передачей их в центр обработки, где формировался пакет, включающий задание для ЭВМ на обработку, программы, исходные, нормативнорасценочные и справочные данные. Пакет вводился в ЭВМ и реализовывался в автоматическом режиме без участия пользователя и оператора, что позволяло минимизировать время выполнения заданного набора задач. В настоящее время пакетный режим реализуется в электронной почте или при массированных обновлениях баз данных.

Интерактивный режим предусматривает непосредственное взаимодействие пользователя с информационно-вычислительной системой, может носить характер запроса или диалога с системой.

Запросный режим необходим пользователям для взаимодействия с системой через значительное число абонентских терминальных устройств, в том числе удаленных на значительное расстояние от центра обработки.

Пример: Задача резервирования билетов на транспорте.

Информационная система реализует массовое обслуживание, работает в режиме разделения времени, при котором несколько независимых пользователей с помощью терминалов имеют в процессе решения своих задач непосредственный и практически

одновременный доступ к информационной системе. Этот режим позволяет дифференцированно в строго установленном порядке предоставлять каждому пользователю время для общения с системой, а после окончания сеанса выходить из нее.

Диалоговый режим открывает пользователю возможность непосредственно взаимодействовать с информационно-вычислительной системой в допустимом для него темпе работы, реализуя повторяющийся цикл выдачи задания, получения и анализа ответа.

Еще по теме Синтаксический, семантический, прагматический аспекты информационного процесса:

  1. Структура массово-информационной деятельности: сбор, обработка, компоновка, передача, восприятие, трансформация, хранение и использование массовой информации. Потенциальная, принятая и реальная информация. Семантический, синтаксический и прагматический аспекты массово-информационных текстов.
  2. Единицы и способы концептуализации в семантическом, синтаксическом и прагматическом аспектах
  3. 7.ЖУРНАЛИСТСКИЙ ТЕКСТ КРИТЕРИИ АДЕКВАТНОСТИ ЖУРНАЛИСТСКОГО ТЕКСТА СЕМАНТИЧЕСКИЙ, СИНТАКСИЧЕСКИЙ, ПРАГМАТИЧЕСКИЙ АСПЕКТЫ ЖУРНАЛИСТСКОГО ТЕКСТАСПЕЦИФИКА ЭФФЕКТИВНОСТИ ЖУРНАЛИСТСКОГО ТЕКСТА

приходящуюся в среднем на одно состояние, называют энтропией дискретного источника инфор-

мации.

H p i logp i

i 1 N

Если снова ориентироваться на измерение неопределённости в двоичных единицах, то основание логарифма следует принять равным двум.

H p ilog 2 p i

i 1 N

При равновероятных выборах все

p log

и формула (5) преобразуется в формулу Р. Хартли (2):

1 log2

N log2

Предложенная мера была названа энтропией не случайно. Дело в том, что формальная структура выражения (4) совпадает с энтропией физической системы, определённой ранее Больцманом. Согласно второму закону термодинамики энтропия замкнутого пространства определяется выра-

П i 1

рость, то

можно записать как

p iln

i 1 N

Данная формула полностью совпадает с (4)

В обоих случаях величина характеризует степень разнообразия системы.

Используя формулы (3) и (5), можно определить избыточность алфавита источника сооб-

Которая показывает, насколько рационально применяются символы данного алфавита:

) - максимально возможная энтропия, определяемая по формуле (3);

() - энтропия

источника, определяемая по формуле (5).

Суть данной меры заключается в том, что при равновероятном выборе ту же информационную нагрузку на знак можно обеспечить, используя алфавит меньшего объёма, чем в случае с неравновероятным выбором.

Меры информации семантического уровня

Для измерения смыслового содержания информации, т.е. её количества на семантическом уровне, наибольшее распространение получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Действительно, для понимания и использования полученной информации получатель должен обладать определенным запасом знаний. Полное незнание предмета не позволяет извлечь полезную информацию из принятого сообщения об этом предмете. По мере роста знаний о предмете растёт и количество полезной информации, извлекаемой из сообщения.

Если назвать имеющиеся у получателя знания о данном предмете «тезаурусом» (т.е. неким сводом слов, понятий, названий объектов, связанных смысловыми связями), то количество информации, содержащееся в некотором сообщении, можно оценить степенью изменения индивидуального тезауруса под воздействием данного сообщения.

Тезаурус - совокупность сведений, которыми располагает пользователь или система.

Иными словами, количество семантической информации, извлекаемой получателем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой информации.

В зависимости от соотношений между смысловым содержанием информации и тезаурусом пользователя изменяется количество семантической информации, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рисунке 3. Рассмотрим два предельных случая, когда количество семантической информации равно

Рисунок 3 - Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса ()

Максимальное количество семантической информации потребитель приобретает при согла-

совании её смыслового содержания со своим тезаурусом (), когда поступающая информация понятна пользователю и несёт ему ранее неизвестные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин и.

Относительной мерой количества семантической информации может служить коэффициент содержательности, который определяется как отношение количества семантической информации к её объёму:

Ещё один подход к семантическим оценкам информации, развиваемый в рамках науковедения, заключается в том, что в качестве основного показателя семантической ценности информации, содержащейся в анализируемом документе (сообщении, публикации), принимается количество ссылок на него в других документах. Конкретные показатели формируются на основе статистической обработки количества ссылок в различных выборках.

Меры информации прагматического уровня

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Она также величина относительная, обусловленная особенностями использования этой информации в той или иной системе.

Одним из первых отечественных ученых к этой проблеме обратился А. А. Харкевич, который предложил принять за меру ценности информации количество информации, необходимое для достижения поставленной цели, т.е. рассчитывать приращение вероятности достижения цели. Так, если

Таким образом, ценность информации при этом измеряется в единицах информации, в данном случае в битах.

Выражение (7) можно рассматривать как результат нормировки числа исходов. В пояснение на рисунке 4 приведены три схемы, на которых приняты одинаковые значения числа исходов 2 и 6 для точек 0 и 1 соответственно. Исходное положение - точка 0. На основании полученной информации совершается переход в точку 1. Цель обозначена крестиком. Благоприятные исходы изображены линиями, ведущими к цели. Определим ценность полученной информации во всех трёх случаях:

а) число благоприятных исходов равно трём:

и, следовательно,

б) имеется один благоприятный исход:

в) число благоприятных исходов равно четырём:

В примере б) получена отрицательная ценность информации (отрицательная информация). Такую информацию, увеличивающую исходную неопределённость и уменьшающую вероятность достижения цели, называют дезинформацией. Таким образом, в примереб) мы получили дезинформацию в 1,58 двоичной единицы.

Лекция № 7

Тема: Меры информации: синтаксическая, семантическая, прагматическая .

Информация - это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состояниях, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Информатика рассматривает информацию как связанные между собой сведения, изменяющие наши представления о явлении или объекте окружающего мира. С этой точки зрения информацию можно рассматривать как совокупность знаний о фактических данных и зависимостях между ними.

В процессе обработки информация может менять структуру и форму. Признаком структуры являются элементы информации и их взаимосвязь. Формы представления информации могут быть различны. Основными из них являются: символьная (основана на использовании различных символов), текстовая (текст - это символы, расположенные в определенном порядке), графическая (различные виды изображений), звуковая.

В повседневной практике такие понятия, как информация и данные, часто рассматриваются как синонимы. На самом деле между ними имеются различия. Данными называется информация, представленная в удобном для обработки виде. Данные могут быть представлены в виде текста, графики, аудио-визуального ряда. Представление данных называется языком информатики, представляющим собой совокупность символов, соглашений и правил, используемых для общения, отображения, передачи информации в электронном виде.

Информационная коммуникация – это пути процессы, обеспечивающие передачу сообщений от источника информации к её потребителю. Для потребителей информации важной характеристикой является адекватность.

Адекватность информации – определенный уровень соответствия, создаваемого с помощью полученной информации образа реальному образу, процессу или явлению.

Одной из важнейших характеристик информации является ее адекватность. От степени адекватности информации зависит правильность принятия решения.

Адекватность информации может выражаться в трех формах: синтаксической, семантической и прагматической.

Синтаксическая адекватность отображает формально-структурные характеристики информации, не затрагивая ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость ее передачи и обработки, размеры кодов представления информации, надежность и Точность преобразования этих кодов и т. д. Информацию, рассматриваемую с таких позиций, обычно называют данными.

Семантическая адекватность определяет степень соответствия образа объекта самому объекту. Здесь учитывается смысловое содержание информации. На этом уровне анализируются сведения, отражаемые информацией, рассматриваются смысловые связи. Таким образом, семантическая адекватность проявляется при наличии единства информации и пользователя. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая адекватность отражает соответствие информации цели управления, реализуемой на ее основе. Прагматические свойства информации проявляются при наличии единртва информации, пользователя и цели управления. На этом уровне анализируются потребительские свойства информации, связанные с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

Каждой форме адекватности соответствует своя мера количества информации.

Синтаксическая мера информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На этом уровне объем данных в сообщении измеряется количеством символов в этом сообщении. В современных ЭВМ минимальной единицей измерения данных является бит - один двоичный разряд. Широко используются также более крупные единицы измерения: байт, равный 8 битам; килобайт, равный 1024 байтам; мегабайт, равный 1024 килобайтам, и т. д.

Семантическая мера информации используется для измерения смыслового содержания информации. Наибольшее распространение здесь получила тезаурусная мера, связывающая семантические свойства информации со способностью пользователя принимать поступившее сообщение. Тезаурус - это совокупность сведений, которыми располагает пользователь или система. Максимальное количество семантической информации потребитель получает при согласовании ее смыслового содержания со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее не известные сведения. С семантической мерой количества информации связан коэффициент содержательности, определяемый как отношение количества семантической информации к общему объему данных.

Уровни и структура экономической информации. Синтаксический, семантический и прагматический уровни экономической информации. Структурные элементы экономической информации - реквизиты, показатели, составные единицы информации (СЕИ), документы, массивы и базы данных

Предметом рассмотрения настоящего курса является маркетинговая информация как составная часть экономической информации.

Экономическая информация – это совокупность сведений, характеризующих производственные отношения в обществе. Эти сведения можно фиксировать, хранить, передавать, обрабатывать и использовать в процессах планирования, учета, контроля и анализа экономической системы или процесса.

Экономическая информация включает различные сведения о составе и значениях трудовых, материальных и финансовых ресурсов и состоянии объекта управления на некоторый момент времени. Экономическая информация позволяет получить сведения о деятельности предприятий и организаций через различные экономические показатели. Сведения из любой предметной области обладают рядом характерных свойств.

Отметим особенности экономической информации :

1. Многомерность – большое количество и объем данных, без которых невозможно качественное управление экономическими процессами.

2. Численное отображение - экономическая информация, как правило, отражает производственно-хозяйственную деятельность с помощью системы натуральных и стоимостных показателей. Они выражаются с помощью числовых данных, поэтому при работе с экономической информацией очень широко используются числовые типы данных и методы работы с этими типами.

3. Периодичность – для большинства производственных и хозяйственных процессов характерна циклическая повторяемость составляющих их стадий (месяц, квартал, год), и соответственно характерна повторяемость информации, отражающей на этих стадиях процессы.

4. Графическое и табличное представление экономической информации. Экономические документы имеют чаще всего вид таблиц и графиков, поэтому для обработки экономической информации очень широко используются табличные процессоры.

5. Многообразие источников и потребителей.

Эти особенности экономической информации предопределяют научно-техническую необходимость и экономическую целесообразность использования средств информационных технологий при ее сборе, накоплении, передаче и обработке, что в свою очередь требует от специалистов умения определять структуру и объемы перерабатываемой информации.

В процессе использования в экономических и управленческих системах информация проходит несколько фаз существования :

Ассимилированная информация - представление сообщений в сознании человека, наложенное на систему его понятий и оценок;


Документированная информация - сведения, зафиксированные в знаковой форме на каком-либо физическом носителе;

Передаваемая информация - сведения, рассматриваемые в момент их передачи от источника к приемнику получения. В процессе передачи информация проходит через ряд преобразователей: кодирующие и декодирующие устройства, вычислительные машины, ведущие обработку информации, коммуникационные системы, вычислительные сети и т. п.

Информация представляет собой данные, которые циркулируют между отдельными структурными элементами экономической системы или между самими системами. Выделяют различные уровни рассмотрения информации: синтаксический, семантический и прагматический.

Синтаксический уровень изучает структуру знаков и отношений между ними в информационных сообщениях. На этом уровне анализируется структура символов и знаков в документах, форматах реквизитов, структуре массивов информации и т. п. На синтаксическом уровне используют термин «данные» и объем данных связан с количеством экземпляров документов, числом записей в базе данных и т. п. Полученные входные данные являются основой для обработки информации, получения выходных данных, служащих основой для принятия решения.

Семантический уровень определяет общее смысловое содержание информации, и дает возможность установить взаимосвязи между отдельными элементами информации. Семантикаизучает отношения между знаками и обозначаемыми ими объектами, не касаясь получателя знаков. Она изучает общие закономерности построения любых знаковых систем, рассматриваемых в синтактике. Различают семантику логическую и структурную. Логическая семантика рассматривает знаковые системы как средства выражения смысла, установление зависимости между структурой знакосочетаний и их выразительными возможностями. Структурная семантика - раздел структурной лингвистики, посвященный описанию смысла языковых выражений и операций над ним. Семантический анализ - совокупность операций, служащих для представления смысла текста на естественном языке в виде записи на некотором формализованном семантическом (смысловом) языке. Семантический анализ моделирует процесс понимания текста человеком. Информативность сообщения тем выше, чем более определенной становится состояние системы для получателя информации. На семантическом уровне содержательность информации основана на тезаурусе системы.

Тезаурус (словарь) включает в себя набор основных понятий, терминов, определений, согласованных структур данных логического уровня представления в базах данных и т. п. При этом информативность сообщений во многом зависит от способности получателя расширить свой тезаурус.

Прагматический уровень определяет ценность информации для принятия управленческого решения, для системы управления в целом. Прагматика изучает восприятие осмысленных выражений знаковой системы в соответствии с разрешающими способностями воспринимающего. Теоретическая прагматика рассматривает некоторые гипотезы о свойствах и строении интеллекта, которые формулируются на основе данных нейрофизиологии, экспериментальной психологии, бионики, теории персептронов и т.д. Прикладная прагматика включает в себя исследования, посвященные эмпирическому анализу понимания людьми различных языковых выражений, изучению ритмики и стихосложения, а также разработке информационно-поисковых систем.

Таким образом, выделяют три уровня рассмотрения любого информационного сообщения, три уровня абстрагирования от особенностей конкретных актов обмена информацией. На прагматическом уровне для выявления полезности информации рассматривают все элементы информационного обмена. На семантическом уровне, отвлекаясь от получателя информации, конечной целью изучения является смысловое значение сообщения, его адекватность описываемым объектам. Наиболее узким является синтактический уровень - уровень изучения только самих знаков и соотношений между ними.

Задача экономической информации - давать адекватное описание некоторого состояния рассматриваемой экономической системы или объекта. Поэтому к экономической информации предъявляется ряд требований.

Полнота информации для принятия решений и реализации функций управления. Полнота определяется по отношению к управленческим функциям. Информация может быть неполной по объему и составу сведений. Недостаток информации не позволяет выработать верного управленческого решения.Полнота информации означает ее достаточность для понимания и принятия решений.

Точность и достоверность информации. Данные характеристики определяют степень приближения значения информации к истинному значению. Достоверность отражает вероятностную оценку информации. Существуют определенные уровни точности использовании получаемых данных.

Ценность информации зависит от того, какие задачи решаются с ее помощью.

Актуальность и оперативность. Актуальностьпоказывает степень соответствия реального состояния экономического объекта и состояния информационной системы. Отсутствие своевременных изменений в информации, отражаемой в информационной системе, приводит к нарушению процессов управления. Оперативность определяет скорость внесения в информационную систему изменений информации о состоянии предметной области.Актуальнуюинформацию важно иметь при работе в постоянно изменяющихся условиях.

Воспринимаемость - информация становится ясной и понятной, если она выражена языком, понятным тем объектам, которым она предназначена.

При реализации информационных процессов всегда происходит перенос информации в пространстве и времени от источника информации к приемнику (получателю). При этом для передачи информации используют различные знаки или символы, например естественного или искусственного (формального) языка, позволяющие выразить ее в некоторой форме, называемой сообщением.

Сообщение – форма представления информации в виде совокупности знаков (символов), используемая для передачи.

Сообщение как совокупность знаков с точки зрения семиотики (от греч. setneion - знак, признак ) – науки, занимающейся исследованием свойств знаков и знаковых систем, - может изучаться на трех уровнях:

1) синтаксическом , где рассматриваются внутренние свойства сообщений, т. е. отношения между знаками, отражающие структуру данной знаковой системы. Внешние свойства изучают на семантическом и прагматическом уровнях. На этом уровне рассматривают проблемы доставки получателю сообщений как совокупности знаков, учитывая при этом тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т. п., полностью абстрагируясь от смыслового содержания сообщений и их целевого предназначения. На этом уровне информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как смысловая сторона при этом не имеет значения.

Современная теория информации исследует в основном проблемы именно этого уровня. Она опирается на понятие «количество информации», являющееся мерой частоты употребления знаков, которая никак не отражает ни смысла, ни важности передаваемых сообщений. В связи с этим иногда говорят, что современная теория информации находится на синтаксическом уровне.

2) семантическом , где анализируются отношения между знаками и обозначаемыми ими предметами, действиями, качествами, т. е. смысловое содержание сообщения, его отношение к источнику информации. Проблемы семантического уровня связаны с формализацией и учетом смысла передаваемой информации, определения степени соответствия образа объекта и самого объекта. На данном уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи, формируются понятия и представления, выявляется смысл, содержание информации, осуществляется ее обобщение.

3) прагматическом , где рассматриваются отношения между сообщением и получателем, т. е. потребительское содержание сообщения, его отношение к получателю.

На этом уровне интересуют последствия от получения и использования данной информации потребителем. Проблемы этого уровня связаны с определением ценности и полезности использования информации при выработке потребителем решения для достижения своей цели. Основная сложность здесь состоит в том, что ценность, полезность информации может быть совершенно различной для различных получателей и, кроме того, она зависит от ряда факторов, таких, например, как своевременность ее доставки и использования.


Для каждого из рассмотренных выше уровней проблем передачи информации существуют свои подходы к измерению количества информации и свои меры информации. Различают соответственно меры информации синтаксического уровня, семантического уроня и прагматического уровня.

Меры информации синтаксического уровня. Количественная оценка информации этого уровня не связана с содержательной стороной информации, а оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. В связи с этим данная мера дает возможность оценки информационных потоков в таких разных по своей природе объектах, как системы связи, вычислительные машины, системы управления, нервная система живого организма и т. п.

Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации (данных) – V д (объемный подход) и количество информации – I (энтропийный подход).

Объем информацииV д (объемный подход). При реализации информационных процессов информация передается в виде сообщения, представляющего собой совокупность символов какого-либо алфавита. При этом каждый новый символ в сообщении увеличивает количество информации, представленной последовательностью символов данного алфавита. Если теперь количество информации, содержащейся в сообщении из одного символа, принять за единицу, то объем информации (данных) V д в любом другом сообщении будет равен количеству символов (разрядов) в этом сообщении. Так как одна и та же информация может быть представлена многими разными способами (с использованием разных алфавитов), то и единица измерения информации (данных) соответственно будет меняться.

Так, в десятичной системе счисления один разряд имеет вес, равный 10, и соответственно единицей измерения информации будет дит (десятичный разряд п п дит. Например, четырехразрядное число 2009 имеет объем данных V д = 4 дит.

В двоичной системе счисления один разряд имеет вес, равный 2, и соответственно единицей измерения информации будет бит (bit (binary digit) – двоичный разряд ). В этом случае сообщение в виде n -разрядного числа имеет объем данных V д = п бит. Например, восьмиразрядный двоичный код 11001011 имеет объем данных V д = 8 бит.

В современной вычислительной технике наряду с минимальной единицей измерения данных бит широко используется укрупненная единица измерения байт , равная 8 бит. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2 8).

При работе с большими объемами информации для подсчета ее количества применяют более крупные единицы измерения:

1 Килобайт (Кбайт) = 1024 байт = 2 10 байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 2 20 байт = 1 048 576 байт;

1 Гигабайт (Гбайт) = 1024 Мбайт = 2 30 байт = 1 073 741 824 байт;

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тбайт) = 1024 Гбайт = 2 40 байт = 1 099 511 627 776 байт;

1 Петабайт (Пбайт) = 1024 Тбайт = 2 50 байт = 1 125 899 906 842 624 байт.

Следует обратить внимание, что в системе измерения двоичной (компьютерной) информации, в отличие от метрической системы, единицы с приставками «кило», «мега» и т. д. получаются путем умножения основной единицы не на 10 3 = 1000, 10 6 = 1 000 000 и т. д., а на 2 10 = 1024, 2 20 = 1 048 576 и т. д.

Количество информации I (энтропийный подход). В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого, количество информации в сообщении определяется как мера уменьшения неопределенности состояния данной системы после получения сообщения. Неопределенность может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.

Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо процесса (испытания, измерения и т.д.) неопределенности. При этом в качестве меры неопределенности вводится энтропия Н , а количество информации равно:

I = H apr – H aps

где, H apr – априорная энтропия о состоянии исследуемой системы или процесса;

H aps – апостериорная энтропия.

Апостериори (от лат. a posteriori – из последующего ) – происходящее из опыта (испытания, измерения).

Априори (от лат. a priori – из предшествующего ) – понятие, характеризующее знание, предшествующее опыту (испытанию), и независимое от него.

В случае, когда в ходе испытания имевшаяся неопределенность снята (получен конкретный результат, т. е. Н = 0), количество полученной информации совпадает с первоначальной энтропией

Рассмотрим в качестве исследуемой системы дискретный источник информации (источник дискретных сообщений), под которым будем понимать физическую систему, имеющую конечное множество возможных состояний {а i }, i = .

Все множество А = {a 1 , a 2 , ..., а n } состояний системы в теории информации называют абстрактным алфавитом или алфавитом источника сообщений.

Отдельные состояния a 1 , а 2 ,..., а n называют буквами или символами алфавита.

Такая система может в каждый момент времени случайным образом принять одно из конечных множеств возможных состояний a i . При этом говорят, что различные состояния реализуются вследствие выбора их источником.

Получатель информации (сообщения) имеет определенное представление о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределенности (энтропия) характеризуется некоторой математической зависимостью от этих вероятностей, количество информации в сообщении определяется тем, насколько уменьшается мера неопределенности после получения сообщения.

Поясним эту идею на примере.

Пусть у нас имеется 32 различные карты. Возможность выбора одной карты из колоды – 32. До произведения выбора, естественно предложить, что шансы выбрать некоторую определенную карту, одинаковы для всех карт. Произведя выбор, мы устраняем эту неопределенность. При этом неопределенность можно охарактеризовать количеством возможных равновероятностных выборов. Если теперь определить количество информации как меру устранения неопределенности, то полученную в результате выбора информацию можно охарактеризовать числом 32. Однако удобнее использовать не само это число, а логарифм от полученной выше оценки по основанию 2:

где m – число возможных равновероятных выборов (При m=2, получим информацию в один бит). То есть в нашем случае

H = log 2 32 = 5.

Изложенный подход принадлежит английскому математику Р. Хартли (1928 г.). Он имеет любопытную интерпретацию. Он характеризуется числом вопросов с ответами «да» или «нет», позволяющим определить, какую карту выбрал человек. Таких вопросов достаточно 5.

Если при выборе карты, возможность появления каждой карты не одинаковы (разновероятны), то получим статистический подход к измерению информации, предложенный К. Шенноном (1948 г.). В этом случае мера информации измеряется по формуле:

где p i – вероятность выбора i -го символа алфавита.

Легко заметить, что если вероятности p 1 , ..., p n равны, то каждая из них равна 1/N , и формула Шеннона превращается в формулу Хартли.

Меры информации семантического уровня. Для измерения смыслового содержания информации, т. е. ее количества на семантическом уровне, наибольшее распространение получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Действительно, для понимания и использования полученной информации получатель должен обладать определенным запасом знаний. Полное незнание предмета не позволяет извлечь полезную информацию из принятого сообщения об этом предмете. По мере роста знаний о предмете растет и количество полезной информации, извлекаемой из сообщения.

Если назвать имеющиеся у получателя знания о данном предмете тезаурусом (т. е. неким сводом слов, понятий, названий объектов, связанных смысловыми связями), то количество информации, содержащееся в некотором сообщении, можно оценить степенью изменения индивидуального тезауруса под воздействием данного сообщения.

Тезаурус - совокупность сведений, которыми располагает пользователь или система.

Иными словами, количество семантической информации, извлекаемой получателем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой информации.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I с , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2.1. Рассмотрим два предельных случая, когда количество семантической информации I с равно 0:

а) при S p = 0 пользователь не воспринимает (не понимает) поступающую информацию;

б) при S -> ∞ пользователь «все знает», и поступающая информация ему не нужна.

Рис. 1.2. Зависимость количества семантической информации,

воспринимаемой потребителем, от его тезауруса I c =f(S p)

Максимальное количество семантической информации потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S = S p opt), когда поступающая информация понятна пользователю и несет ему ранее неизвестные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и Sp.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему:

С = I с / V д

Меры информации прагматического уровня. Эта мера определяет полезность информации для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе.

Одним из первых российских ученых к проблеме оценки информации прагматического уровня обратился А.А. Харкевич, который предложил принять за меру ценности информации количество информации, необходимое для достижения поставленной цели, т. е. рассчитывать приращение вероятности достижения цели. Так, если до получения информации вероятность достижения цели равнялась р 0 , а после ее получения – p 1 то ценность информации определяется как логарифм отношения p 1 /p 0:

I = log 2 p 1 – log 2 р 0 = log 2 (p 1 /p 0)

Таким образом, ценность информации при этом измеряется в единицах информации, в данном случае в битах.