Метод количественной оценки информации: статистический, семантический, прагматический и структурный.

Информация и данные

Термин информация происходит от латинского informatio, что означает разъяснение, осведомление, изложение. С позиции материалистической философии информация есть отражение реального мира с помощью сведений (сообщений). Сообщение - это форма представления информации в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т.п. В широком смысле информация - это общенаучное понятие, включающее в себя обмен сведениями между людьми, обмен сигналами между живой и неживой природой, людьми и устройствами.

Информация - сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Информатика рассматривает информацию как концептуально связанные между собой сведения, данные, понятия, изменяющие наши представления о явлении или объекте окружающего мира. Наряду c информацией в информатике часто употребляется понятие данные . Покажем, в чем их отличие.

Данные могут рассматриваться как признаки или записанные наблюдения, которые по каким-то причинам не используются, а только хранятся. В том случае, если появляется возможность использовать эти данные для уменьшения неопределенности о чем-либо, данные превращаются в информацию. Поэтому можно утверждать, что информацией являются используемые данные.

Пример 2.1. Напишите на листе десять номеров телефонов в виде последовательности десяти чисел и покажите их вашему другу. Он воспримет эти цифры как данные, так как они не предоставляют ему никаких сведений

Затем против каждого номера укажите название фирмы и род деятельности. Для вашего друга непонятные цифры обретут определенность и превратятся из данных в информацию, которую он в дальнейшем мог бы использовать.

Одной из важнейших разновидностей информации является информация экономическая. Ее отличительная черта - связь с процессами управления коллективами людей, организацией. Экономическая информация сопровождает процессы производства, распределения, обмена и потребления материальных благ и услуг. Значительная часть ее связана с общественным производством и может быть названа производственной информацией.

Экономическая информация - совокупность сведений, отражающих социально-экономические процессы и служащих для управления этими процессами и коллективами людей в производственной и непроизводственной сфере.

При работе с информацией всегда имеется ее источник и потребитель (получатель). Пути и процессы, обеспечивающие передачу сообщений от источника информации к ее потребителю, называются информационными коммуникациями .

Для потребителя информации очень важной характеристикой является ее адекватность.

Адекватность информации - это определенный уровень соответствия создаваемого с помощью полученной информации образа реальному объекту, процессу, явлению и т.п.

В реальной жизни вряд ли возможна ситуация, когда вы сможете рассчитывать на полную адекватность информации. Всегда присутствует некоторая степень неопределенности. От степени адекватности информации реальному состоянию объекта или процесса зависит правильность принятия решений человеком.

Пример 2.2. Вы успешно закончили школу и хотите продолжить образование по экономическому направлению. Поговорив с друзьями, вы узнаете, что подобную подготовку можно получить в разных вузах. В результате таких бесед вы получаете весьма разноречивые сведения, которые не позволяют вам принять решение в пользу того или иного варианта, т.е. полученная информация неадекватна реальному состоянию дел. Для того чтобы получить более достоверные сведения, вы покупаете справочник для поступающих в вузы, из которого получаете исчерпывающую информацию. В этом случае можно говорить, что информация, полученная вами из справочника, адекватно отражает направления обучения в вузах и помогает вам определиться в окончательном выборе.

ФОРМЫ АДЕКВАТНОСТИ ИНФОРМАЦИИ

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения смысловая сторона. Эта форма способствует восприятию внешних структурных характеристик, т.е. синтаксической стороны информации.

Семантическая (смысловая) адекватность . Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность . Она отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Проявляются прагматические свойства информации только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

МЕРЫ ИНФОРМАЦИИ

Классификация мер

Для измерения информации вводятся два параметра: количество информации I и объем данных V д.

Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.1).

Рис. 2.1. Меры информации

Синтаксическая мера информации

Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

Объем данных . в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

в двоичной системе счисления единица измерения - бит (bit - binary digit - двоичный разряд);

Примечание. В современных ЭВМ наряду с минимальной единицей измерения данных "бит" широко используется укрупненная единица измерения "байт", равная 8 бит.

в десятичной системе счисления единица измерения -дит (десятичный разряд).

Пример 2.3. Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных V д=8 бит.

Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных V д=6 дит.

Количество информации - на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a. Мерой его неосведомленности о системе является функция H(a), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию Ib(a), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b) неопределенность состояния системы стала Hb(a).

Тогда количество информации Ib(a) о системе, полученной в сообщении b, определится как

Ib(a)=H(a)-Hb(a),

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность Hb(a) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Ib(a)=H(a). Иными словами, энтропия системы H(a) может рассматриваться как мера недостающей информации.

Энтропия системы H(a), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где Р i - вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi= 1/N , ее энтропия определяется соотношением

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

N = m n ,

где N -число всевозможных отображаемых состояний;

т - основание системы счисления (разнообразие символов, применяемых в алфавите);

п - число разрядов (символов) в сообщении.

Пример 2.4. Но каналу связи передается n-разрядное сообщение, использующее т различных символов. Так как количество всевозможных кодовых комбинаций будет N = m n , то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет I = logN = logm - формула Хартли.

Если в качестве основания логарифма принять т, то I = n . В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = V д , полученных по каналу связи. Для неравновероятных состояний системы всегда I < V д = n .

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Причем 0

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Семантическая мера информация

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I c , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис.2.2. Рассмотрим два предельных случая, когда количество семантической информации I c равно 0:

при S p 0 пользователь не воспринимает, не понимает поступающую информацию;

при S p ; пользователь все знает, н поступающая информация ему не нужна.

Рис. 2.2. Зависимость количества семантической информации. воспринимаемой потребителем, от его тезауруса I c = f (S p )

Максимальное количество семантической информации I c потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S p = S p opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S p .

Относительной мерой количества семантической информации может служить коэффициент содержательности С , который определяется как отношение количества семантической информации к ее объему:

Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Пример 2.5. В экономической системе прагматические свойства (ценность) информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой:

I n b (g )= П (g / b )- П (g ),

где I n b (g ) -ценность информационного сообщения b для системы управления g,

П(g ) -априорный ожидаемый экономический эффект функционирования системы управления g,

П(g / b ) - ожидаемый эффект функционирования системы g при условии, что для управления будет использована информация, содержащаяся в сообщении b.

Для сопоставления введенные меры информации представим в табл.2.1.

Таблица 2.1. Единицы измерения информации и примеры

Мера информации
Единицы измерения

Примеры
(для компьютерной области)

Синтаксическая:

шенноновский подход

компьютерный подход

Степень уменьшения неопределенности

Единицы представления информации

Вероятность события

Бит, байт и т.д.

Семантическая

Тезаурус

Экономические показатели

Пакет прикладных программ, персональный компьютер, компьютерные сети и т.д.

Рентабельность, производительность, коэффициент амортизации и т.д.

Прагматическая

Ценность использования

Емкость памяти, производительность компьютера, скорость передачи данных и т.д.

Время обработки информации и принятия решений

КАЧЕСТВО ИНФОРМАЦИИ

Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость.

  • Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют:
  • правильность концепции, на базе которой сформулировано исходное понятие;
  • обоснованность отбора существенных признаков и связей отображаемого явления.
  • Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.
  • Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т.е. C=Ic/Vд.

С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных.

Наряду с коэффициентом содержательности С, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации (по Шеннону) к объему данных Y=I/Vд.

  • Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принята правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений.
  • Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.
  • Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.
  • Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи.
  • Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:
  • формальная точность, измеряемая значением единицы младшего разряда числа;
  • реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется;
  • максимальная точность, которую можно получить в конкретных условиях функционирования системы;
  • необходимая точность, определяемая функциональным назначением показателя.

Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.

Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.

В заключение следует отметить, что такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем. Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методическом уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность. При этом параметры актуальности и точности жестко связаны соответственно с параметрами своевременности и достоверности.

ВВЕРХ

Метод количественной оценки информации: статистический, семантический, прагматический и структурный

Для того чтобы оценить и измерить количество информации в соответствии с изложенными аспектами, применяются различные подходы. Среди них выделяются статистический, семантический, прагматический и структурный. Исторически наибольшее развитие получил статистический подход.

Согласно статистическому подходу было введено понятие «количество информации» как меры неопределенности состояния системы, снимаемой при получении информации. Количественно выраженная неопределенность состояния получила название «энтропия». При получении информации уменьшается неопределенность, т.е. энтропия, системы. Очевидно, что чем больше информации получает наблюдатель, тем больше снимается неопределенность, и энтропия системы уменьшается, т.е. энтропия системы может рассматриваться как мера недоста­ющей информации. При энтропии, равной нулю, о системе имеется полная информация, и наблюдателю она представляется целиком упорядоченной. Таким образом, получение информации связано с изменением степени неосведомленности получателя о состоянии этой системы.

Следует отметить, что статистический метод определения количества информации практически не учитывает семантического и прагматического аспектов информации.

Семантический подход определения количества информации является наиболее трудно формализуемым и до сих пор окончательно не определившимся.

Наибольшее признание для измерения смыслового содержания информации получила тезаурусная мера. Для понимания и использования информации ее получатель должен обладать определенным запасом знаний.

Если индивидуальный тезаурус потребителя (S n) отражает его знания о данном предмете, то количество смысловой информации (I с), содержащееся в некотором сообщении, можно оценить степенью изменения этого тезауруса, произошедшего под воздействием данного сообщения. Очевидно, что количество информации (I с) нелинейно зависит от состояния индивидуального тезауруса пользователя, и хотя смысловое содержание сообщения постоянно, пользователи, имеющие различные тезаурусы, будут получать неодинаковое количество информации. Например, если индивидуальный тезаурус получателя информации близок к нулю (S n = 0), то в этом случае и количество воспринятой информации равно нулю (I c = 0). Например, при прослушивании сообщения на неизвестном иностранном языке извлечь из него информацию, не владея языком, невозможно.

Количество семантической информации (I с) в сообщении также будет равно нулю, если пользователь информации абсолютно все знает о предмете, т.е. его тезаурус (S n) и сообщение не дают ему ничего нового.

Прагматический подход определяет количество информации как меры, способствующей достижению поставленной цели. Этот подход рассматривает количество информации как приращение вероятности достижения цели.

При оценке количества информации в семантическом и прагматическом аспектах необходимо учитывать и временную зависимость информации (так как информация, особенно в системах управления экономическими объектами, имеет свойство стареть, т.е. ее ценность со временем падает).

Структурный подход связан с проблемами хранения, реорганизации и извлечения информации и по мере увеличения объемов накапливаемой информации приобретает все большее значение.

При структурном подходе абстрагируются от субъективности, относительной ценности информации и рассматривают логические и физические структуры организации информации.

Структура соц-трудовой информации: показатели, реквизиты и документы

В 160 Конвенции Международной организации труда (МОТ) «О статистике труда» и в 170 Рекомендации МОТ «О статистике труда» /1985 г./ определены основные направления сбора и анализа социально-трудовой информации на макроэкономическом уровне:

Экономически активное население, занятость, безработица и неполная занятость;

Заработная плата и продолжительность рабочего времени;

Индексы цен на потребительские товары;

Стоимость рабочей силы;

Расходы и доходы домашних хозяйств;

Производственный травматизм и профессиональные заболевания;

Трудовые конфликты;

Производительность труда

Показатель - обобщающая характеристика св-в обьекта или процесса. Показатель выступает методологическим инструментом, обеспечивающим возможность проверки теоретических положений с помощью эмпирических данных.

1)качеств фиксирующие наличие или отсутсвие опред. св-ва
2)колличеств. Фиксирующие меру выраженности, развития, определенные св-ва

Трудовые показатели котоые используются для исчисления кол-ва затраченного труда и выражаются в единицу времени. С их помощью рассчитываются: ПТ, ЗП, и т.д.

Соц. показатели кач. или колличеств характеристика отдельных св-в и состояний соц объектов и процессов, отражает особенности в статистике и динамике

Билет номер 2

Билет номер 3

Информационные модели: описательные и формальные

Описательные информационные модели - это модели, созданные на естественном языке (то есть на любом языке общения между людьми: английском, русском, китайском, мальтийском и т. п.) в устной или письменной форме.

Формальные информационные модели - это модели, созданные на формальном языке (то есть научном, профессиональном или специализированном). Примеры формальных моделей: все виды формул, таблицы, графы, карты, схемы и т. д.

Хроматические (информационные) модели - это модели, созданные на естественном языке семантики цветовых концептов и их онтологических предикатов (то есть на языке смыслов и значений цветовых канонов, репрезентативно воспроизводившихся в мировой культуре). Примеры хроматических моделей: «атомарная» модель интеллекта (АМИ), межконфессиональная имманентность религий (МИР), модель аксиолого-социальной семантики (МАСС) и др., созданные на базе теории и методологии хроматизма.

Виды информационных моделей

Табличные – объекты и их свойства представлены в виде списка, а их значения размещаются в ячейках прямоугольной формы. Перечень однотипных объектов размещен в первом столбце (или строке), а значения их свойств размещаются в следующих столбцах (или строках).

Иерархические – объекты распределены по уровням. Каждый элемент высокого уровня состоит из элементов нижнего уровня, а элемент нижнего уровня может входить в состав только одного элемента более высокого уровня.

Сетевые – применяют для отражения систем, в которых связи между элементами имеют сложную структуру.

Билет номер 4. Задачи и функции Информационных систем. Типология информационных систем по их масштабу, области применения, характеру решаемых задач, совокупности выполняемых функций, степени их автоматизации, виду информации и т.п.

Информационная система - это взаимосвязанная совокупность средств, методов и персонала, используемых для хранения, обработки и выдачи информации для достижения цели управления.

ü Цель функционирования – удовлетворение конкретных информационных потребностей в рамках определенной предметной области

ü Результатом функционирования – информационная продукция - документы, информационные массивы, базы данных и информационные услуги

Билет номер 5

Технологическое обеспечение АСУ: (обеспечивающие подсистемы информационных технологий) информационное, лингвистическое, техническое, программное, математическое, организационное и эргономическое. Правовое обеспечение.

Технологическое обеспечение - EDP (Electronic Data Processing) - это со-вокупность методов и средств сбора, хранения, передачи, обработки и защиты информации на базе вычислительной техники и средств коммуникаций.

Билет номер 6

Назначение и виды АРМ

Использование АРМ в современном офисе максимально облегчает работу специалиста, высвобождая время и усилия, которые ранее расходовались на выполнение рутинных операций сбора данных и сложных расчетов, для творческой научно-обоснованной деятельности в решении профессиональных задач. Целью внедрения является улучшение следующих показателей:

Автоматизация труда, использование трудосберегающих технологий (например, использование компьютеров); повышение безопасности производства (при использовании в промышленности); более быстрое принятие управленческих решений; мобильность работников; повышение производительности труда

Для характеристики АРМ можно выделить основные составные части информационной технологии , его реализующей. К ним относятся:1. технические и аппаратные средства обеспечения (компьютеры, принтеры, сканеры, кассовые аппараты и другое дополнительное оборудование);2. прикладные программные средства и операционные системы (ОС);3. информационное обеспечение (стандарты документов и унифицированных форм, стандарты представления показателей, классификаторы и справочная информация);4. сетевые и коммуникационные устройства (локальные и корпоративные сети, электронная почта).

Характеристики этих составляющих и определяют уровень АРМ, его назначение и особенности. АРМ предназначены для обеспечения условий комфортной, высокопроизводительной и качественной работы специалиста и должны удовлетворять следующим требованиям:

Пользовательский интерфейс должен быть прост, удобен и доступен даже неподготовленному пользователю. Он должен содержать систему подсказок, желательно в демонстрационной форме (видео, звуковой, анимационной);

Необходимо обеспечивать безопасность специалиста и выполнение всех эргономических требований (комфортность, цветовую и звуковую гамму, соответствующие наилучшему восприятию, удобство расположения информации и доступность всех необходимых для работы средств, единый стиль выполнения операций и т.д.);

Пользователь АРМ должен выполнять все действия, не выходя из системы, поэтому требуется оснащенность всеми необходимыми операциями;

Обеспечение бесперебойности работы АРМ должно гарантировать пользователю своевременное выполнение задач, в соответствии с графиком работы. Сбои в производстве недопустимы;

Рациональная организация труда специалиста создает комфортные условия для работы и повышает производительность труда специалиста;

Программное обеспечение АРМ должно быть совместимо с другими системами и информационными технологиями, поэтому наиболее ценными являются технологии, объединяющие несколько АРМ.

Билет номер 7

Билет номер 8

Билет номер 9

Сл3Разработка

13 января 1988 года в Нью-Йорке состоялась пресс-конференция, на которой было объявлено о союзе Ashton-Tate и Microsoft для разработки нового продукта, получившего название Ashton-Tate/Microsoft SQL Server. В этот же день был выпущен совместный пресс-релиз с анонсом нового продукта, основанного на разработках Sybase. Что касается ролей компаний в разработке и продвижении продукта, то согласно пресс-релизу Ashton-Tate должна была отвечать за контроль разработки в области баз данных (а также предоставить собственные разработки в этой области), а Microsoft же была отведена аналогичная роль в области технологий для работы в локальных сетях. После выхода SQL Server Ashton-Tate должна была получить лицензию на продукт у Microsoft и заняться розничными продажами по всему миру,а Microsoft - поставлять продукт для OEM-производителей аппаратного обеспечения .

Выход

29 апреля 1989 года началась официальная продажа Ashton-Tate/Microsoft SQL Server 1.0. Члены команды, занимавшейся SQL Server, на специальном мероприятии по сертификации команд, проходившем в Торрансе, надели майки с надписью «Ashton-Tate SQL Server: сделал вовремя и горжусь этим» (англ. Ashton-Tate SQL Server: On-Time and Proud of it ) .

Профильная пресса отзывалась достаточно положительно о новом продукте, тем не менее продажи были весьма невысокими.

К 1990 году ситуация лучше не стала. Планы по совместному продвижению продукта, в результате чего SQL Server должен был завоевать позиции в большом сообществе dBASE-разработчиков, провалились. В результате, Ashton-Tate, двумя годами ранее занимавшая лидирующие позиции на рынке СУБД для домашних ПК, ныне была вынуждена бороться за своё существование, что в свою очередь вынудило её вновь переключиться на свой основной продукт dBASE. Microsoft же тем временем запустила в продажу OS/2 LAN Managerпод собственной торговой маркой. Всё это привело к принятию решения о прекращении совместного продвижения SQL Server, после чего данный продукт был немного изменён и представлен уже как Microsoft SQL Server.

SQL Server 1.11 (1991)

В 1991 году Microsoft выпустила промежуточную версию - SQL Server 1.11. Данный выпуск был обусловлен тем, что список пользователей к тому моменту уже значительно расширился. Несмотря на то, что клиент-серверная архитектура по-прежнему не была широко распространенной, клиенты всё же постепенно переходили на неё. Но, несмотря на положительную критику от профильной прессы, продажи SQL Server по-прежнему оставляли желать лучшего.(на слайде схема)

Сл5 История выпусков на слайде.

Билет номер 10

Функциональность

Microsoft SQL Server в качестве языка запросов использует версию SQL, получившую название Transact-SQL (сокращённо T-SQL), являющуюся реализацией SQL-92 (стандарт ISO для SQL) с множественными расширениями. T-SQL позволяет использовать дополнительный синтаксис для хранимых процедур и обеспечивает поддержку транзакций (взаимодействие базы данных с управляющим приложением). Microsoft SQL Server и Sybase ASE для взаимодействия с сетью используют протокол уровня приложения под названием Tabular Data Stream (TDS, протокол передачи табличных данных). Протокол TDS также был реализован в проекте FreeTDS с целью обеспечить различным приложениям возможность взаимодействия с базами данных Microsoft SQL Server и Sybase.

Microsoft SQL Server также поддерживает Open Database Connectivity (ODBC) - интерфейс взаимодействия приложений с СУБД. Версия SQL Server 2005 обеспечивает возможность подключения пользователей через веб-сервисы, использующие протокол SOAP. Это позволяет клиентским программам, не предназначенным для Windows, кроссплатформенно соединяться с SQL Server. Microsoft также выпустила сертифицированный драйвер JDBC, позволяющий приложениям под управлением Java (таким как BEA и IBM WebSphere) соединяться с Microsoft SQL Server 2000 и 2005.

SQL Server поддерживает зеркалирование и кластеризацию баз данных. Кластер сервера SQL - это совокупность одинаково конфигурированных серверов; такая схема помогает распределить рабочую нагрузку между несколькими серверами. Все сервера имеют одно виртуальное имя, и данные распределяются по IP-адресам машин кластера в течение рабочего цикла. Также в случае отказа или сбоя на одном из серверов кластера доступен автоматический перенос нагрузки на другой сервер.

SQL Server поддерживает избыточное дублирование данных по трем сценариям:

Снимок: Производится «снимок» базы данных, который сервер отправляет получателям.

История изменений: Все изменения базы данных непрерывно передаются пользователям.

Синхронизация с другими серверами: Базы данных нескольких серверов синхронизируются между собой. Изменения всех баз данных происходят независимо друг от друга на каждом сервере, а при синхронизации происходит сверка данных. Данный тип дублирования предусматривает возможность разрешения противоречий между БД.

Редакции MS SQL Server 2000

Было доступно два типа SQLServer в различных редакциях:

· 2000 - SQL Server 2000 32-bit, кодовое название Shiloh (версия 8.0);

· 2003 - SQL Server 2000 64-bit, кодовоеназвание Liberty.

Доступны различные редакции SQLServer 2000, способные удовлетворить самые разные требования заказчиков (организаций и отдельных лиц) к производительности, исполняющей среде и стоимости.

EnterpriseEdition. Эта редакция - полный вариант SQLServer, наиболее часто предлагаемый организациям. EnterpriseEdition отличается развитыми возможностями масштабируемости и надежности, необходимыми для решения важных задач интерактивного ведения бизнеса и Интернет-приложений, в том числе распределенными секционированными представлениями, портированием журнала и улучшенными возможностями кластеризации. Эта редакция также в полном объеме использует преимущества наиболее совершенного аппаратного обеспечения, поддерживая до 32 процессоров и 64 Гб ОЗУ. Кроме того, SQLServer 2000 EnterpriseEdition включает дополнительные функции анализа.

StandardEdition. Этот вариант могут позволить себе средние и небольшие организации, которым не требуются сложные возможности масштабируемости и доступности, а также полный набор функций анализа, которые имеются в SQLServer 2000 EnterpriseEdition. StandardEdition применяют в симметричных многопроцессорных системах, в которых установлено до 4 процессоров и до 2 Гб ОЗУ.

PersonalEdition. В эту редакцию входит полный набор инструментов управления и большая часть функциональности StandardEdition, но она оптимизирована для персонального использования. PersonalEdition работает не только под управлением серверных ОС корпорации Microsoft, но и их персональных редакций, к числу которых относятся Windows 2000 Professional, WindowsNTWorkstation 4.0 и Windows 98. Поддерживаются двухпроцессорные системы. Хотя эта редакция поддерживает базы данных любого объема, ее производительность оптимизирована для одиночных пользователей и небольших рабочих групп: она снижается при загруженности, возникающей при одновременной работе более чем пяти пользователей.

DeveloperEdition. Этот вариант SQLServer позволяет разработчикам создавать приложения любых типов, функционирующие совместно с SQLServer. В эту редакцию входит вся функциональность EnterpriseEdition, но со специальным лицензионным соглашением конечного пользователя (EULA), которое допускает разработку и тестирование, но запрещает развертывание в эксплуатационных целях.

DesktopEngine (MSDE). В эту редакцию входят базовые функции механизма баз данных SQLServer 2000, однако не входят пользовательский интерфейс, управляющие инструменты, функции анализа, поддержка репликации сведением, лицензии на доступ клиентов, библиотеки разработчика и электронная документация. Здесь также ограничен размер базы данных и уровень загруженности при работе с пользователями. Редакция DesktopEngine требует меньше всего ресурсов по сравнению с остальными редакциями SQLServer 2000, поэтому она идеально подходит для реализации автономного хранилища данных.

WindowsCEEdition. Эта редакция представляет собой версию SQLServer 2000 для устройств под управлением WindowsCE. Она программно совместима с другими редакциями SQLServer 2000. Это позволяет разработчикам с помощью уже имеющихся у них навыков и приложений расширять функциональность реляционного хранилища данных решениями, работающими на новых классах устройств.

Возможности SQL Server 2000

MicrosoftSQL Server 2000 обладает рядом возможностей, обеспечивающих легкость установки, развертывания и эксплуатации, а также поддерживающих масштабируемость, создание хранилищ данных и системную интеграцию с другим серверным ПО.

В состав входит множество инструментов и функций, упрощающих процесс установки, развертывания, управления и использования баз данных. SQL Server 2000 предоставляет администраторам баз данных полный набор инструментов, необходимых для тонкой настройки SQL Server 2000 в составе промышленных онлайновых систем. SQL Server 2000 также эффективно работает в небольших однопользовательских системах, при этом издержки на администрирование минимальны.

Установка или обновление происходит под управлением приложения с графическим интерфейсом (GUI-приложения), которое направляет действия пользователя при вводе сведений, необходимых программе установки. Программа установки автоматически определяет наличие ранней версии SQL Server. После завершения установки SQL Server 2000 она спрашивает пользователя, не желает ли он запустить мастер обновления SQL Server 2000 (SQL Server 2000 Upgrade wizard), под руководством которого будет быстро выполнен процесс обновления. Таким образом, весь процесс установки или обновления завершается быстро, причем пользователю приходится вводить минимум информации.

SQL Server 2000 автоматически и динамически меняет свою конфигурацию в процессе работы. По мере роста числа пользователей, подключенных к SQL Server 2000, он может динамически выделять необходимые ресурсы, например память. При снижении загруженности SQL Server 2000 освобождает ресурсы и возвращает их системе. Если на сервере одновременно запускаются другие приложения, SQL Server 2000 обнаружит выделение для них дополнительной виртуальной памяти и уменьшит объем используемой им виртуальной памяти, чтобы снизить издержки на подкачку страниц. SQL Server 2000 также способен автоматически увеличивать или уменьшать размер базы данных по мере добавления или удаления информации.

SQL Server 2000 работает с другими программными продуктами, образуя стабильное и безопасное хранилище информации для Интернета и интрасетей:

· SQL Server 2000 работает с механизмами безопасности и шифрования Windows 2000 Server и Windows NT Server, реализуя безопасное хранилище информации;

· SQL Server 2000 является высокопроизводительной службой хранения данных для Web-приложений, работающих по управлением Microsoft Internet Information Services;

· SQL Server 2000 можно использовать вместе с Site Server для обслуживания больших и сложных Web-сайтов электронной коммерции;

· поддержка TCP/IP Sockets позволяет интегрировать SQL Server 2000 с Microsoft Proxy Server для реализации безопасной связи через Интернет и в интрасетях.

Производительность SQL Server 2000 можно довести до уровня, необходимого для работы огромных Интернет-узлов. Кроме того, в механизме баз данных SQL Server 2000 есть встроенная поддержка XML, а мастер Web Assistant помогает генерировать страницы HTML (Hypertext Markup Language) на основе данных SQL Server 2000 и публиковать эти данные для доступа по протоколам HTTP (Hypertext Transport Protocol) и FTP (File Transfer Protocol).

SQL Server поддерживает аутентификацию Windows, что позволяет применять в качестве учетных записей SQL Server 2000 пользовательские и доменные учетные записи Windows NT и Windows 2000.

Аутентификацию пользователей при подключении к сети осуществляет Windows 2000. При соединении с SQL Server, клиентское ПО запрашивает доверенное соединение, которое может быть предоставлено, только если пользователи прошли аутентификацию Windows NT или Windows 2000. Таким образом, SQL Server сам не выполняет проверку пользователей, а пользователям не требуются отдельные имена и пароли для подключения к каждой системе SQL Server SQL Server 2000 может посылать и получать электронную почту и пейджинговые сообщения от Microsoft Exchange или других почтовых серверов, совместимых с MAPI (Message Application Programming Interface). Эта функция обеспечивает отсылку почты с помощью пакетов, хранимых процедур и триггеров SQL Server 2000. События и уведомления SQL Server 2000 можно настроить так, чтобы в случае возникновения серьезных проблем или даже при риске их возникновения администратор сервера автоматически получал уведомления по электронной почте или на пейджер.

Инструменты SQL Server 2000

Enterprise Manager

SQL Server Enterprise Manager - основной инструмент администрирования SQL Server 2000, поддерживающий пользовательский интерфейс, совместимый с MMC (Microsoft Management Console) и позволяющий решать ряд административных задач:

· определять группы серверов, работающих под управлением SQL Server;

· регистрировать отдельные серверы в группе;

· настраивать любые параметры SQL Server для всех зарегистрированных серверов;

· создавать и администрировать любые базы данных, объекты, идентификаторы пользователей, учетные имена и права доступа к SQL Server на каждом из зарегистрированных серверов;

· определять и исполнять все административные задачи SQL Server на каждом зарегистрированном сервере;

· интерактивно конструировать и тестировать операторы SQL, пакеты и сценарии, вызывая SQL Query Analyzer;

· вызывать различные мастера SQL Server.

MMC поддерживает общий интерфейс для управления различными серверными приложениями в сети Microsoft Windows. В состав серверных приложений входит такой компонент, как оснастка, который предоставляет пользователям MMC интерфейс для управления серверным приложением. SQL Server Enterprise Manager являетсяоснасткой MMC для Microsoft SQL Server 2000.

SQL Server Agent

SQL Server Agent работает на сервере, который функционирует под управлением экземпляра SQL Server 2000 или более ранних версий SQL Server. SQL Server Agent отвечает за решение следующих задач:

· запуск заданий SQL Server, запланированных для исполнения в определенное время или по истечении определенного периода времени;

· определение особых условий, при наступлении которых необходимо выполнить заданное администратором действие, например предупредить кого-нибудь, отправив сообщение на пейджер или по электронной почте, или запустить задачу, соответствующую этим условиям;

· запуск определенных администраторами задач, выполняющих репликацию.

SQL Profiler

SQL Profiler - это инструмент для записи событий SQL Server 2000. События сохраняются в файле трассировки, который в последствии можно проанализировать или использовать для повтора некоторой последовательности действий при диагностировании возникшей проблемы. SQL Profiler применяется для:

· пошагового исполнения проблемных запросов и определения источника проблемы;

· поиска и диагностики медленных запросов;

· записи последовательностей SQL-операторов, приводящих к возникновению проблем;

· мониторинга производительности SQL Server и регулирования его загруженности.

SQL Profiler также поддерживает аудит действий, выполненных с экземплярами SQL Server. Информация о действиях, имеющих отношение к безопасности, сохраняется для последующего просмотра администратором, отвечающим за безопасность.

Service Manager

SQLServerServiceManager предназначен для запуска, остановки и приостановки серверных компонентов SQLServer 2000. Эти компоненты работают как службы в Microsoft Windows NT или Windows 2000, а в Windows 95 и Windows 98 - как отдельные исполняемые программы.

SQL Server. Реализует механизм баз данных SQL Server. Для каждого экземпляра SQL Server, работающего на компьютере, существует по одной службе SQL Server.

SQL Server Agent. Реализует агент, который запускает запланированные административные задачи SQL Server. Для каждого экземпляра SQL Server, работающего на компьютере, имеется по одной службе SQL Server Agent.

Microsoft Search (толькодля Windows NT и Windows 2000). Реализует механизм полнотекстового поиска. Существует в единственном экземпляре, независимо от числа экземпляров SQL Server на компьютере.

MSDTC (только для Windows NT и Windows 2000). Управляет распределенными транзакциями. Существует в единственном экземпляре, независимо от числа экземпляров SQL Server на компьютере.

MSSQLServerOLAPService (толькодля Windows NT и Windows 2000). Реализует Analysis Services. Существует в единственном экземпляре, независимо от числа экземпляров SQL Server на компьютере.

Окно Service Manager может быть скрыто и представлено значком в системной области панели задач. Чтобы вывести меню со списком задач, которые поддерживает Service Manager, щелкните правой кнопкой значок на панели задач.

SQL Query Analyzer

SQL Query Analyzer - это инструмент с графическим интерфейсом, предназначенный для решения множества различных задач:

· создания запросов и сценариев SQL, а также исполнения их с базами данных SQL Server;

· создания часто используемых объектов баз данных в стандартных сценариях;

· копирования существующих объектов баз данных;

· исполнения хранимых процедур без задания их параметров;

· отладки хранимых процедур;

· отладки запросов, имеющих проблемы с производительностью;

· поиска объектов в базах данных, а также просмотра и работы с объектами;

· добавления, обновления и удаления строк в таблице;

· определения комбинаций клавиш для запуска часто используемых запросов;добавления часто используемых команд в меню Tools.

SQL Query Analyzer запускают непосредственно из меню Start илив SQL Server Enterprise Manager. Его также можно запустить, введя в командной строке команду isqlw.

Билет номер 11

Большие объекты

DB2/2 и DB2/6000 предоставляют пользователю такие новые типы данных, как большие бинарные объекты (BLOBS) и большие текстовые объекты (CLOBS).

BLOBS позволяют хранить данные любого вида размером до двух гигабайт.

Вариант 1: функция имеет прямой доступ к БД, что позволяет достичь максимальной производительности, но представляет собой потенциальную угрозу работоспособности сервера и целостности данных

Вариант 2: функция выполняется как отдельный от сервера БД процесс, что обеспечивает защиту данных и СУБД, но снижает производительность

Плюсы

Есть хорошая бесплатная версия

Хорошая бесплатная техподдержка

Есть возможность получить платную поддержку производителя, что позволяет применять в Entrprise секторе бизнеса

С конфигурациями

Хорошая производительность

Лучше обрабатывает ситуации вроде "не хватает памяти для сервера 1С"

Нет ограничения на 256 таблиц, что расширяет возможности при работе с RLS

Минусы

Мало специалистов

Небольшая распространенность

Размер баз больше, чем в других субд

Автоподстройка системы есть, но неполная

Некоторые сообщения платформой могут не верно обрабатываться

Билет номер 12

Билет номер 14

Билет номер 15.

Windows Open Services Architecture (WOSA)-набор открытых стандартов взаимодействия прикладных систем

В Windows поддерживается семейство стандартов, облегчающих написание и обеспечивающих вертикальную открытость приложений. Общее название этих стандартов - WOSA (Windows Open Services Architecture .

(WOSA) предоставляет набор открытых стандартов взаимодействия компонент прикладных систем на серверных и клиентских сторонах.

Семейство подразделяется на три категории:

— стандарты общего назначения;

— коммуникационные стандарты;

— стандарты для финансовых приложений и сервисов.

В группу стандартов общего назначения входят:

— Open Database Connectivity (ODBC) -доступ к базам данных

— Messaging Application Programming Interface (MAPI)- пересылка сообщений

— Telephony Application Programming Interface (TAPI) -доступ по телефонной линии

В группу коммуникационных
стандартов входят следующие элементы:

— Windows SNA API-интерфейс связи хостов

— Windows Sockets-интерфейс связи на основ протокола TCP/IP

— Microsoft Remote Procedure Call (RPC) -интерфейс удаленного вызова процедур

В группу стандартов для финансовых приложений и сервисов входят два элемента

— Расширение WOSA для оперативных рыночных данных (WOSA/ XRT)

— Расширение WOSA для финансовых сервисов (WOSA/XFS)

Каждый из стандартов семейства WOSA описывает архитектуру, включающую в себя следующие основные компоненты:

Прикладной программный интерфейс (API)

Интерфейс с сервером (SPI)

Менеджер группы приложений/сервисов

База данных для регистрации приложений/сервисов.

Билет номер 16

Рис. 1. Движение информации от базы данных к приложению

Из рисунка видно, что при разработчике приложения-СУБД программист работает с наборами компонентов, предназначенных для обмена информацией с базами данных и ее отображения. В зависимости от выбранного механизма доступа к базе данных некоторые наборы компонентов могут не использоваться, однако все они, вне зависимости от особенностей используемой базы данных и механизма доступа к ней, имеют схожие свойства и методы.

ODBC (Open Database Connectivity – открытый доступ к базам данных) – разработанный компанией Microsoft универсальный интерфейс программирования приложенийдля доступа к базам данных .

Основной целью разработки протокола ODBC считается стандартизация механизмов взаимодействия с различными СУБД. Основная проблема, связанная с разработкой приложений, взаимодействующих с базами данных на основе специальных SQL API, состояла в том, что каждая СУБД имела собственный программный интерфейс доступа, каждый из них имел свои особенности и функционировал не совсем так, как другие. В связи с этим разработка приложения существенно зависела от используемой СУБД. Компания Microsoft сделала важный шаг для решения этой проблемы. Основная идея заключалась в разработке универсального интерфейса на уровне семейства операционных систем Windows, который мог бы быть поддержан в разных СУБД.

Рассмотрим кратко структуру программного обеспечения ODBC:

· интерфейс вызовов функций ODBC : это так называемый верхний уровень ODBC, содержащий API, который и используется непосредственно приложениями. Данный API реализован в виде библиотеки динамической компоновки Dll и входит в состав операционной системы Windows;

· драйверы ODBC : это так называемый нижний уровень ODBC, содержащий набор драйверов для СУБД, поддерживающих протокол ODBC. В рамках технологии для каждой СУБД может быть разработан соответствующий ODBC-драйвер, который будет являться промежуточным звеном между прикладной программой и СУБД, транслируя вызовы функций СУБД в вызовы внутренних специализированных функций СУБД. Таким образом решается проблема стандартизации. Для многих современных СУБД существуют специализированные драйверы ODBC, отдельно устанавливаемые в операционную систему;

· диспетчер драйверов ODBC : данный программный механизм представляет средний уровень ODBC, управляя процессом загрузки необходимых драйверов.

Схема выполнения программы с использованием протокола ODBC для доступа к данным приводится на рис.2.

Рис. 2. Схема выполнения программы с использованием протокола ODBC для доступа к данным

Операционная система Windows имеет в своем составе несколько механизмов доступа к базам данных: ODBC ,OLE DB иADO .

Технология ODBC (от англ.Open Database Connectivity – открытый механизм доступа к базам данных1 ) - это компонент операционной системыWindows , предназначенный для унификации доступа к информации, хранящейся вбазах данных различных видов.ODBC состоит из набора драйверов, осуществляющих операции обмена с определеннымибазами данных , и менеджера драйверов, осуществляющего передачу запросов от приложения к драйверу и передачу информации от драйвера к приложению (рис. 3).

Рис. 3. Движение информации между приложением и БД при использовании ODBC

Для получения и изменения данных используется язык запросов SQL , вне зависимости от того, поддерживается ли он базой данных, к которой обращается приложение. Если база данных не поддерживает языкSQL , то доступ к ней не отличается от доступа кБД , поддерживающимSQL . В этом и заключается унификация доступа к базам данных системойODBC – приложение указывает название драйвера, который должен использоваться для подключения к базе данных, и передает запрос, в котором описан состав требуемой информации. Далее механизмODBC выполняет все необходимые операции по получению информации, скрывая от приложения специфику работы с конкретной базой данных. Доступ приложений кODBC осуществляется черезAPI -функции, реализованные в динамических библиотеках.

Синтаксическая мера информации

В качестве синтаксической меры количество информации представляет объем данных.

Объем данных V d в сообщении «в» измеряется количестве символов (разрядов) в этом сообщении. Как мы упоминали, в двоичной системе счисления единица измерения - бит. На практике наряду с этой «самой мелкой» единицей измерения данных чаще применяется более крупная единица - байт, равная 8 бит . Для удобства в качестве измерителей используются кило- (10 3), мега- (10 6), гига- (10 9) и тера- (10 12) байты и т.д. В знакомых всем байтах измеряется объем кратких письменных сообщений, толстых книг, музыкальных произведений, изображений, а также программных продуктов. Понятно, что эта мера никак не может характеризовать того, что и зачем несут эти единицы информации. Измерять в килобайтах роман Л.Н. Толстого «Война и мир» полезно, например, чтобы понять, сможет ли он разместиться на свободном месте твердого диска. Это столь же полезно, как измерять размер книги - ее высоту, толщину и ширину, чтобы оценить, поместится ли она на книжной полке, или взвешивать ее на предмет того, выдержит ли портфель совокупную тяжесть

Итак. одной синтаксической меры информации явно недостаточно для характеристики сообщения: в нашем примере с погодой в последнем случае сообщение приятеля содержало ненулевой объем данных, но в нем не было нужной нам информации. Заключение о полезности информации следует из рассмотрения содержания сообщения. Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, введем понятие «тезаурус получателя информации».

Тезаурус - это совокупность сведений и связей между ними, которыми располагает получатель информации. Можно сказать, что тезаурус - это накопленные знания получателя.

В очень простом случае, когда получателем является техническое устройство - персональный компьютер, тезаурус формируется «вооружением» компьютера - заложенными в него программами и устройствами, позволяющими принимать, обрабатывать и представлять текстовые сообщения на разных языках, использующих разные алфавиты, шрифты, а также аудио- и видеоинформацию из локальной или всемирной сети. Если компьютер не снабжен сетевой картой, нельзя ожидать получения на него сообщений от других пользователей сети ни в каком виде. Отсутствие драйверов с русскими шрифтами не позволит работать с сообщениями на русском языке и т.д.

Если получателем является человек, его тезаурус - это тоже своеобразное интеллектуальное вооружение человека, арсенал его знаний. Он также образует своеобразный фильтр для поступающих сообщений. Поступившее сообщение обрабатывается с использованием имеющихся знаний с целью получения информации. Если тезаурус очень богат, то арсенал знаний глубок и многообразен, он позволит извлекать информацию из практически любого сообщения. Маленький тезаурус, содержащий скудный багаж знаний, может стать препятствием для понимания сообщений, требующих лучшей подготовки.


Заметим, однако, что одного понимания сообщения для влияния на принятие решения мало - надо, чтобы в нем содержалась нужная для этого информация, которой нет в нашем тезаурусе и которую мы в него хотим включить. В случае с погодой в нашем тезаурусе не было последней, «актуальной» информации о погоде в районе университета. Если полученное сообщение изменяет наш тезаурус, может измениться и выбор решения. Такое изменение тезауруса и служит семантической мерой количества информации своеобразной мерой полезности полученного сообщения.

Формально количество семантической информации I s , включаемой в дальнейшем в тезаурус, определяется соотношением тезауруса получателя S i , и содержания передаваемой в сообщении «в» информации S. Графический вид этой зависимости показан на рис.1.

Рассмотрим случаи, когда количество семантической информации I s равно или близко к нулю:

При S i = 0 получатель не воспринимает поступающую информацию;

При 0 < S i < S 0 получатель воспринимает, но не понимает поступившую в сообщении информацию;

При S i -» ∞получатель имеет исчерпывающие знания и поступающая информация не может пополнить его тезауруса.

Рис. Зависимость количества семантической информации от тезаурса получателя

При тезаурусе S i > S 0 количество семантической информации I s , получаемое из вложенной сообщение β информации S вначале быстро растет с ростом собственного тезауруса получателя, а затем - начиная с некоторого значения S i - падает . Падение количества полезной для получателя информации происходит оттого, что багаж знаний получателя стал достаточно солидным и удивить его чем-то новым становится все труднее.

Это можно проиллюстрировать на примере студентов, изучающих экономическую информатику и читающих материалы сайтов по корпоративным ИС. Вначале при формировании первых знаний об информационных системах чтение мало что дает - много непонятных терминов, аббревиатур, даже заголовки не все понятны. Настойчивость в чтении книг, посещение лекций и семинаров, общение с профессионалами помогают пополнить тезаурус. Со временем чтение материалов сайта становится приятным и полезным, а к концу профессиональной карьеры - после написания многих статей и книг - получение новых полезных сведений с популярного сайта будет случаться намного реже.

Можно говорить об оптимальном для данной информации S тезаурусе получателя, при котором им будет получена максимальная информация Is, а также об оптимальной информации в сообщении «в» для данного тезауруса Sj. В нашем примере, когда получателем является компьютер, оптимальный тезаурус означает, что его аппаратная часть и установленное программное обеспечение воспринимают и правильно интерпретируют для пользователя все содержащиеся в сообщении «в» символы, передающие смысл информации S. Если в сообщении есть знаки, которые не соответствуют содержимому тезауруса, часть информации будет утрачена и величина I s уменьшится.

С другой стороны, если мы знаем, что получатель не имеет возможности получать тексты на русском (его компьютер не имеет нужных драйверов), а иностранных языков, на которых наше сообщение может быть послано, ни он, ни мы не изучали, для передачи необходимой информации мы можем прибегнуть к транслитерации - написанию русских текстов с использованием букв иностранного алфавита, хорошо воспринимаемого компьютером получателя. Так мы приведем в соответствие нашу информацию с имеющимся в распоряжении получателя тезаурусом компьютера. Сообщение будет выглядеть некрасиво, но всю необходимую информацию получателю удастся прочитать.

Таким образом, максимальное количество семантической информации Is из сообщения β получатель приобретает при согласовании ее смыслового содержания S c тезаурусом Si, (при Si = Sj opt). Информация из одного и того же сообщения может иметь смысловое содержание для компетентного пользователя и быть бессмысленной для пользователя некомпетентного. Количество семантической информации в сообщении, получаемом пользователем, является величиной индивидуальной, персонифицированной - в отличие от синтаксической информации. Однако измеряется семантическая информация так же, как синтаксическая, - в битах и байтах.

Относительной мерой количества семантической информации служит коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему данных V d , содержащихся в сообщении β:

С = Is / Vd

Лекция 2 по дисциплине «Информатика и ИКТ»

Для измерения информации вводятся два параметра: количество информации I и объем данных V д.

Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т. п.

Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения смысловая сторона.

Семантическая (смысловая) адекватность. Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике смысловые связи устанавливаются между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность. Она отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Проявляются прагматические свойства информации только при наличии единства информации (объекта), пользователя и цели управления.

Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.1).

Рис. 2.1. Меры информации

2.2.1. Синтаксическая мера информации

Синтаксическая мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

Объем данных V д в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

  • в двоичной системе счисления единица измерения — бит ( bit — binary digit — двоичный разряд);
  • в десятичной системе счисления единица измерения — дит (десятичный разряд).

Пример. Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных V д = 8 бит.

Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных V д = 6 дит.

Количество информации определяется по формуле:

где H (α) - энтропия, т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Энтропия системы Н (α), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где p i - вероятность того, что система находится в i -м состоянии.

Для случая, когда все состояния системы равновероятны, ее энтропия определяется соотношением

где N - число всевозможных отображаемых состояний;

m - основание системы счисления (разнообразие символов, применяемых в алфавите);

n - число разрядов (символов) в сообщении.

2.2.2. Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя .

Тезаурус — это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений смыслового содержания информации S и тезауруса пользователя S p изменяется количество семантической информации I с , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис.2.2:

  • при S p =0 пользователь не воспринимает, не понимает поступающую информацию;
  • при S p → ∞ пользователь все знает, поступающая информация ему не нужна.

Рис. 2.2. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса I с = f (S p )

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S p .

Относительной мерой количества семантической информации может служить коэффициент содержательности С , который определяется как отношение количества семантической информации к ее объему:

2.2.3. Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Для сопоставления введенные меры информации представим в табл. 2.1.

Таблица 2.1. Единицы измерения информации и примеры

Мера информации Единицы измерения Примеры (для компьютерной области)
Синтаксическая:

шенноновский подход

компьютерный подход

Степень уменьшения неопределенности Вероятность события
Единицы представления информации Бит, байт, Кбайт и т.д.
Семантическая Тезаурус Пакет прикладных программ, персональный компьютер, компьютерные сети и т.д.
Экономические показатели Рентабельность, производительность, коэффициент амортизации и т.д.
Прагматическая Ценность использования Денежное выражение
Емкость памяти, производительность компьютера, скорость передачи данных и т.д. Время обработки информации и принятия решений

Синтаксическая мера информации.

Данная мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных Vд в этом случае в сообщении измеряется количеством символов (разрядов) в сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных.

К примеру, в двоичной системе счисления единица измерения - бит (bit-binary digit - двоичный разряд). Бит – это ответ на один двоичный вопрос (“да” или “нет”; “0” или “1”), передаваемый по каналам связи с помощью сигнала. Таким образом, содержащееся в сообщении количество информации в битах определяется количеством двоичных слов естественного языка, количеством знаков в каждом слове, количеством двоичных сигналов, необходимых для выражения каждого знака.

В современных ЭВМ наряду с минимальной единицей измерения данных “бит” широко используется укрупненная единица измерения “байт”, равная 8 бит. В десятичной системе счисления единица измерения “бит” (десятичный разряд).

Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы, т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Y= I / Vд, причем 0

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя изменяется количество семантической информации Iс, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус.

Характер такой зависимости показан на рис. 1. Рассмотрим два предельных случая, когда количество семантической информации равно 0:

при = 0 пользователь не воспринимает, не понимает поступающую информацию;

При  пользователь все знает, и поступающая информация ему не нужна.