«Анализ методов кодирования данных»

Глава 2. Кодирование информации в системе обработки информации

bet	6/12
Sana	16.06.2023
Hajmi	448,45 Kb.
	#1515664
Turi	Реферат

1 2 3 4 5 6 7 8 9 ... 12

Bog'liq
ИНЛ Ахмедов Неъматуллох 026 19

Глава 2. Кодирование информации в системе обработки информации

2.1. Кодирование текстовой информации

Кодирование — это процесс обработки информации, который преобразует информацию из одной формы представления (системы кодирования) в другую. Инструмент кодирования — это таблица соответствия, которая устанавливает соответствие один к одному между символами или группами символов двух различных систем письма. Когда кто-то нажимает клавишу на клавиатуре, чтобы ввести букву алфавита, эта буква кодируется. Когда символы появляются на экране монитора или принтера, обратный процесс, декодирование, преобразует символы из компьютерного кода в графическое изображение.
Поскольку текст состоит из букв, символы можно считать минимальным элементом текста. Текст можно описать как набор цифр, если собрать вместе все символы, которые могут встречаться в тексте, такие как латинские буквы, кириллические буквы и знаки препинания, и присвоить каждому символу уникальное число (код символа).
Один байт может быть выделен для хранения кода одного символа; один байт может кодировать 256 различных символов. Учитывая, что каждый бит принимает значение 0 или 1, существует 28 = 256 возможных комбинаций символов в байте. Этого достаточно для представления текстовой информации, такой как русские и латинские прописные и строчные буквы, цифры, символы и псевдосимволы .
Кодирование — это процесс присвоения каждому символу десятичного кода от 0 до 255 или соответствующего двоичного кода от 00000000 до 111111111111. Таким образом, люди отличают символы от их форм, а компьютеры - от их кодов. Важно отметить, что присвоение определенного кода тому или иному символу является вопросом консенсуса, который указывается в кодовых таблицах.
Хотя технически это кажется очень простым, всегда возникают значительные организационные трудности. На заре развития вычислительной техники это было связано с отсутствием необходимых стандартов; сегодня, напротив, это связано с большим количеством одновременно действующих и противоречащих друг другу стандартов. Для того чтобы весь мир мог одинаково кодировать текстовые данные, необходима единая кодировочная таблица, но это не было достигнуто из-за несоответствия букв алфавита в разных странах и разных компаниях.
Существует несколько стандартов кодов символов, но ASCII (American Standard Code for Information Interchange) является основной базой для всех них.

ASCII имеет две фиксированные таблицы кодирования, а именно базовую и расширенную. Базовая таблица определяет кодовые значения от 0 до 127, а расширенная таблица определяет кодовые значения от 128 до 255. Базовая таблица содержит европейские символы, цифры, цифровые знаки и знаки препинания (таблица 1.1). Коды 0-32 также имеют специальные функции, такие как изменение строки и вставка пробела. Таблица расширения содержит буквы

Рис.2.1 Таблица кодов ASCII (расширенная)
В языках, использующих кириллицу, таких как русский, вторая половина таблицы ASCII должна быть полностью изменена, чтобы соответствовать кириллице. В частности, для представления кириллических символов используется так называемая "альтернативная кодировка".
Альтернативная кодировка не подходит для Windows. Русские символы в таблице были перенесены на место псевдонимов и получили кодировку Windows 1251 (Win-1251) Русский символьный код Windows-1251 был введен Microsoft "извне", но в России операционная система компании и широко используется, что говорит о том, что этот продукт уже хорошо зарекомендовал себя и широко распространен.

В настоящее время существует несколько различных таблиц кодировок для русских символов (KOI-8, CP-1251, CP-866, Mae, ISO), и текст, созданный в одной кодировке, может некорректно отображаться в другой. Эта проблема решается с помощью специального программного обеспечения, которое преобразует текст из одной кодировки в другую .
Другой популярной кодировкой является KOI-8 (код для обмена информацией, восемь цифр), которая возникла еще во времена Совета по экономическому сотрудничеству в Восточной Европе. Сегодня кодировка КОИ-8 широко используется в компьютерных сетях на территории России и в российской части Интернета.

Международный стандарт, определяющий коды русских символов, называется ISO (International Organization for Standardization - Международный институт стандартизации). На практике такое кодирование используется редко.

Если проанализировать организационные трудности в построении единой системы кодирования текстовых данных, то можно сделать вывод, что они обусловлены ограниченным количеством кодов (256). Математикам необходимо использовать специальные символы для математических формул, переводчикам - создавать тексты со смесью символов из разных алфавитов, а экономистам - денежные знаки ($, F, A). Для решения этой проблемы была разработана UNICODE - универсальная система кодирования символьной информации. В этой кодировке каждый символ составляет два байта вместо одного байта, который равен 16 битам. Очевидно, что диапазон возможных значений для чисел и символов с большим количеством битов гораздо больше, если символы не кодируются восьмизначными двоичными числами: 16-значное число может обеспечить уникальный код для 65 536 различных символов. Это поле достаточно велико, чтобы уместиться в односимвольной таблице для большинства языков на планете. Он достаточно велик, чтобы вместить латинский алфавит, кириллицу, иврит, африканские и азиатские языки, а также различные специальные символы (например, математические, экономические, технические).
(В системе кодирования UNICODE все текстовые документы автоматически удваиваются в длину). Хотя этот подход кажется тривиальным, простой механический переход к такой системе долгое время сдерживался нехваткой вычислительных ресурсов. Однако к концу 1990-х годов технические ресурсы достигли необходимого уровня, и сегодня мы наблюдаем постепенный переход документов и программных средств на универсальную систему кодирования UNICODE.

Download 448,45 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9 ... 12