Лаборатория Разработки и Внедрения Информационных Технологий

История лаборатории
  • Начало...
  • Основные принципы подготовки и представления информации в электронной форме
  • Электронные издания на компактных оптических дисках
  • Фундаментальная электронная библиотека «Русская литература и фольклор»
  • Другие проекты электронных библиотек
  • Подготовка информации для сервиса «Яндекс–словари»
  • Исследования в области электронных библиотек и электронных изданий
  • Основные итоги и перспективы
  • Начало нашей деятельности в области электронных изданий и электронных библиотек относится к середине 1994 г. Эти работы были возложены на отдел стандартизации и сертификации баз и банков данных, преобразованный в 1996 г. в отдел электронных изданий. При этом был определен перечень основных задач, решение которых было поставлено перед отделом. В последующем на основе полученных результатов и накопленного опыта этот перечень уточнялся и расширялся. В общей сложности исследования и разработки велись по следующим основным направлениям:

  • анализ отечественного и зарубежного опыта по созданию электронных изданий и электронных библиотек, мониторинг русскоязычных электронных библиотек;
  • разработка основных принципов подготовки и представления информации в электронной форме в полнотекстовых информационных системах;
  • создание технологии преобразования печатной информации в электронную форму;
  • работы по терминологии в области электронных изданий и электронных библиотек;
  • создание электронных изданий на компактных оптических дисках;
  • создание электронных библиотек.

    К настоящему времени по указанным направлениям были получены следующие результаты:

  • создана концепция подготовки и представления информации в электронной форме в полнотекстовых информационных системах, положенная в основу создаваемых систем;
  • подготовлены один государственный и три отраслевых стандарта;
  • разработан программно-технологический комплекс подготовки информации, эксплуатирующийся в настоящее время в промышленном режиме и позволяющий обрабатывать ежегодно десятки тысяч печатных страниц;
  • выпущено на компактных оптических дисках пять электронных научных изданий;
  • создана электронная библиотека «Нормативная база ГСНТИ»;
  • ведется мониторинг русскоязычных электронных библиотек;
  • проведено исследование проблемы долговременного сохранения электронной информации и подготовлены предложения по организации работ в этом направлении.

    Особо следует выделить создание Фундаментальной электронной библиотеки «Русская литература и фольклор» (ФЭБ) — первой крупномасштабной сетевой электронной библиотеки академического типа. Эта библиотека оказалась широко востребованной как в России, так и за рубежом. Она способствует сохранению и распространение произведений русской литературы и материалов научных исследований. Кроме того, этот проект имеет большое значение и для других направлений исследований и разработок. Во-первых, в нем аккумулируются и проверяются результаты других работ, а во-вторых, этот проект сам является источником новых решений и базой для новых проектов. Работы по ФЭБ ведутся совместно с Институтом мировой литературы им. А.М. Горького РАН, специалисты которого осуществляют важный вклад в реализацию проекта. Содействует библиотеке Межведомственный суперкомпьютерный центр — на его технических средствах она размещена и функционирует. Поддержка со стороны академии наук имеет принципиальное значение для проекта.

    При разработках программного обеспечения существенная помощь была оказана специалистами компании «Яндекс». Установившееся сотрудничество позволило привлечь отдел к работам по развитию сервиса «Яндекс–словари».

    Основные принципы подготовки и представления информации в электронной форме

    Выработка принципов подготовки и представления информации в электронной форме в полнотекстовых информационных систем началась в 1994 г. Это работа основывалась на предыдущем опыте наших специалистов, анализе развития информационных технологий и потребностей конечных пользователей (читателей). Первый законченный вариант основные принципы подготовки информации приобрели в 1997 г. в виде концепции электронных научных изданий. Учитывая большое значение и интенсивное развитие электронных изданий и электронных библиотек, работы над основными принципами подготовки и представления информации в электронной форме были продолжены. Они привели к созданию концепции электронных библиотек, которая в полном объеме включила в себя концепцию электронных научных изданий.

    Электронные издания на компактных оптических дисках

    Одновременно с началом работ по созданию концепции полнотекстовой информационно–поисковой системы и разработки технологии подготовки информации для такой системы в 1994 г. были начаты практические работы по преобразованию печатной информации в электронную форму, а также выбор программных средств, обеспечивающих полнотекстовый поиск. В процессе подготовки электронной информации были опробованы четыре существовавшие в то время системы автоматического распознавания текста (OCR). Примерно через полтора года окончательный выбор пал на систему FineReader, которая в виде своих последующих модификаций и используется до настоящего времени. Сложнее обстояло дело со средствами полнотекстового информационного поиска — законченных программных продуктов, обеспечивающих качественную обработку русскоязычных текстов, еще не было. Первым шагом в решении этой проблемы стало создание информационно-поисковой системы «РЕГИСТР» на базе ИПС МИРС (руководитель разработки программного обеспечения системы — Пархоменко В.Ф.). Эта система была рассчитана на использование в операционной системе MS-DOS, начиная с версии 5.0. Однако становилось ясным, что на рынке все большую популярность завоевывает операционная среда Windows, к работе с которой ИПС «РЕГИСТР» была не готова. Выход был предложен в 1996 г. компанией «CompTek International», отделение которой «Аркадия» уже разработала Windows–версию поисковой системы «Яндекс». С тех пор все наши продукты (на компактных оптических дисках или сетевые), оснащаются этой поисковой системой.

    Полученные результаты исследований и экспериментов по перечисленным выше направлениям естественным образом привели к идее создания серии электронных научных изданий (ЭНИ) для определенной сферы деятельности. Эти издания должны были содержать основополагающие материалы, наиболее важные для данной предметной области, которые бы в электронной форме оптимально соответствовали печатным оригиналам. Электронные издания должны были выпускаться на компактных оптических дисках. Предшествующий опыт работ по стандартизации и сертификации в области баз и банков данных обусловил направленность первой серии электронных изданий — нормативные документы и классификаторы в области информатизации. В результате были созданы три ЭНИ: «Классификационные системы», «Информ–норматив» и «Библио–норматив». Развитием этого направления работ стало создание электронной библиотеки «Нормативная база ГСНТИ».

    Стремление к освоению других тематических направлений привел к контактам в середине 1995 г. с Институтом мировой литературы им. А.М. Горького РАН (ИМЛИ). В последующие годы эти контакты расширялись и укреплялись, что привело к тесному и плодотворному сотрудничеству двух организаций. Это взаимодействие положило начало работам по подготовке серии ЭНИ, посвященных классикам русской литературы. После подготовки двух ЭНИ: «Пушкин» и «Грибоедов» идея выпуска серии трансформировалась в проект создания Электронного фонда русской классической литературы. Этот проект, просуществовав два года, привел к созданию Фундаментальной электронной библиотеки «Русская литература и фольклор».

    ЭНИ «Классификационные системы»

    Электронное научное издание «Классификационные системы» создавался в 1994—95 гг. по заданию Миннауки РФ. ЭНИ было тиражировано на CD-ROM и находилось в коммерческом распространении в 1995—97 гг. Оно являлось первым в России машиночитаемым собранием разнообразных широко используемых классификационных систем (классификаторов):

  • Универсальная десятичная классификация (УДК).
  • Библиотечно-библиографическая классификация для научных (ББК-Н) и массовых (областных) библиотек (ББК-О).
  • Международная классификация изобретений (МКИ), редакция 5.
  • Государственный рубрикатор научно-технической информации (ГРНТИ).
  • Классификатор научных специальностей ВАК (ВАК).
  • Товарная номенклатура внешнеэкономической деятельности (ТН ВЭД).
  • Общероссийский классификатор продукции (ОКП).
  • Общероссийский классификатор видов экономической деятельности, продукции и услуг (ОКДП).
  • Система обозначений объектов административно-территориального деления России (СОАТО).
  • Система обозначений органов государственного управления России (СООГУ).
  • Классификатор форм собственности (КФС).
  • Классификатор организационно-правовых форм хозяйствующих субъектов (КОПФ).
  • Классификатор стран мира (КСМ) - проект ГОСТ Р на базе стандарта ISO.
  • Классификатор языков (КЯ) - проект ГОСТ Р на базе стандарта ISO.
  • Общеправовой классификатор отраслей законодательства (ОКОЗ).

    Информационные массивы перечисленных классификаторов были получены, как правило, у их владельцев или официальных держателей в объемах, соответствующих действующим официальным версиям, и актуализированы по состоянию на ноябрь 1994 г.

    Все классификаторы представлены полными текстами в составе специализированной информационно-поисковой системы (ИПС РЕГИСТР), обеспечивающей поиск по лексике с учетом грамматики русского языка и классификационным кодам, просмотр результатов поиска, а также сохранение отобранной информации в текстовом файле. ИПС РЕГИСТР позволяет работать как с каждым классификатором отдельно, так и со всеми вместе. ЭНИ было рассчитано на эксплуатацию на IBM-совместимых персональных компьютерах, начиная с i386, в операционной системе MS-DOS, начиная с версии 5.0.

    ЭНИ «Грибоедов» и «Пушкин»

    ЭНИ «Грибоедов» посвящено жизни и творчеству классика русской литературы А.С. Грибоедову. Оно явилось дальнейшим развитием идей, сформированных при создании ЭНИ «Классификационные системы». Фактически это издание стало полигоном для отработки основных принципов и технологических решений создания ЭНИ.

    В работе по созданию ЭНИ, выполненных в 1995—96 гг. принимали участие компания «CompTek International» и ИМЛИ им. А.М.Горького РАН.

    ЭНИ «Грибоедов» включало более 15 тысяч страниц печатной информации:

  • полные тексты всех известных произведений Грибоедова по 5–10 наиболее авторитетным изданиям;
  • полные тексты более 300 наиболее значимых работ о жизни и творчестве Грибоедова;
  • библиографию Грибоедова и литературы о нем (около 10 тыс. описаний);
  • летопись жизни и творчества Грибоедова;
  • несколько указателей;
  • около 400 изображений
    и ряд других материалов.

    В специальном разделе был представлен впервые подготовленный в России в полный словарь языка Грибоедова, содержащий около 13 тыс. лексем и более 130 тыс. словоупотреблений. Для каждой лексемы и словоформы представлены грамматические характеристики, каждое словоупотребление сопровождается контекстом. Полнота и точность представления информации в ЭНИ «Грибоедов» должна в полной мере обеспечить потребности квалифицированного специалиста–филолога.

    Информационная система ЭНИ обеспечивает:

  • работу с полными текстами различных видов,
  • использование развитой системы гипертекстовых и гипермедийных связей,
  • различные способы навигации во всем информационном пространстве издания,
  • эффективные информационные поиски как по произвольным словам (словосочетаниям), так и по различным формальным признакам,
  • удобный пользовательский интерфейс
    и другие возможности.

    В качестве для реализации полнотекстового информационного была использована поисковая система «Яндекс». ЭНИ «Грибоедов» был рассчитан на эксплуатацию на IBM-совместимых персональных компьютерах, начиная с i486 в операционной среде Windows 3.х/95.

    ***

    Подготовка ЭНИ «Пушкин» была приурочена к 200-летнему юбилею поэта. Оно охватывало все творческое наследие Пушкина, сопровождаемое научным комментарием, фундаментальную научную библиографию, наиболее значимые работы о его жизни и творчестве. В ЭНИ были представлены изобразительные материалы (портреты, рисунки, фотографии), а так-же факсимиле пушкинских рукописей. Общий объем информации составил более 20 тыс. печатных страниц текста, около 400 изобразительных материалов и примерно 40 тыс. библиографических описаний. Подготовка ЭНИ «Пушкин» имело принципиальное значение не только как одно из юбилейных мероприятий. Во-первых, это издание было беспрецедентно по охвату материала и средствам работы с ним и, во-вторых, оно должно было отразить уровень развития информационных технологий и их связь с гуманитарными науками и культурой в целом. ЭНИ «Пушкин» было сопоставимо с такими национальными электронными изданиями мирового значения как «Шекспир» (Великобритания), «Гете» (Германия).

    Работы по подготовке этого издания проводились в рамках программы подготовки Пушкинского юбилея. В реализации проекта помимо нашего отдела принимали участие ИМЛИ им. А.М.Горького РАН, РГГУ, РГБ и Центр ПИК. К работам были также привлечены компании «CompTek International» и «АНЕТ». Работы проводились в два этапа. На первом (завершение — май 1999 г.) подготовлена тиражируемая на CD-ROM версия электронного издания. На втором (завершение — декабрь 1999 г.) — подготовлена полная сетевая версия издания. Существенным отличием ЭНИ «Пушкин» от предыдущих разработок стала смена пользовательского интерфейса и изменение средств реализации некоторых функциональных возможностей. В информационной системе как в тиражируемом, так и в сетевом варианте стал использоваться стандартный браузер — MS Internet Explorer. Следует отметить, что эта замена привела к некоторому сокращению состава функциональных возможностей.

    ЭНИ «Информ–норматив», «Библио–норматив»

    ЭНИ «Информ–норматив» было предназначено для обеспечения информационных центров, разработчиков различных информационных и программных продуктов, а также средств вычислительной техники, для специалистов, занятых разработкой стандартов в области информатики и вычислительной техники, комплексной информацией в машиночитаемой форме об отечественных и международных нормативных документов.

    Подготовка этого издания осуществлялось в 1996—97 гг. при участии ИПК «Издательство стандартов» и компании «CompTek International». При его создании в полной мере использовались все научно-технические и технологические решения, полученные к тому времени при подготовке ЭНИ «Грибоедов». В частности, в нем была использована также информационная система и поисковая машина «Яндекс». В результате функциональные возможности этого издания совпали с основными функциональные возможности ЭНИ «Грибоедов».

    Информационная база состояла из четырех частей: стандарты, правовые документы, классификаторы и словари. Первая часть — стандарты, содержала около описания более 2.5 тыс. стандартов, в числе которых стандарты ISO, IEC, CCITT, национальные стандарты США, России и др. Из этого числа около 200 стандартов были представлены полными текстами. Вторая часть — правовые документы, включала около 500 нормативно–правовых актов: законов, указов, постановлений и др., принятых за десять предшествующих лет. Все нормативные акты были представлены полными текстами. Правовые документы были сгруппированы в следующие рубрики: Конституция и конституционные законы, Кодексы, Законы РФ, Акты Президента и Правительства РФ, законы и акты иных органов. Третью часть составили четыре классификационные системы, представленные своими фрагментами, действующими в области информатики и вычислительной техники: ГРНТИ (Государственный рубрикатор научно-технической информации), УДК (Универсальная десятичная классификация), ОКП (Общероссийский классификатор продукции), ОКС (Общероссийский классификатор стандартов). В четвертую группу вошли два словаря по информатике: словарь сокращений и терминологический словарь. Основным источником словарных статей являются терминологические стандарты и терминологические приложения к стандартам.

    ЭНИ было тиражировано на CD-ROM в 1997 г. и находилось в коммерческом распространении.

    ***

    После успешного распространения ЭНИ «Информ–норматив» в 2000 г. было принято решение о подготовке на его основе нового электронного издания. Это ЭНИ должно было отличаться от предшественника, во-первых, актуальностью информации и, во-вторых, некоторым изменением состава его потенциальных потребителей. Электронное издание, получившее название «Библио–норматив», было предназначено для специалистов в области научно–технической информации, библиотекарей и издателей. В связи с этим в новое издание не вошли стандарты, имеющие чисто техническую направленность, но были введены новые материалы, представляющие интерес для указанных категорий потенциальных читателей.

    В программном обеспечении ЭНИ «Библио–норматив» были использованы результаты работ, полученные за годы прошедшие после выпуска предыдущего издания, в частности результаты работ по ЭНИ «Пушкин». Кроме того, был существенно изменен пользовательский интерфейс.

    ЭНИ «Библио–норматив» подготавливалось совместно с ВИНИТИ. Оно было тиражировано на CD-ROM и распространялось с конца 2001 г.

    Другие проекты электронных изданий

    В продолжения серии изданий на компактных оптических дисках, посвященных классикам русской литературы, в 1999 г. были начаты работы по созданию ЭНИ «Лермонтов» и «Тургенев». Для обоих электронных изданий были проведены подготовительные работы, включавшие разработку структуры изданий и подготовку перечней материалов, подлежащих представлению в электронной форме. Далее, в 2000—2001 гг., велась подготовка информации для ЭНИ «Лермонтов». Однако, ввиду готовящегося в 2002 г. открытия Фундаментальной электронной библиотеки «Русская литература и фольклор» было принято решение издание на компактном оптическом диске не выпускать, а всю подготовленную информацию разместить в соответствующем разделе электронной библиотеки. Работы по ЭНИ «Тургенев» из-за недостаточности финансирования продолжения не имели.

    Одновременно с рассмотренными работами выполнялся в инициативном порядке проект по созданию коммерческого продукта по русской литературе. Фактически этот проект представлял собой развитие работ начатых при подготовке ЭНИ «Грибоедов» и «Пушкин», также предполагалось подготовить и выпустить на компактных оптических дисках серию электронных издания, каждое из которых было бы посвящено жизни и деятельности одного из великих русских писателей. Однако каждое издание должно было предоставляться пользователю в двух версиях: полной и облегченной. Первая была рассчитана на специалистов филологов, вторая — на учащихся. Т.о. электронное издание могло бы использоваться как в научной работе, так и в сфере образования. Кроме того, предполагалось наличие двух пользовательских интерфейсов: на русском и английском языках, что повысило бы интерес к этому проекту зарубежных читателей. За 2000—2001 гг. разработана концепция и состав серии электронных изданий, подготовлено программное обеспечение и сформирована демонстрационная версия на компактном оптическом диске. Однако отсутствие средств на полномасштабное развитие этого проекта и перевод специалистов, занятых в нем, на подготовку к открытию Фундаментальной электронной библиотеки «Русская литература и фольклор» не позволили продолжить начатые работы.

    ***

    Второй незавершенный проект, проводился также в 2000—2001 гг. он предполагал создание полнотекстовой информационно–поисковой системы "Журнал Московской Патриархии". Эта система должна была содержать полные тексты выпусков журнала за все годы его существования, полные тексты всех выпусков «Информационного бюллетеня Московской патриархии» и разнообразные указатели к этим изданиям. Предполагалось, что система будет доступна читателям через интернет, а также будет распространяться на компактных оптических дисках. Работы по проекту закончились созданием демонстрационной версии системы.

    Фундаментальная электронная библиотека «Русская литература и фольклор»

    Электронный фонд русской литературы

    Интенсивное развитие информационных технологий и их популярность в обществе, а также положительные результаты работ по преобразованию печатной информации в электронную форму и выпуск электронных научных изданий позволили обоснованно ставить вопрос о создании больших массивов (десятки Гб) проблемно ориентированной информации. В 1999 г. директором ИМЛИ им. А.М. Горького РАН чл.-корр. РАН Ф.Ф. Кузнецовым была высказана идея создания электронного фонда русской литературы. Актуальность этой идеи была обусловлена наличием следующих проблем:

  • отсутствием доступа к национальным информационным ресурсам гуманитарного содержания, который отвечал бы потребностям современного общества;
  • неэффективным использованием современных средств подготовки и проведения гуманитарных исследований и распространения их результатов;
  • недостаточной информационной культурой большинства специалистов гуманитарного профиля.

    Основные задачи электронного фонда русской литературы виделись в следующем: создание качественных и доступных электронных массивов текстов, представляющих русскую литературу и фольклор, материалы научных исследований по русской филологии, а также создание программного обеспечения, позволяющего специалистам–филологам работать с этими текстами.

    Практическим шагом по реализации этой идеи стало создание Фундаментальной электронной библиотеки «Русская литература и фольклор» (ФЭБ) и начало работ по созданию портала ИМЛИ им. А.М. Горького РАН. Дальнейшая, всесторонняя проработка идеи создания электронного фонда русской литературы привела к существенному расширению задачи и увеличению состава участников. В итоге была открыта программа Историко–филологического отделения РАН «Филология и информатика: создание системы электронных ресурсов для изучения русского языка, литературы и фольклора». Программа предусматривала проведение в 2003—2005 гг. работ по следующим направлениям:

  • Создание электронного фонда русской литературы и фольклора.
  • Создание электронной словарно–справочной системы по русской словесности.
  • Создание Национального корпуса текстов русского языка XIX-XXI вв.
  • Создание лингвистического корпуса памятников древнерусской письменности.
  • Создание, развитие и поддержка информационных систем открытого доступа.

    При этом первые два направления были главным образом связаны с формированием Фундаментальной электронной библиотеки «Русская литература и фольклор».

    Успешное завершение Программы позволило продолжить работы по перечисленным направлениям в рамках новой программы Историко–филологического отделения РАН на 2006—2008 гг. «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов». Координаторами программы являются: директор ИМЛИ им. А.М. Горького РАН акад. А.Б. Куделин и директор Института лингвистических исследований РАН акад. Н.Н. Казанский. Программа включает 31 проект, из которых 10 направлены на развитие Фундаментальной электронной библиотеки «Русская литература и фольклор» и cоздание электронного фонда русской литературы и фольклора.

    Фундаментальная электронная библиотека «Русская литература и фольклор» (ФЭБ) – академический сетевой ресурс

    ФЭБ — первая крупномасштабная сетевая электронная библиотека академического типа, специализирующаяся по русской литературе XI—XX веков и русскому фольклору. ФЭБ — полнотекстовая информационно-поисковая система, обеспечивающая сбор, хранение и распространение произведений русской словесности, результатов научных исследований в области русской литературы и фольклора, а также библиографию и словарно-энциклопедическую информацию.

    Создание и ведение ФЭБ преследуют следующие цели:

  • сохранение памятников русской словесности и аккумуляция результатов научных исследований по русской филологии;
  • предоставление всем заинтересованным лицам свободного доступа к памятникам русской словесности и научному наследию;
  • содействие гуманитарному образованию всех уровней;
  • пропаганда русской словесности и расширение международных культурных связей.

    Основные принципы ведения ФЭБ:

  • системность формирования информационного фонда;
  • точность воспроизведения исходной информации;
  • полнота представления информации, необходимая и достаточная для решения научных и образовательных задач;
  • развитые функциональные возможности, предоставляемые читателям.

    Соблюдение перечисленных принципов в их совокупности кардинально отличает ФЭБ от подавляющего большинства российских электронных библиотек.

    Актуальность проекта ФЭБ обусловлена большим дефицитом качественной информации, используемой в научной работе и учебных процессах. Данная информация доступна в полном объеме только в нескольких крупных городах России. Эта ситуация вызвана сокращением тиражей и переизданий книг, имеющих большое значение для науки и образования, и растворением качественных изданий в море суррогата. С другой стороны, широкое распространение современных информационных технологий не обеспечено необходимой электронной информацией. При обращении к сетевым ресурсам читатели очень часто получают сомнительную (а иногда и объективно плохую) информацию. В современных условиях развитие национальной культуры и, шире, национального самосознания не мыслимо без активного распространения в глобальной сети качественно подготовленных электронных материалов по русской литературе и русскому языку.

    Другие проекты электронных библиотек

    Электронная библиотека «Нормативная база ГСНТИ»

    Успешные концептуальные и программные решения, полученные при создании Фундаментальной электронной библиотеке «Русская литература и фольклор», в 2002 г. привлекли внимание специалистов Минпромнауки РФ и по их инициативе начались разработка электронной библиотеки «Нормативная база ГСНТИ». В создании библиотеки принимали участие специалисты ВИНИТИ.

    Данный проект преследовал следующие цели:

  • информирование широкой общественности о деятельности ГСНТИ
  • предоставление свободного доступа к текстам официальных документов, регламентирующих деятельность в сфере научно-технической информации, архивного, библиотечного и издательского дела,
  • повышение эффективности как научных исследований, так и информационной деятельности.

    Электронная библиотека состоит из следующих разделов:

  • Нормативно-правовые документы, регулирующих деятельность в сфере научно-технической информации смежных областях. К ним относятся Федеральные законы, Постановления и Распоряжения Правительства, Указы и Распоряжения Президента, ведомственные и региональные приказы и т. п.
  • Стандарты двух систем: Государственной системы стандартизации (ГСС) и Системы стандартов по информации, библиотечному и издательскому делу (СИБИД).
  • Классификаторы и терминологические словари:
    Универсальная десятичная классификация
    Государственный рубрикатор научно-технической информации
    Терминологический словарь по информатике
    Англо-русский словарь по информатике.
    Термины Юникод.
    Термины SGML, HTML, XML.
  • Публикации
  • Ссылки

    При создании электронной библиотеки «Нормативная база ГСНТИ» в полной мере были использованы не только опыт и основные решения, но и программно-технологические средства, разработанные для Фундаментальной электронной библиотеке «Русская литература и фольклор». Кроме того, использование значительной части материалов, представленных в ЭНИ «Библио–норматив», существенно сократило затраты на подготовку информации. Это позволило достаточно быстро — в декабре 2002 г. открыть новую библиотеку для свободного доступа всем заинтересованным лицам. Работы по информационному наполнению библиотеки продолжались в течение 2003 и 2004 гг. после чего Минпромнауки РФ прекратило финансирование этой работы.

    Всего было подготовлено и представлено в библиотеке около 500 полнотекстовых документов, в том числе около 400 нормативно-правовых акта, 60 стандартов, два классификатора и четыре документа типа "справочники—словари". Вскоре после открытия электронная библиотека «Нормативная база ГСНТИ» стала пользоваться достаточной популярностью: в среднем ежедневно к ней обращалось более 3 тыс. пользователей. С момента прекращения обновления (декабрь 2004 г.) количество обращений стало уменьшаться, что объясняется просто: появляются новые нормативные акты, отменяются действовавшие и все это не находит отражения в информационном фонде. Тем не менее, в настоящее время ежедневно к библиотеке обращается около 1 тыс. пользователей.

    Информационно-аналитической системы «Русская поэзия»

    С 2005 г. сотрудники отдела участвуют в работах по созданию информационно-аналитической системы «Русская поэзия» (ИАС РП). Проект ведется при поддержке Российского фонда фундаментальных исследований; руководитель проекта акад. В.Е. Захаров. Фундаментальная теоретическая проблема, на решение которой направлен проект — аккумуляции знания в гуманитарных науках. Конкретная область приложения – русская поэзия на протяжении всей ее истории. Цель проекта – создание информационно-аналитической системы, интегрирующей теоретико-литературные, историко-литературные и лингвостиховедческие знания о русских поэтах и русской поэзии.

    Осуществление проекта предполагает создание программно-технологического инструментария, обеспечивающего разнообразные информационные поиски. Это прежде всего поиск слов и словосочетаний с учетом морфологии русского языка разных исторических периодов по текстам, реализованным в разных орфографических системах. Затем, это поиск нужных словоформ по заданным морфолого-синтаксическим параметрам с учетом акцентологической структуры слов и места слова в стихе. Далее, это разработка специальных алгоритмов и создание программ автоматического лингвостиховедческого анализа и автоматизированной лингвостиховедческой разметки. Наконец, это поиск в области метаданных, т. е. поиск произведений по формальным атрибутам, набор которых будет уточняться по мере тезаврирования проблемной области.

    Разработка экспертной системы по русской поэзии представляет собой сложную задачу, которая решается поэтапно.
    Первый этап: предварительная "инвентаризация" и формирование основы информационного фонда, разработка базовой понятийной системы, формулирование основных типов решаемых задач.
    Второй этап: создание информационно-справочной системы по русской поэзии как площадки для дальнейшего формирования экспертной системы. Одной из основных задач данной системы является интенсивный сбор информации и накопление знаний по указанной тематической области.
    Третий этап: выбор основных научных и технических решений для создания ядра экспертной системы.
    Четвертый этап: формирование и сдача в эксплуатацию экспертной системы по русской поэзии.
    Пятый этап: интеграция экспертной системы с проектами аналитической и библиотечной ориентации.

    ИАС РП представляет собой экспертную систему, аккумулирующую разнообразную информацию в данной предметной области и продуцирующую новые знания.

    ИАС РП предназначена для системного накопления и сохранение произведений русской поэзии и комментариев, библиографии и результатов научных исследований в этой области; широкого распространение произведений русской поэзии и связанных с ней исследовательских работ, в частности организация свободного и удобного сетевого доступ к ним; содействия научным исследованиям и образованию в гуманитарной сфере; фиксирования формализованного знания в гуманитарной области.

    В соответствии с задачами, стоящими перед системой, аккумулируемая в ней информация представляет собой: полные тексты произведений; формализованные сведения о декларируемых в системе сущностях (произведениях, авторах и т.д.); понятийный аппарат предметной области, представленный тезаурусом; формализованные утверждения, правила вывода и алгоритмы решения заданного множества задач.

    В ходе работ сотрудники нашего отдела участвовали в разработке концепции ИАС РП, проектировании экспериментального варианта первой очереди системы и подготавливали информацию. При этом были сформированы четыре БД:

  • Personalia – коллекция биографической информации о русских поэтах и ученых, работающих в области поэтологии;
  • Библиография – библиографический указатель публикаций поэтических произведений и научных работ по поэтологии;
  • Поэтология – коллекция текстов научных работ по поэтологическим дисциплинам;
  • Поэзия – коллекция текстов поэтических произведений.

    В 2006 г. была подготовлена программно-технологическая база для создания и ведения тезауруса по русской поэзии и сформирована экспериментальная БД.

    Созданный экспериментальный вариант системы использует СУБД MS SQL Server 2000 и обеспечивает сетевой доступ с информации; устойчивость к увеличению количества пользователей системы; устойчивость к увеличению объемов информации; минимальные требования для доступа к системе; возможность ее модификации. Для реализации информационных поисков (лексического и атрибутного) использована модификация поисковой машина компании «Яндекс», применяемая в Фундаментальной электронной библиотеке «Русская литература и фольклор».

    С 2007 г. осуществляется загрузка информации в систему и формирование тезауруса.

    Подготовка информации для сервиса «Яндекс–словари»

    В конце 2004 г. компания «Яндекс» пригласила нас участвовать в проекте создания нового раздела (сервиса) портала "Яндекс". Этот раздел должен представлять собой интегрированную словарно-энциклопедическую систему широкого профиля, использующую информационные ресурсы высокого качества. Основанием для этого предложения стал большой опыт специалистов нашего отдела по подготовке высококачественной информации сетевых полнотекстовых информационных систем и профессиональное знание различных видов отечественных информационных ресурсов.

    В течение последующего года велась совместная подготовка концепции сервиса — «Основных проектных решений», определивших основные направления работ, принципы отбора и подготовки информации. В этом документе были также отражены наиболее существенные организационные, правовые и технологические вопросы. В соответствии с концепцией была создана редакция сервиса, в состав которой вошли специалисты «Яндекса» и нашего отдела. Перед редакцией поставлен широкий круг задач, в частности, планирование работ по подготовке информации, оперативное управление технологическим процессом, организация экспертизы контента, управление юридическим сопровождением проекта.

    Фактически, основной целью проекта является создание электронной библиотеки, которая должна предоставлять пользователям интернета максимально качественную, достоверную и актуальную информацию обо всех сферах жизни человека. Источниками такой информации выступают универсальные и тематические энциклопедии, справочники, различные словари русского языка и иностранных языков. Для структуризации накапливаемой информации разрабатывается рубрикатор контента. Адекватное представление в сети некоторых энциклопедических изданий, в частности обладающих иерархической структурой, потребовало определенной доработки программного обеспечения сервиса.

    С января 2006 началась практическая деятельность по подготовки контентента. Эта деятельность включает приобретение прав на издание, подготовку информации и публикации ее в разделе «Яндекс–словари». В свою очередь подготовка информации складывается из оцифровки печатного издания, вычитки полученных электронных текстов, разметки информации и преобразование в загрузочные форматы.

    В среднем ежемесячно обрабатывается 4—5 книг для раздела «Яндекс–словари». Обработка ведется с учетом всех требований к качеству информации, установленных в Фундаментальной электронной библиотеке «Русская литература и фольклор». В связи с этим представляет интерес оценка Максима Мошкова, создателя крупнейшей в России электронной библиотеки Lib.ru.:

    «Новая затея Яндекса меня, конечно, радует. Особенно приятно, что оцифровкой словарей займется "Информрегистр". Я видел, как они тотально и глубоко прорабатывали оцифровки собраний сочинений русских классиков. Недостижимый класс, огромная и очень дорогая работа. Если они на таком же уровне отработают и в этом проекте — останется только снять шляпу. Также приятно видеть, что крупный поисковик не только ищет информацию, которую в сеть размещают контент-проекты, но и сам решился взяться за подготовку этого самого контента. Желаю удачи, ребята!»

    Исследования в области электронных библиотек и электронных изданий

    Разработка основных принципов формирования и ведения электронных изданий и электронных библиотек, создание технологии подготовки информации для них, а также практические работы по выпуску самостоятельных продуктов этого класса естественным образом привели к проведению исследований в данной области. В первую очередь стала очевидной необходимость уточнения определений электронных изданий и электронных библиотек и формирование связанного с ними понятийного аппарата. Фактическое отсутствие терминологии было обусловлено, во-первых, новизной данной области и, во-вторых, ее интенсивным развитием. Отсутствие общепринятых определений, перечня параметров, которыми описываются эти системы, типологии и классификации существенно затрудняли выявление и анализ электронных изданий и электронных библиотек, выработку требований, предъявляемых к ним, оценку их качества и т.д. Второе направление исследований было связано с анализом состояния и учетом русскоязычных электронных библиотек. Высокая динамика рынка электронных изданий и электронных библиотек (исчезновение существующих, возникновение новых), а также интенсивное развитие и смена поколений программных и технических средств, на которых реализуются эти системы, приводит к исчезновению или существенному искажению представленной в них информации. Учитывая значение этой информации и, как правило, высокую стоимость ее подготовки, были начаты исследования по проблеме долгосрочного хранения электронной информации. Проводимые исследования проводились в основном в инициативном порядке и не финансировались государством. Полученные результаты представлялись в виде публикаций сотрудников, обсуждались на различных научных мероприятиях. Некоторые результаты исследований вошли в стандарты, разработанные НТЦ «Информегистр» или при его участии.

    Развитие понятийного аппарата

    Первым объектом исследований стал класс информационных систем, именуемых электронные издания. При этом ставились следующие задачи:

  • дать определение электронного издания:
  • установить виды электронных изданий по наличию печатного аналога, природе основной информации, целевому назначению, технологии распространения, характеру взаимодействия пользователя с электронным изданием, периодичности, структуре;
  • установить основные параметры, характеризующие электронных издания, и установить правила их представления.

    За последние годы наблюдается стремительный рост объема информации, существующей только в электронной форме, которая позволяет сохранять и использовать помимо текстовой информации изображения, звук, видеоматериалы и произвольные их комбинации. Создание, организация и предоставление конечному пользователю информации в электронной форме требует специальных программных и технических средств, соответствующих технологий, подготовленного персонала и т. п. Это позволяет говорить о новой самостоятельной области — электронной издательской деятельности. Основные признаки, позволяющие выделять эту деятельность, связаны со свойствами ее основного результата — электронными изданиями (ЭИ), которые представляют собой законченные, самостоятельно идентифицируемые продукты, содержат относительно стабильную информацию, подлежащую длительному хранению, и предназначены для использования заранее не определенным кругом потребителей. Основные результаты этой работы были представлены в ГОСТ 7.83—2001 «СИБИД. Электронные издания. Основные виды и выходные сведения».

    В настоящее время существует несколько десятков определений понятия «электронная библиотека». Это разнообразие свидетельствует о трудностях как определения этого класса систем, так и о критериях отнесения к нему того или иного объекта. Представляется возможным использовать следующее, ранее предложенное определение: Электронная библиотека — информационная система, позволяющая надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (текстовых, изобразительных, звуковых, видео и др.), локализованных в самой системе, а также доступных ей через телекоммуникационные сети. Основные требования, которым должны удовлетворять информационные системы, претендующие на отнесение к классу электронных библиотек:

  • ориентированность системы на обслуживание конечных пользователей;
  • системность формирования информационного фонда;
  • неизменность и идентифицируемость объектов, составляющих информационный фонд, — электронных документов и электронных изданий.

    Электронные библиотеки должны обеспечивать конечным пользователям доступ к первичной информации, в частности к полным текстам; системы, обеспечивающие доступ только к метаинформации, не могут рассматриваться в качестве электронных библиотек. Также электронными библиотеками не будут являться системы, аккумулирующие новостную, реферативную, рекламную и подобную им информацию.

    Таким образом, электронные библиотеки образуют подкласс полнотекстовых информационных систем. Выделение этого подкласса осуществляется за счет установления для его представителей определенных дополнительных требований. Следовательно, не все полнотекстовые информационные системы являются электронными библиотеками, но любая электронная библиотека является полнотекстовой системой.

    Другие исследования в области электронных изданий и электронных библиотек привели к подготовке следующих стандартов:

  • ГОСТ 7.82—2001. «СИБИД. Библиографическая запись. Библиографическое описание электронных ресурсов. Общие требования и правила составления». Разработка выполнялась совместно с Российской государственной библиотекой.
  • ОСТ 115.020—2002. Информационные технологии. Термины Юникод. Стандарт устанавливает термины и определения понятий, используемых в Универсальной системе кодирования (Юникод). Стандарт предназначен для облегчения международного общения специалистов в области информационных технологий. Каждый термин представлен на двух языках: русском и английском.
  • ОСТ 115.019—2002. Информационные технологии. Термины SGML, HTML, XML. Стандарт устанавливает термины и определения понятий, используемых в языках разметки текста SGML, HTML и XML. Стандарт предназначен для облегчения международного общения специалистов в области информационных технологий. Каждый термин представлен на двух языках: русском и английском.
  • ОСТ 115.012—2003. Информационные технологии. Словарь. Базы данных. Стандарт устанавливает термины и определения понятий в области баз данных. В нем в качестве справочных данных приведены иностранные эквиваленты стандартизованных терминов на английском и французском языках.
    Эта деятельность полностью соответствовала профилю 4-ого и 9-ого подкомитета TC 46 ISO и отечественного ТК 191.

    Анализ состояния русскоязычных электронных библиотек

    С 2004 г. начаты инициативные работы по сбору и актуализация информации о русскоязычных сетевых информационных системах, именуемых «электронные библиотеки». В дальнейшем эта работа была расширена и ведется по следующим направлениям:

  • определение класса электронных библиотек;
  • определение параметров описания электронных библиотек;
  • разработка рубрикатора;
  • сбор данных о электронных библиотеках и формирование БД;
  • анализ собранных данных;
  • разработка средств автоматизированной актуализации данных;
  • разработка критериев оценки электронных библиотек.

    Актуальность работы обусловлена несоответствием между значимостью и перспективностью электронных библиотек и отсутствием объективной информации об этом сегменте Рунета, что крайне затрудняет координацию работ в этой области, приводит к неоправданному дублированию при создании информационных ресурсов и другим негативным последствиям.

    Исследование проблемы долговременного хранения электронной информации

    Эти работы проводились в 2002—2003 гг. по заданию Мининформсвязи РФ и в 2004 г. в инициативном порядке. Работы в основном носили обзорно–аналитический характер, их главной задачей было проведение анализа зарубежного опыта долговременного хранения электронной информации, уточнение понятийного аппарата в этой области и подготовка предложений по дальнейшему проведению соответствующих исследований и разработок.

    Актуальность этого направления работ была обусловлена интенсивным ростом объемов информационных ресурсов электронной форме.

    Основные итоги и перспективы

    Оценивая в целом деятельность в области электронных изданий и электронных библиотек можно сделать несколько основных выводов.

    Выполненные разработки и созданные продукты, несомненно, оказались востребованными. Действительно, электронные издания, выпущенные на компактных оптических дисках, давно и быстро разошлись. Более того, от различных лиц и организаций периодически поступают предложения об актуализации и повторном выпуске этих изданий. Электронные библиотеки привлекают внимание и к ним ежедневно обращаются тысячи читателей. Программно–технологический комплекс подготовки качественной электронной информации уже много лет эксплуатируется в промышленном режиме. С его помощью ежегодно представляются в электронной форме десятки тысяч страниц печатного текста.

    Результаты проведенных исследований и выполненных разработок вызывают интерес не только специалистов, но и простых потребителей информации и информационных технологий. Об этом свидетельствуют отзывы в гостевых книгах электронных библиотек, публикации в отечественных и зарубежных СМИ, многочисленные приглашения на различные мероприятия (конференции, семинары, школы, круглые столы и т.д.) с предложениями рассказать о проводимых работах.

    Работы, проводимые в области электронных изданий и электронных библиотек, имеют строго определенную направленность — предоставлять конечным пользователям качественную предметно-ориентированную информацию и средства работы с ней. Именно эта цель порождает новые разработки и исследования. При этом соблюдается преемственность — все работы выполняются в развитие ранее осуществленных проектов и опираются на полученные ранее результаты. В процессе проведения работ сформировался стабильный коллектив высоко квалифицированных специалистов — это, пожалуй, один из наиболее важных результатов прошедших лет. Это позволяет накапливать опыт, эффективно проводит разработки и осуществлять обработку информации, что чрезвычайно важно в новой интенсивно развивающейся области. Персональная благодарность сотрудникам, многолетний и добросовестный труд которых позволил создать Фундаментальную электронную библиотеку «Русская литература и фольклор» и получить другие значительные результаты: И.Н. Блау, А.Я. Королевой, Е.В. Красновой, С.А. Кузиной, Е.Ю. Ланской, А.Е. Полякову, А.В. Уколову, А.А. Штольбергу. Особо следует отметить вклад в создание технологии обработки информации О.В. Могилевской.

    Трудно переоценить результаты работ специалистов, формально не являющихся нашими сотрудниками, но постоянно сотрудничающих с Фундаментальной электронной библиотекой «Русская литература и фольклор» и во многом определяющих ее развитие: И.А. Пильщикова, Р.А. Кокшарова и С.А. Трифонова.

    Сформировался круг постоянных партнеров как отдельных лиц, так и организаций, как в России, так и за рубежом. В числе партнеров, которых хотелось бы особо выделить Институт мировой литературы им. А.М. Горького РАН, Институт русской литературы (Пушкинский дом) РАН, компания «Яндекс», специалисты Русской виртуальной библиотеки, председатель Итальянской ассоциации славистов, проф. Стефано Гардзонио (Пизанский университет), д-р Джозеф Пешио (Университет штата Висконсин в Милуоки).

    Хочется выразить признательность всем потребителям наших электронных изданий, читателям электронных библиотек.

    ***

    Четко определенная направленность и преемственность работ позволяют с большой степенью уверенности наметить ближайшие и среднесрочные перспективы.

    Прежде всего, следует указать перспективы развития Фундаментальной электронной библиотеки «Русская литература и фольклор» (ФЭБ), как основного проекта.

  • Развитие основного информационного фонда;
  • Развитие дополнительных разделов;
  • Развитие международного сотрудничества и создание иноязычных версий библиотеки.

    Следующим принципиально важным направлением работ является создание на базе ФЭБ электронной библиотеки ориентированной на сферу образования. Эта библиотека должна быть существенно проще действующей по составу, структуре и функциональным возможностям. Вместе с тем она должна включать стандартные учебники, методические материалы и другую подобную информацию. Распространение этой версии Библиотеки должно осуществляться как через интернет, так и на компактных оптических дисках. Требуют существенной модернизации и развития средства подготовки и использования информации в электронных изданиях и электронных библиотеках. Предполагается:

  • модернизация программно-технологического комплекса подготовки информации для электронных библиотек;
  • разработка алгоритмов и программ решения новых функциональных задач на основе полнотекстовой информации;
  • развитие программных средств представления информации конечному пользователю и решения пользовательских функциональных задач.

    ***

    Мы постоянно совершенствуем наши технологии и программное обеспечение.

    Лаборатория Разработки и Внедрения Информационных Технологий