ИНИОН. Что делать?

Как бы ни была велика самоотверженность людей, спасавших книги после пожара в Институте научной информации по общественным наукам (ИНИОН) РАН [1], важнее всего, чтобы эти усилия не пошли прахом, то есть чтобы книги стали доступны в максимально короткий срок и способствовали развитию науки. Как сохранить институт после пожара? Рассуждает волонтер Павел Тычина (по основной профессии — банковский аналитик, по образованию — математик).

Есть много текстов о том, почему всё плохо и дальше станет только хуже. Не буду повторять подобные аргументы. Хочу лишь подчеркнуть, что действовать нужно быстро и эффективно. Иначе все плохие прогнозы сбудутся. Стоит выделить и главную проблему: общество не осознает сейчас всю важность ИНИОНа, перспективность научных исследований, которые там проходят. Если не удастся показать важность этого института, его штат сократят, а книги станут недоступны на долгие годы.

В чем заключается ценность библиотеки и института для общества? Одна только стоимость книг во много раз превосходит стоимость любого торгового центра, который может быть построен на месте ИНИОНа. Если принять среднюю стоимость трудновосстановимых книг за 500 долл., их общая стоимость уже превысит 1 млрд долл. А ведь погибло еще 3 млн обычных книг и других материалов, включая микрофильмы. Стоимость самого дорогого ТРЦ «Метрополис» составляет 1,2 млрд долл. при гораздо большей занимаемой площади и стоимости строительства 800 млн долл. [2].

Однако следует помнить, что интеллект оценивается дороже. Например, капитализация компании Google сейчас превышает 360 млрд долл. На первый взгляд, сама мысль, что с помощью ИНИОНа можно вырастить второй Google, кажется нелепой. Однако не будем спешить.

Анна Горская и пострадавшие  книги. Фото В. Акшенцевой
Анна Горская и пострадавшие книги. Фото В. Акшенцевой

Заглянем в будущее

Создание поисковых систем потребовало привлечения многих интеллектуальных и технических ресурсов человечества. Однако поисковые системы не всегда помогают найти нужную информацию. Часто ее можно найти только в «Википедии», 96% авторов которой составляют неженатые мужчины [3]. Чтобы информация попала в энциклопедию, могут понадобиться многие годы на ее поиск и обработку. Источники зачастую будут бумажными, а поиск осуществляется по библиотечным каталогам и с помощью советов других специалистов. Мы живем в условиях ускоряющегося информационного потопа. Очевидно, что переработка информации требует оптимизации и автоматизации не только для науки, но и для обычных людей.

Ситуация напоминает добычу каменного угля с большой глубины. Его залежи возникли из-за того, что древовидные папоротники не были измельчены насекомыми и бактерии не смогли их переработать.

Похожая ситуация наблюдается сейчас в области обработки информации — тексты должны быть не только отсканированы и распознаны, но и приведены в формат, пригодный для осмысленного поиска. Например, с помощью семантического анализа. Тогда потребление информации упростится, проведение научных исследований ускорится, и они станут более качественными.

Систему, которая поможет упростить обработку информации, создала компания ABBYY.

Платформа Compreno получила приз РБК за 2014 год в номинации «Прорыв года». «По сути, специалисты ABBYY научили „компьютер“ не просто распознавать, но и „понимать“ естественный человеческий язык» [4].

Платформа Compreno переводит текст на универсальный язык понятий, включающий в себя более 60 тыс. элементов [5]. Это позволяет производить поиск информации по смыслу. Мысль может формулироваться по-разному, но информация всё равно найдется.

Платформу Compreno можно использовать для:

  • поиска информации по смыслу;
  • качественного машинного перевода;
  • автоматического реферирования и аннотирования;
  • поиска смыслового сходства между документами;
  • автоматической классификации документов;
  • распознавания речи.

Сейчас системы, основанные на Compreno, продают коммерческим компаниям для корпоративного поиска и извлечения данных [6]. Однако наибольшее развитие технологии наступает тогда, когда ею начинает пользоваться более широкий круг пользователей. И в этом смысле ничего лучше библиотек придумать невозможно.

Читателям библиотек и ученым нужен интеллектуальный поиск, который позволит добывать информацию и находить источники, необходимые для работы. Сейчас поиск источников для исследования может занимать многие месяцы. Применение интеллектуального поиска может сократить это время до считанных минут. В некоторых случаях может оказаться, что научные исследования уже проводились ранее, хоть результаты и опубликованы на другом языке.

Таким образом, Compreno поможет:

  • сократить время поиска источников;
  • избежать ненужного дублирования исследований;
  • автоматизировать реферирование и аннотирование;
  • охватить множество языков и форматов, включая звуковой.

За услуги по интеллектуальному поиску читатели будут готовы платить деньги. Ведь речь идет о сокращении времени работы с одного месяца до 10–15 минут (по порядку величин). Думаю, что этот источник можно использовать для финансирования ИНИОНа в рамках частно-государственного партнерства.

Потенциальная аудитория пользователей очень велика. В одной только Нью-Йоркской библиотеке более 18 млн читателей в год.

Для успешного внедрения системы в библиотеки нужно иметь готовый работающий прототип. Необходимо, чтобы этот прототип удовлетворял реальные потребности научных исследователей и читателей. Совместная работа с сотрудниками ИНИОНа поможет это сделать. В области реферирования у сотрудников ИНИОНа тоже имеется громадный опыт. Он будет полезен и для понимания реальных потребителей, и для улучшения качества автоматического реферирования.

Технология Compreno требует гораздо больших вычислительных ресурсов, чем традиционные поисковые системы. Поэтому сейчас ее невозможно применить к поиску по всему Интернету. Даже поиск по полностью оцифрованной библиотеке из 15 млн книг потребует большого дата-центра.

Конечно, этот дата-центр ни в коем случае не надо размещать рядом с книгами, поскольку сервера перегреваются и их охлаждение — довольно сложная технологическая задача [7]. Его можно разместить где угодно, даже в Якутии (там можно использовать естественный холод). Кстати, в ходе бесед с волонтерами я узнал, что Якутия как раз сильно нуждается в развитии сетевой инфраструктуры.

Оцифровка дело сложное

Вернемся на землю и вспомним, что почти вся библиотека ИНИОНа не оцифрована. Не оцифрован даже каталог библиотеки.

Специалисты компании ABBYY написали статью про оцифровку книг [8].

Привлечение 3000 волонтеров помогло оцифровать все произведения Льва Толстого за 1,5 года — это в среднем по 10 страниц в год на одного волонтера. Кто-то оцифровал 1-2 страницы, а кто-то -более 5000. Очевидно, что процесс требует привлечения очень большого числа участников. Национальная библиотека Франции смогла оцифровать около 3 млн книг, то есть даже меньше, чем их сохранилось в библиотеке ИНИОН.

Как выставлять приоритеты? В тексте компании ABBYY проводится мысль, что нужно создать общегосударственную электронную библиотеку для исключения дублирования работы и выставления общих приоритетов в очередности оцифровки. Выставлять приоритет можно исходя из востребованности издания читателями или из его редкости, чтобы после возможного пожара уцелела хотя бы цифровая копия. Но это не единственные критерии, с помощью которых можно установить очередность оцифровки.

Есть еще два критерия:

  • охват материала при поиске;
  • увеличение количества качественных научных публикаций.

Рассмотрим критерий охвата материала. Оцифровка должна в первую очередь облегчать поиск источников информации. Сами источники могут быть в полном объеме не оцифрованы. Читатель может получить их потом в бумажном виде или в виде картинки.

Думаю, что основную долю источников можно найти с помощью интеллектуального поиска по реферативным журналам на разных языках. Например, если исследователя интересуют материалы про Карла XII, то поиск должен учитывать контекст. Если в реферативной статье написано «В источнике № 1 есть много новых неизвестных фактов про Карла XII», то источник № 1 является ценным. Если же написано «В источнике № 2 про Карла XII нет ничего нового», то источник № 2 для исследователя не представляет интереса. При этом источник № 2 может сообщать новые сведения о других исторических персонажах и событиях и быть написан широко цитируемым автором.

Поиск должен учитывать цитируемость автора источника в данной области. Для настройки поиска потребуется большое количество специалистов, которые будут им пользоваться в повседневной научной работе и попутно оценивать его релевантность. Здесь опыт сотрудников ИНИОНа просто бесценен, а сокращение института негативно повлияет на развитие технологии интеллектуального поиска и в стране, и в мире в целом.

В отличие от поиска в Интернете, здесь не нужно будет бороться со специально разработанными «накрутками» для продвижения источника в топ поиска.

Кроме реферативных журналов следует оцифровать обзоры книг и статей, критические статьи, энциклопедии, аннотации книг и статей, списки литературы в статьях и книгах. Во вводных главах книг и диссертаций часто присутствует обзор основных результатов и источников в данной области. Авторефераты диссертаций тоже будут полезны для интеллектуального поиска источников.

Оцифровка обзорных материалов вместе с интеллектуальным поиском помогут осуществить максимальный охват источников при поиске.

Рассмотрим критерий увеличения количества качественных научных публикаций.

Для этого можно предложить несколько факторов в многофакторной статистической модели:

  • скорость роста статей в конкретном научном направлении;
  • потенциальный максимальный объем статей в данном направлении (исчерпанность темы);
  • ожидаемое влияние оцифровки источников на увеличение количества публикаций в этом направлении;
  • цитируемость авторов. Указанные выше факторы являются реактивными и, скорее всего, будут реагировать на уже произошедший прорыв в той или иной области. Но, возможно, учет других факторов позволит находить источники, оцифровка которых приведет к новым открытиям и публикациям влиятельных научных статей.

Предсказание ценности научных направлений важно и для оцифрованных источников. Возможно, что компьютерный анализ смысла текстов позволит находить новую, ранее не опубликованную информацию.

Вперед, к 100% оцифровки!

Волонтерское движение поможет не только в конечном итоге достигнуть 100% оцифровки, но и совершить важный просветительский проект, по своему значению не уступающий созданию Максимом Горьким издательства «Всемирная литература».

Для оцифровки библиотеки ИНИОНа можно организовать кружки по всей стране, в том числе с участием школьников. Они будут не только помогать оцифровке, но и делать доклады на кружках, совершенствовать знание иностранных языков, получать навыки исследовательской работы.

179-0017

В развалах ИНИОНа мы нашли книгу «Тимур и его команда», изданную в 1944 году в Париже на французском языке. Из советского времени можно взять положительный опыт и организовать движение инио-новцев, которые по всей стране будут помогать оцифровке книг. Уверен, что это будет незабываемым опытом, который запомнится на всю жизнь. Даже сбор металлолома в пионерском детстве был очень интересным. А тут у школьников будет возможность заняться еще более увлекательным делом — помочь в оцифровке научной библиотеки. Это возможность увидеть книги, которые не найдешь в обычной библиотеке или Интернете, возможность совершить настоящее открытие. Ведь некоторые документы могли пройти мимо исследователей. По своему опыту могу сказать, что даже одни обложки книг дают море новой информации.

179-0016

Это позволяет не просто бездумно заучивать формулировки из учебника, а увидеть настоящую, живую историю. Научиться думать и анализировать. В Англии преподавание истории построено на изучении и сопоставлении источников, то есть людей уже со школы учат анализировать информацию. Это также даст возможность лучше выучить иностранные языки, прикоснуться к таким отраслям знания, как литературоведение, философия, социология и экономика. Перед участниками проекта откроется новый удивительный мир, в котором они сами станут творцами и созидателями.

И наконец, такой подход предоставит возможность участия не просто в общенациональном, но и по-настоящему общемировом проекте. Возможность получить консультации исследователей из других стран, в том числе у выдающихся ученых современности. Участие в этом проекте интеллектуально обогатит всех к нему причастных, и быть инионовцем станет престижно.

Всем участникам проекта нужно выдать значки с эмблемой ИНИОНа, которые станут предметом гордости. Нужно проводить ежегодный конкурс школьных и студенческих работ, написанных по материалам ИНИОНа. Конкурс можно сделать международным. ИНИОН сгорел, но у него есть возможность воскреснуть и распространиться на всю страну, даже за ее пределы. Давайте же используем все имеющиеся возможности по максимуму!

1. http://trv-science.ru/2015/03/24/nas-obedinyaet-lyubov-k-knigam/

2. http://all-malls.ru/news/morgan-stanley-kupil-metropolis/

3. the-village.ru/village/city/city-news/172141-glava-russkoy-wikipedia

4. http://awards.rbc.ru/abbyy.htm

5. http://ibusiness.ru/blogs/17778

6. abbyy.ru/Default.aspx?DN=2d53227a-1105-4e71-b1f8-a68d1664a4ef

7. http://habrahabr.ru/company/mediagrus/blog/167879/

8. http://blog.abbyy.ru/2015/04/kniga-v-tsifre-nuzhna-li-rossii-edinaya-elektronnaya-biblioteka/

Связанные статьи

10 комментариев

  1. Да сканировать нужно и выложить в открытый доступ. Чем они в библиотеках занимаются? Много нужных книг нет в Сети. А как этот материал использовать наверно получше вас кто-то придумает.

  2. Ненене, вы что, ктож вам даст в руки национальное наследие, и какой открытый доступ? этож золотая жила, и на нее уже есть куча претендентов — сейчас оцифровка и сканирование в наших библиотеках почитай бизнес — они с этого деньги имеют, которых от государства недождешся. там где администрация правильная вообще организуются сторонние конторы по професиональной оцифровке. стоит это деньги и приличные. И незнаю, дает ли покупка таких сканов право открытого их публикования?

  3. О чем текст? Это реклама компаний? Ликбез по семантическому анализу? А при чем тут «торговый центр, который может быть построен»? Сами от теории заговоров не устали?

    1. Я думаю, это скорее воспоминания и фантазии волонтера) Дело то все таки нужное и полезное делают…

      Если пожар в ИНИОНе как нибудь поспособствует ускорению оцифровки остатков его библиотечного фонда — будет хоть какая то польза от этого трагичного события…и от самого ИНИОНа польза увеличится в разы…

    2. да заказная статья, чего тут сомневаться. А книги можно доставлять утконосом, очень удобно.

      1. Армен, спасибо что Вы один из немногих здесь подписались полным именем. Ну, конечно же, я получил за это 100500 рублей. Можете не сомневаться.
        Кстати, очень часто про волонтеров думают подобным образом (просто так волонтеры ничего делать не будут и т.д.)
        Скорее всего, книги будут лежать долгие годы мертвым грузом в коробках или на просушке, а институт сократят или сольют с какой-нибудь другой организацией.
        Да и сервис интеллектуального поиска, конечно, мы закупим за границей. Там все сделают грамотно и профессионально. И заплатим деньги, которые получим после продажи природных ресурсов.
        Если такой сценарий нравится тогда у меня нет вопросов, а если не нравится, то предлагайте свой вариант решения.

  4. «Беда, коль пироги начнет печи сапожник, а сапоги тачать пирожник.» Напоминает «Нью-Васюки» и дискредитируют и ABBYY и ТРВ. А вот ФАНО вполне может понравиться…

    1. Беда, согласен. Книги из-под завалов тоже, по идее, должно было доставать МЧС.
      Ну так предложите что нужно делать. Да еще так чтобы это понравилось ФАНО.

  5. Вообще былоб интересно от автора услышать о упомянутом им волонтерском проекте оцифровки. неужели фонды библиотечные людям на руки дают, и каков собственно выхлоп их деятельности — они выложили в открытый доступ свои сканы или нет?

    1. Волонтеры не участвовали в оцифровке. Если волонтеры будут в этом участвовать, то все можно построить так чтобы избежать утечек информации.

Добавить комментарий для Павел Тычина Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *