BIG DATA – apocalypses now?

31 January 2013 Denis Andrikov

При словосочетании Big data в голове у хорошего сейла мгновенно вырисовываются вагоны с дисками или батарея шкафов высокопроизводительных хранилищ данных. Далее всё это со склада вендора чинно отправляется к заказчику, встречая на пути не менее интенсивный поток денег за всё это хозяйство в сторону поставщика. Что будет дальше? Ну, какая-нибудь команда внедрения всё это установит, подключит и что-то туда загрузит. После этого непременно наступает миг счастья, когда петабайты ненужной доселе информации чудесным образом преобразуются в знания и становятся этаким ментором для отдельно взятой организации.

Если задуматься над предложенным апокалипсическим сюжетом, возникает ряд острых и неудобных вопросов:

1. Возможна ли обработка больших объёмов данных с функцией извлечения знаний в рамках традиционной логической схемы функционирования вычислительных средств?

2. Доказана ли теорема о достаточных условиях возможности извлечения знаний из большого объёма данных? Какие, собственно, эти условия, и каковы критерии полноты знаний?

3. Готово ли человечество к переходу в эру ЭВМ, синтезирующих знания?

На эти три вопроса представляю варианты своих ответов.

Ответ 1. Традиционные алгоритмы обработки данных нацелены на выполнение определённых алгоритмов, синтезированных людьми. Принцип «что в компьютер заложишь, такой результат и получишь» работает в полную силу. Таким образом,синтезировать знания в рамках традиционной архитектуры чёткой (жёсткой) логики не представляется возможным. Единственное, на что способны современные ЭВМ, так это повысить скорость упорядочивания и поиска информации из предложенного массива.

Ответ 2. Если честно, то я верю в возможность перехода количества информации в качество, т.е. вывод закономерностей из простого набора данных. Если не ошибаюсь, то ряд философов выражали мнение, что для совершения такого перехода нужно некое привнесённое действо – Божественная искра, несистемная ошибка или что-то в этом роде. Проблема возникает в другом: как доказать обратное утверждение, что набор данных пустой и не содержит знаний или полезной информации. Здесь на помощь может прийти определение мощности множеств, применяемое Гергом Кантором. Понимаю, что среди читателей есть как ярые апологеты идей Кантора, так и противники. Тем не менее, предложенный им уровень абстракции как нельзя лучше подходит для определения полноты неупорядоченных множеств. В итоге, мы будем называть множество данных Big data, если оно позволяет синтезировать знания, которые увеличивают мощность множества. Представляю ваше недоумение, когда вы читаете эти строки, но господа, а как вы хотели? Для такой сложной темы без высшей математики не обойтись! Или вы думали, что Big data – это всего лишь маркетинг, придуманный только для того, чтобы продать побольше SATA-дисков?

Ответ 3. Для синтеза знаний нам потребуется как минимум перевести доступную нам информацию в машинный вид. Сейчас это возможно в виде хранилища данных, закодированных в виде нулей и единиц. Идём дальше: для процедуры извлечения знаний необходимо полное множество данных предметной (локальной) области, что приводит нас к необходимости иметь специальный преобразователь (семантический трансформатор предикатов) для загрузки данных в специализированное хранилище. Согласитесь, что здесь проглядывается хорошо известный в ИТ термин Enterprise Service Bus, но в нашем случае необходим модуль коннотативного сопряжения, который задаст соответствие между исходными данными и реестром синонимов (связей) из предметной области. Проанализировав приведённые здесь технологии, с удивлением обнаруживаем, что большинство из них нам известно и широко применяется в ИТ-мире (вы ведь тоже заметили, как вписалась технологии MDM в описанный выше трансформатор?).

Итак, человечество, на мой взгляд, уже давно вплотную подошло к рубежу создания ЭВМ с принципами когнитивной обработки информации, т.е. вычислительному процессу, не только обрабатывающему данные, но и способному на основе познания синтезировать новую информацию.  Big data – это первый шаг на финишной прямой к этому процессу и миру умных компьютеров, в котором, кто знает, какое место будет отведено человеку.


Next Publication:
Смотри в небо – спаси Россию от метеорита

Links