http://www.mn.ru/society/20131120/363034812.html

 

Информация становится картинкой


   Первые большие компьютеры, которые могли работать с большими массивами данных, появились в конце 60-х годов, к концу 70-х стало ясно, как эти данные обрабатывать, а к концу 80-х для этого появилось программное обеспечение — языки управления базами данных. Выборы в США 80-х годов напоминали гадание на кофейной гуще: статистика была, но обрабатывать ее быстро и эффективно не удавалось. В течение 90-х и 2000-х годов она все ближе подходила к реальному времени. А на выборах 2008 и 2012 годов количество данных и способов их обработки выросло до такой степени, что на основе исторических закономерностей можно было предсказать результаты, что и сделал американский статистик Нэйт Силвер.

Сейчас активно развивается визуализация данных, и это происходит по двум причинам. Первая — это большое количество, высокое качество и доступность инструментов анализа, вторая — спрос на такой анализ со стороны достаточно заметной части потребителей. Доля людей, которые предпочитают визуальный способ коммуникации, которые лучше воспринимают информацию в виде картинок, растет. А некоторые нуждаются не только в том, чтобы им показывали данные, но и чтобы они могли управлять их отображением, видеть не только усредненную картину, но и то, как она меняется при изменении параметров, — интерактивную инфографику.

Взрыв в области инфографики был связан с появлением первых больших иллюстрированных энциклопедий: для нас это Брокгауз и Эфрон, Гранат, для Британии — первые иллюстрированные издания «Британники», для Франции — энциклопедия Галлимара. Но это была ручная и очень медленная работа. Такая иллюстрация могла быть элементом либо энциклопедии, либо учебника, либо научной статьи. А уже когда появились старшие интерфейсы Windows и MacOS, они стали выдавать визуализацию довольно быстро, и ее можно было сделать элементом газеты или телевизионной картинки.

 

Большая польза от больших данных


   Современный человек, оснащенный компьютерами, телефонами, планшетами, карточками, датчиками расхода воды в квартире и так далее, сообщает о себе обществу практически все. Когда вы оплачиваете покупку в американском супермаркете, она становится известна всем заинтересованным лицам. Эти данные собираются и в необезличенном виде продаются клиентам. Грубо говоря, производитель вина «Сент-Мишель» прекрасно знает, что я его постоянный покупатель. Поэтому в Америке маркетинг так сильно развит: информация по всем подобным транзакциям доступна. Данные о поведении потребителей предоставляют два-три десятка крупных компаний и сотня мелких.

Самые высокооплачиваемые сотрудники в гуманитарной сфере сейчас — data scientists, то есть люди, способные работать с данными и структурировать их, математические лингвисты. Анализируя тексты эсэмэсок, мейлов, банковские транзакции, можно ловить преступников. То, что вскрыл  Сноуден, — это анализ выхваченных элементов компьютерной коммуникации для борьбы с терроризмом и преступностью. Это также борьба с отмыванием денег. Ведь от того, что сумма в 100 долл. переместилась со счета «А» на счет «Б», непонятно, что изменилось, — нужно анализировать отправителя и получателя с точки зрения лингвистических сущностей.

 

Это и анализ электоральной динамики, медиадинамики. Если зрители в Америке начинают ругать какую-то теле¬программу в твиттере, будет ли у нее высокий рейтинг? Например, сценаристы ошиблись в трактовке отношения к персонажу — классическая история с финалом сериала Breaking Bad. То, что финал не получит такого рейтинга, на который рассчитывали авторы, было предсказано по анализу твиттера. Как только из предыдущих серий стало ясно, каким может быть финал, любители довольно быстро поняли, что создатели предпочтут не тот вариант, которого от них ждут. А компания уже продала рекламу в расчете на суперрейтинг. Не получилось.

В реальном времени реагировать на такую информацию можно пока только при борьбе с преступностью. В развитом обществе при адекватной криминальной статистике и возможности анализировать коммуникации мы приближаемся к ситуации, когда преступник и полицейский оказываются на месте преступления практически одновременно.

 

А как у нас 

 

   В России гораздо меньше, чем в Америке, зарегулирована сфера мобильной связи. В США мобильный спам — большая редкость. Было несколько аварий, связанных с получением эсэмэсок: человек ждал какого-то критически важного сообщения и врезался в кого-то, а приходил спам. В Америке инциденты с травмами и гибелью людей чреваты астрономическими суммами для компаний. Поэтому доступ к мобильной рекламе в виде эсэмэсок имеют только операторы. А у нас идет активный обмен базами данных. Банки, например, активно торгуют данными о своих клиентах: чем больше у человека финансовых инструментов, тем больше вероятность, что это обеспеченный клиент.

Еще одно полезное применение больших данных — это предсказания, нужные для государства и его сервисов. У нас только в 70-х годах начали вычислять, где должны находиться станции скорой помощи. И только при Лужкове их начали перемещать в те места, из которых они могут доехать до мест с максимальными концентрациями людей.

Для того чтобы обрабатывать подобную информацию, не нужны большие штаты сотрудников. Помните фильм «Служебный роман»? Там организация, в которой происходит дело, считает что-то про легкую промышленность. А все, что нам нужно знать про легкую промышленность, — это общая численность населения страны. А дальше мы можем предположить, что каждый человек хочет иметь несколько маек, несколько рубашек, несколько пар штанов и так далее. Нужно просто обнаружить эти закономерности. Наш мозг — один из самых совершенных компьютеров, который можно представить. У вас в мозгу такие большие данные, что вы даже не представляете!

______________________________

© Гатов Василий

© РИА Новости. Владимир Трефилов