Почему Big Data постоянно путают с маркетингом и ИТ. Big Data: аналитика и решения Что подразумевается под термином большие данные
К 2015 году несмотря на малый срок существования сектора , уже есть оценки эффективного использования этих технологий, основанные на реальных примерах. Один из самых высоких показателей относится к энергетике – по оценкам аналитиков, аналитические технологии Big Data способны на 99% повысить точность распределения мощностей генераторов.
Анализ неудачных проектов Big data
Big data для операторов связи
- высокоточный маркетинг (рrecise marketing) - адресное предложение продуктов и услуг тем потребителям, которые наиболее готовы к их приобретению (новые тарифные планы, дополнительные сервисы, платежные терминалы и пр.);
- управление качеством услуг для клиента (Customer Experience Management) для повышения его удовлетворенности с целью предотвращения оттока пользователей;
- оптимизация внутренней работы оператора и планирование развития (ROI-based Network Optimization and Planning) на основе учета всех объективных факторов и мнений потребителей с целью максимальных гарантий возврата инвестиций в кратчайшие сроки;
- монетизация информационных активов (Data Asset Monetization) - продажа в той или иной форме (в том числе в виде долевого участия в проектах) имеющихся у оператора данных своим партнерам, чтобы они могли с их помощью решать свои задачи.
Развернув решение больших данных, мобильный оператор смог начать собирать и анализировать существенно больше информации о поведении и интересах своих клиентов, в том числе об интенсивности использования связи и географическом местоположении. Причем все эти сведения можно было увязывать с данными о работе самой сотовой сети, в том числе о ее загрузке, о возникающих сбоях и пр.
Возможности применения подобных методов видны по полученным результатам. Так, в начале 2013 г. эффективность маркетинговых предложений (для клиентов, которые их приняли) при общей массовой рассылке составляла 0,7%. К концу года за счет простой сегментации абонентов (по возрасту, полу, сроку подписки) эта величина была доведена до 4%, а в течение 2014-го повышена сначала до 11% (учет интенсивности использования услуг и местоположение клиентов) и затем до 24% (учет предпочтительных вариантов получения предложения - голосовые звонки, SMS , э-почта, социальные сети и пр.). За год удалось сократить число нерезультативных обращений к клиентам на 11 млн., существенно снизив затраты на рекламные кампании.
На основе анализа 85 параметров поведения абонентов была выделена «группа риска», потенциально готовая к уходу от услуг оператора. Внутри нее также была проведена определенная сегментация, и для каждой категории клиентов выработан комплекс мероприятий по повышению уровня их лояльности (скидки, другие тарифные планы, подарки и пр.). Заказчик провел исследование, разделив «группу риска» на две подгруппы: с первой проводились специальные действия по удержанию, с другой ничего не делалось. Анализ такой работы за год показал, что компания смогла существенно сократить отток своих действующих потребителей, удержав более 200 тыс. абонентов; при этом нужно учитывать, что стоимость удержания клиента всегда значительно ниже, чем привлечения нового пользователя.
До использования больших данных расширение географической сети оператора фактически выполнялось только на основе информации о плотности застройки и населения, но внедрив это решение, China Unicom перешел к развитию свой деятельности на базе многофакторного анализа, который учитывал такие показатели, как реальная загруженность трафика и востребованность услуг (например, с учетом места работы людей), «ценность» клиентов (по уровню жизни), требования к качеству связи (расстояние между станциями приема), востребованность разных категорий услуг (от этого зависит использование различной аппаратуры) и пр.
В плане монетизации клиентских данных для внешних партнеров были приведены два примера: во-первых, оптимизация размещения наружной рекламы, причем как в географическом плане (место проживания, работа или транспортные коммуникации нужных клиентов), так и с учетом времени для динамической рекламы (в зависимости от времени суток, дней недели и сезонов года состав публики может меняться), а во-вторых, аналогичные предложения по развитию торговых сетей (с учётом местоположения и ассортимента). Кроме того, очень выгодным оказывается целевая рассылка мобильной рекламы в реальном времени в соответствии с графиком занятости человека, его интересов и физического пребывания (например, рассылка информации о фильмах-боевиках, которыми клиент интересуется, именно в его свободное время и с учетом близлежащих кинотеатров). Общий отраслевой опыт показывает, что такие адресные методы позволяют повышать доходы от распространения рекламы в разы.
Big data в банках
«Аналитика позволит банковским организациям лучше контролировать информацию внутри компании и выявлять признаки мошенничества намного быстрее, чем это было возможно раньше», – заявила в начале 2014 года Авива Литан (Avivah Litan), ведущий аналитик и вице-президент Gartner Research.
Массовое внедрение технологий анализа больших данных осложнено тем, что банки зачастую используют разрозненные или просто устаревшие платформы. Тем не менее, уже есть примеры того, как сотрудники, отвечающие за информационную безопасность, предотвращали мошеннические операции. Помимо технологии Big Data эксперты также считают, что бороться с мошенниками позволяет внедрение современных систем идентификации пользователей. Одним из примеров является так называемая непрерывная поведенческая идентификация, анализирующая поведение клиентов на протяжении длительного времени. Это делается при помощи привязки счета к мобильному телефону.
Большие данные способны решать практически все ключевые задачи банков: привлечение клиентов, повышение качества услуг, оценка заемщиков, противодействие мошенничеству и др. Повышая скорость и качество формирования отчетности, увеличивая глубину анализа данных, участвуя в противодействии отмыванию незаконных средств, эти технологии помогают банкам соответствовать требованиям регуляторов .
Основные задачи, для которых банки используют технологии анализа больших данных, – это оперативное получение отчетности, скоринг, недопущение проведения сомнительных операций, мошенничества и отмывания денег, а также персонализация предлагаемых клиентам банковских продуктов.
Технологии больших данных применяются в основном для анализа клиентской среды. Дмитрий Шепелявый, заместитель генерального директора SAP CIS (САП СНГ) , приводит несколько примеров: «Американский банк PNC данные о поведении своих клиентов на сайтах, информацию о покупках и образе жизни конвертирует в политику гибкого начисления процентных ставок, которая в итоге выражается в цифрах роста капитализации. Commonwealth Bank of Australia (CBA) анализирует все транзакции своих вкладчиков, дополняя этот анализ сбором данных о них в социальных сетях. Связав эти потоки данных, банк добился значительного снижения процента неуплаты по кредитам. А в России интересен опыт Уральского банка реконструкции и развития – они стали работать с информацией по клиентской базе для создания кредитных предложений, вкладов и других услуг, которые могут максимально заинтересовать конкретного клиента. Примерно за год применения ИТ-решений розничный кредитный портфель УБРиР вырос примерно на 55%» .
Согласно исследованию, проведенному компанией McKinsey&Company в 2014 г., 75% опрошенных пациентов хотели бы использовать цифровые сервисы – вопреки устоявшемуся мнению о том, что большинство населения неохотно обращается к ним при лечении.
Чтобы удовлетворить потребность пациентов в качественном медицинском обслуживании, во многих странах здравоохранение все больше обращается в сторону smart технологий. В Германии , например, уже сегодня благодаря технологиям Больших данных онкологические заболевания либо предрасположенность к ним выявляются по анализу крови пациентов и доноров. В результате своевременной диагностики существенно снижаются затраты государства и самих людей, а также невероятно повышается эффективность лечения. Ведь один из самых главных врагов пациента, запустившего болезнь – время. Обратимся к упомянутой ранее онкологии. Диагностика и подбор нужной схемы лечения может забрать драгоценные минуты, которые так важны в оперативном реагировании при обнаружении злокачественных образований
Большие данные, помимо уже известных и распространенных задач, можно использовать в том числе для борьбы с заболеваниями и отслеживания роста эпидемий, считают эксперты. Так, еще за девять дней до того, как вспышка вируса Эбола была официально объявлена эпидемией, группа исследователей и ученых из Бостона при помощи больших данных смогла обнаружить распространение геморрагической лихорадки в Гвинее.
Картину движения по Западной Африке эпидемии смертельного вируса составил стартап HealthMap, работающий на базе алгоритма, учитывающего упоминания в социальных медиа, сводки местных новостей и другие данные, доступные в Сети .
Системы больших данных могут оказаться полезными в первую очередь не для обнаружения уже проявившихся вспышек тех или иных заболеваний, а для предсказания потенциально возможных эпидемий такого рода благодаря анализу доступной информации. В этом случае практически те же технологии, которые помогают маркетологам демонстрировать потребителям таргетированную рекламу или предлагать музыку и видео для просмотра, могут быть использованы для борьбы против инфекционных заболеваний, таких как Эбола.
Big data в автомобилестроении
Big data в электронной коммерции
Big data в розничной торговле
Оффлайн-розница использует большие данные, чтобы анализировать поведение покупателей, проектировать маршруты следования по торговому залу, правильно расставить товары, планировать закупки, и, в конечном итоге, повысить продажи. В онлайн-рознице на строится сам механизм продаж: пользователям предлагают товары на базе предыдущих покупок и их персональных предпочтений, информация о которых собирается, например, в соцсетях. В обоих случаях анализ больших данных помогает сократить издержки, повысить лояльность клиентов и охватить большую аудиторию. Все это – лишь базовые возможности, которые можно реализовать с помощью технологий больших данных .
Несмотря на экономический кризис, ожидается рост числа проектов по внедрению больших данных, в том числе и в ритейле. Хотя внедрение новых технологий грозит не только прибылью, но и высокими рисками, компании уже ознакомились с успехами более решительных коллег по бизнесу. В сложной экономической ситуации на первый план выходит необходимость экономить и повышать лояльность клиентов. Как раз с этими задачами и призваны справляться решения для работы с большими данными.
В борьбе за клиента ритейлеры все чаще обращаются к инновационным технологиям, таким как анализ больших данных, электронная коммерция, омниканальные сервисы, технологии RFID и т.д. В Корее, например, недавно был открыт первый в мире виртуальный магазин прямо на платформе метрополитена. Сканируя QR-коды с панелей, оклеенных изображениями различных товаров, жители Сеула складывают в свою виртуальную корзину выбранный товар, который затем доставляют им домой в удобное время. Подобные технологии, вероятно, нашли бы отклик у вечно спешащих москвичей .
Значительно выросло проникновение конкретно в этой индустрии флеш-накопителей – до 37% в 2012 году. Флеш-память играет одну из ключевых ролей в распространении контента и пост продакшене, отмечают исследователи. В период с 2012 по 2017 год требования к емкости цифровых хранилищ данных в индустрии развлечений вырастет в 5,6 раз, а требования к задействованному объему хранилищ данных в год – в 4 раза (с 22425 Пб до 87152 Пб).
Выручка от реализации систем хранения в отрасли медиа и развлечений вырастут более чем в 1,4 раза в период с 2012 по 2017 годы с $5,6 млрд до $7,8 млрд. Максимально решения для хранения данных в 2012 году были задействованы для сохранения и архивирования нового контента (98%).
По оценкам Coughlin Associates, в 2012 году от общего объема поставленной памяти 43% пришлось на ленточный формат, 41% на HDD, 16% на оптические диски и 0,2% на флеш (которая используется в основном в цифровых камерах и некоторых системах дистрибуции медиа). К 2017 году на ленты будет приходиться только 38%, а на HDD – уже 59%, на оптические диски – 3% и на флеш – 0,3%.
Общая выручка от реализации носителей и устройств, используемых в медиа и индустрии развлечений, вырастет в период с 2012 по 2017 год в 1,3 раза с $774 млн до $974 млн.
Big data в маркетинге
Когда конкуренция обостряется, для компаний важно предлагать клиентам свои услуги в тот момент, когда они наиболее востребованы, причем делать это быстро. Поэтому роль маркетинга возрастает - это уже не побочная ветвь бизнеса, как было раньше. Согласно данным исследования IBM , 63% главных исполнительных директоров пользуются помощью директоров по маркетингу (CMO) в выработке своей бизнес-стратегии. По уровню вовлеченности в этот процесс CMO опережают только главные финансовые директора с показателем 72%.
Теперь маркетологи могут воспользоваться современными технологиями big data и мощной аналитикой, что многократно усиливает возможности маркетинговых подразделений. Если раньше в их распоряжении были небольшие фрагменты данных, на основном которых приходилось выстраивать картину целого, да и сами данные подчас хранились там, откуда извлечь их было проблематично, то теперь положение дел изменилось.
Директора по маркетингу комбинируют данные из внутренних и внешних источников. Во-первых, люди сами о себе сообщают много информации, например, в социальных сетях. Там можно отслеживать их предпочтения или критику услуг. Анализ таких данных позволяет делать клиентам персонифицированные предложения. Особенно важно это для организаций, относящихся к сектору СМБ. Более того, небольшие компании подчас вынуждены открывать у себя новые направления бизнеса, если это требуется их клиентам.
Корпорация IBM ежегодно, начиная с 2004 года, проводит исследование, в котором опрашиваются директора компаний. В новом исследовании, которое назвали «Принимая вызов: Каким образом CMO могут начать заполнение информационных брешей» приняли участие более пятисот главных директоров по маркетингу компаний из 56 стран и 19 отраслей со всего мира.
Результаты исследования показали, что 94% опрошенных считают, что аналитика будет играть важную роль в достижении поставленных целей. Вместе с тем, возросло число директоров (82% респондентов по сравнению с 71% тремя годами ранее), которые полагают, что их организации недостаточно подготовлены к извлечению реальной экономической выгоды из взрывного роста данных.
Исследование также показало - когда директор по маркетингу тесно взаимодействует с директором по информационным технологиям, предприятие, как правило, функционирует более успешно. Приоритеты директоров по маркетингу сейчас соответствуют потребностям цифровой экономики. В 2013 году впервые на 1 место в числе приоритетов вышел пункт «развитие технологий».
Еще один факт: 94% руководителей отделов маркетинга считают, что ключевым фактором будущего успеха будут мобильные технологии. Три года назад такое мнение высказали 80% респондентов. Многие участники опроса – 58% респондентов заявили, что могут заниматься делами бизнеса независимо от своего местонахождения или используемого устройства.
Большие данные гражданской авиации
Согласно прогнозу аналитиков, 67% компаний из аэрокосмической отрасли реализуют проекты на основе Big Data , ещё 10% планируют такие проекты. Что касается авиакомпаний, то здесь реализация проектов на февраль 2019 года заявлена у 44% компаний, а планы на такие проекты анонсировали 25%.
Это результаты исследования, которое провела в декабре 2017 года компания FlightGlobal относительно роли Big Data для аэрокосмических предприятий и авиакомпаний. Аналитики также выяснили мнение по поводу совместного использования данных по состоянию самолётов с производителями и компаниями, осуществляющими ремонт и техническое обслуживание (ТО) . В исследовании приняли участие 300 профессионалов из аэрокосмической и авиационной отрасли. Большинство из них уверены, что технологии Big Data способны повысить операционную надёжность и эффективность авиакомпаний.
Приблизительно половина респондентов ответила, что их компании используют массивы данных о состоянии самолётов, что помогает им принимать более выверенные решения. В ближайшей перспективе доля таких компаний вырастет до 75%.
Совместное использование данных с OEM/MRO всё ещё остаётся проблематичным. Однако 38% авиакомпаний полагают, что такая модель может обеспечить им значительные бизнес-преимущества.
Согласно данным из опубликованного в мае 2018 года обзора компании Honeywell "Connected Aircraft" , 47% опрошенных авиакомпаний планируют потратить в целях подключения воздушных судов к Сети до 1 млн. долларов в течение следующего года на каждый самолёт, эксплуатируемый ими. Большинство этих компаний планирует уложиться в суммы от 0.1 до 0.5 млн. долларов. Однако, в пятилетней перспективе 38% авиаперевозчиков анонсировали инвестиции уже в размере 1-10 млн. долларов на каждый самолёт.
До февраля 2019 года при инвестировании авиакомпаниями в смежные к авиации технологии (connected technologies) речь шла, прежде всего, об обеспечении спутниковой связи и Wi-Fi . Теперь же компании готовы извлекать выгоду из тех данных, которые они могут получать путем использования оборудования непосредственно на борту самолётов. Например, такие данные могут обеспечить им экономию в размере 1% от потребляемого топлива, что эквивалентно 50 000 долларов на самолёт в год, подсчитали аналитики Honeywell. Подробнее .
Предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) - примерно в 9 раз больше того, что было создано в 2006-м.
Более сложное определение
Тем не менее `большие данные ` предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, - это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных .
Наилучшее определение
В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: `Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности`.
Насколько велика разница между бизнес-аналитикой и большими данными?
Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывал, что бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.
Мэтт Слокум из O"Reilly Radar считает, что хотя большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.
- Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
- Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
- Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.
Согласно опубликованной компанией Oracle белой книге `Информационная архитектура Oracle: руководство архитектора по большим данным` (Oracle Information Architecture: An Architect"s Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.
Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов `машинного обучения `, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.
Методики анализа больших данных
Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, A/B-тестирование, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.
A/B testing . Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.
Association rule learning . Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining .
Classification . Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining .
Cluster analysis . Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining .
Crowdsourcing . Методика сбора данных из большого количества источников.
Data fusion and data integration . Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.
Data mining . Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.
Ensemble learning . В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.
Genetic algorithms . В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.
Machine learning . Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.
Natural language processing (NLP ). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.
Network analysis . Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.
Optimization . Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.
Pattern recognition . Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.
Predictive modeling . Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM -системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.
Regression . Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.
Sentiment analysis . В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.
Signal processing . Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.
Spatial analysis . Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).
Statistics . Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.
Supervised learning . Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.
Simulation . Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.
Time series analysis . Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.
Unsupervised learning . Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis .
Визуализация . Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.
Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций.
Аналитический инструментарий
На 2011 год некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:
- Revolution Analytics (на базе языка R для мат.статистики).
Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций . Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. Практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.
Рынки решений для управления большими данными
Платформы больших данных (BDP, Big Data Platform) как средство борьбы с цифровым хордингом
Возможность анализировать большие данные , в просторечии называемая Big Data, воспринимается как благо, причем однозначно. Но так ли это на самом деле? К чему может привести безудержное накопление данных? Скорее всего к тому, что отечественные психологи применительно к человеку называют патологическим накопительством, силлогоманией или образно "синдромом Плюшкина". По-английски порочная страсть собирать все подряд называют хордингом (от англ. hoard – «запас»). По классификации ментальных заболеваний хординг причислен к психическим расстройствам. В цифровую эпоху к традиционному вещественному хордингу добавляется цифровой (Digital Hoarding), им могут страдать как отдельные личности, так и целые предприятия и организации ().
Мировой и рынок России
Big data Landscape - Основные поставщики
Интерес к инструментам сбора, обработки, управления и анализа больших данных проявляли едва ли не все ведущие ИТ-компании, что вполне закономерно. Во-первых, они непосредственно сталкиваются с этим феноменом в собственном бизнесе, во-вторых, большие данные открывают отличные возможности для освоения новых ниш рынка и привлечения новых заказчиков.
На рынке появлялось множество стартапов, которые делают бизнес на обработке огромных массивов данных. Часть из них используют готовую облачную инфраструктуру, предоставляемую крупными игроками вроде Amazon.
Теория и практика Больших данных в отраслях
История развития
2017
Прогноз TmaxSoft: следующая «волна» Big Data потребует модернизации СУБД
Предприятиям известно, что в накопленных ими огромных объемах данных содержится важная информация об их бизнесе и клиентах. Если компания сможет успешно применить эту информацию, то у нее будет значительное преимущество по сравнению с конкурентами, и она сможет предложить лучшие, чем у них, продукты и сервисы. Однако многие организации всё еще не могут эффективно использовать большие данные из-за того, что их унаследованная ИТ-инфраструктура неспособна обеспечить необходимую емкость систем хранения, процессы обмена данных, утилиты и приложения, необходимые для обработки и анализа больших массивов неструктурированных данных для извлечения из них ценной информации, указали в TmaxSoft.
Кроме того, увеличение процессорной мощности, необходимой для анализа постоянно увеличивающихся объемов данных, может потребовать значительных инвестиций в устаревшую ИТ-инфраструктуру организации, а также дополнительных ресурсов для сопровождения, которые можно было бы использовать для разработки новых приложений и сервисов.
5 февраля 2015 года Белый дом опубликовал доклад , в котором обсуждался вопрос о том, как компании используют «большие данные » для установления различных цен для разных покупателей - практика, известная как «ценовая дискриминация» или «дифференцированное ценообразование» (personalized pricing). Отчет описывает пользу «больших данных» как для продавцов, так и покупателей, и его авторы приходят к выводу о том, что многие проблемные вопросы, возникшие в связи с появлением больших данных и дифференцированного ценообразования, могут быть решены в рамках существующего антидискриминационного законодательства и законов, защищающих права потребителей.
В докладе отмечается, что в это время имеются лишь отдельные факты, свидетельствующие о том, как компании используют большие данные в контексте индивидуализированного маркетинга и дифференцированного ценообразования. Этот сведения показывают, что продавцы используют методы ценообразования, которые можно разделить на три категории:
- изучение кривой спроса;
- Наведение (steering) и дифференцированное ценообразование на основе демографических данных; и
- целевой поведенческий маркетинг (поведенческий таргетинг - behavioral targeting) и индивидуализированное ценообразование.
Изучение кривой спроса : С целью выяснения спроса и изучения поведения потребителей маркетологи часто проводят эксперименты в этой области, в ходе которых клиентам случайным образом назначается одна из двух возможных ценовых категорий. «Технически эти эксперименты являются формой дифференцированного ценообразования, поскольку их следствием становятся разные цены для клиентов, даже если они являются «недискриминационными» в том смысле, что у всех клиенты вероятность «попасть» на более высокую цену одинакова».
Наведение (steering) : Это практика представления продуктов потребителям на основе их принадлежности к определенной демографической группе. Так, веб-сайт компьютерной компании может предлагать один и тот же ноутбук различным типам покупателей по разным ценам, уставленным на основе сообщённой ими о себе информации (например, в зависимости от того, является ли данный пользователь представителем государственных органов, научных или коммерческих учреждений, или же частным лицом) или от их географического расположения (например, определенного по IP-адресу компьютера).
Целевой поведенческий маркетинг и индивидуализированное ценообразование : В этих случаях персональные данные покупателей используются для целевой рекламы и индивидуализированного назначения цен на определенные продукты. Например, онлайн-рекламодатели используют собранные рекламными сетями и через куки третьих сторон данные об активности пользователей в интернете для того, чтобы нацелено рассылать свои рекламные материалы. Такой подход, с одной стороны, дает возможность потребителям получить рекламу представляющих для них интерес товаров и услуг, Он, однако, может вызвать озабоченность тех потребителей, которые не хотят, чтобы определенные виды их персональных данных (такие, как сведения о посещении сайтов, связанных с медицинскими и финансовыми вопросами) собирались без их согласия.
Хотя целевой поведенческий маркетинг широко распространен, имеется относительно мало свидетельств индивидуализированного ценообразования в онлайн-среде. В отчете высказывается предположение, что это может быть связано с тем, что соответствующие методы все ещё разрабатываются, или же с тем, что компании не спешат использовать индивидуальное ценообразование (либо предпочитают о нём помалкивать) - возможно, опасаясь негативной реакции со стороны потребителей.
Авторы отчета полагают, что «для индивидуального потребителя использование больших данных, несомненно, связано как с потенциальной отдачей, так и с рисками». Признавая, что при использовании больших данных появляются проблемы прозрачности и дискриминации, отчет в то же время утверждает, что существующих антидискриминационных законов и законов по защиты прав потребителей достаточно для их решения. Однако в отчете также подчеркивается необходимость «постоянного контроля» в тех случаях, когда компании используют конфиденциальную информацию непрозрачным образом либо способами, которые не охватываются существующей нормативно-правовой базой.
Данный доклад является продолжением усилий Белого дома по изучению применения «больших данных» и дискриминационного ценообразования в Интернете, и соответствующих последствий для американских потребителей. Ранее уже сообщалось о том, что рабочая группа Белого дома по большим данным опубликовала в мае 2014 года свой доклад по этому вопросу. Федеральная комиссия по торговле (FTC) также рассматривала эти вопросы в ходе проведенного ею в сентября 2014 года семинара по дискриминации в связи с использованием больших данных .
2014
Gartner развеивает мифы о "Больших данных"
В аналитической записке осени 2014 года Gartner перечислен ряд распространенных среди ИТ-руководителей мифов относительно Больших Данных и приводятся их опровержения.
- Все внедряют системы обработки Больших Данных быстрее нас
Интерес к технологиям Больших Данных рекордно высок: в 73% организаций, опрошенных аналитиками Gartner в этом году, уже инвестируют в соответствующие проекты или собираются. Но большинство таких инициатив пока еще на самых ранних стадиях, и только 13% опрошенных уже внедрили подобные решения. Сложнее всего - определить, как извлекать доход из Больших Данных, решить, с чего начать. Во многих организациях застревают на пилотной стадии, поскольку не могут привязать новую технологию к конкретным бизнес-процессам.
- У нас так много данных, что нет нужды беспокоиться о мелких ошибках в них
Некоторые ИТ-руководители считают, что мелкие огрехи в данных не влияют на общие результаты анализа огромных объемов. Когда данных много, каждая ошибка в отдельности действительно меньше влияет на результат, отмечают аналитики, но и самих ошибок становится больше. Кроме того, большая часть анализируемых данных - внешние, неизвестной структуры или происхождения, поэтому вероятность ошибок растет. Таким образом, в мире Больших Данных качество на самом деле гораздо важнее.
- Технологии Больших Данных отменят нужду в интеграции данных
Большие Данные обещают возможность обработки данных в оригинальном формате с автоматическим формированием схемы по мере считывания. Считается, что это позволит анализировать информацию из одних и тех же источников с помощью нескольких моделей данных. Многие полагают, что это также даст возможность конечным пользователям самим интерпретировать любой набор данных по своему усмотрению. В реальности большинству пользователей часто нужен традиционный способ с готовой схемой, когда данные форматируются соответствующим образом, и имеются соглашения об уровне целостности информации и о том, как она должна соотноситься со сценарием использования.
- Хранилища данных нет смысла использовать для сложной аналитики
Многие администраторы систем управления информацией считают, что нет смысла тратить время на создание хранилища данных, принимая во внимание, что сложные аналитические системы пользуются новыми типами данных. На самом деле во многих системах сложной аналитики используется информация из хранилища данных. В других случаях новые типы данных нужно дополнительно готовить к анализу в системах обработки Больших Данных; приходится принимать решения о пригодности данных, принципах агрегации и необходимом уровне качества - такая подготовка может происходить вне хранилища.
- На смену хранилищам данных придут озера данных
В реальности поставщики вводят заказчиков в заблуждение, позиционируя озера данных (data lake) как замену хранилищам или как критически важные элементы аналитической инфраструктуры. Основополагающим технологиям озер данных не хватает зрелости и широты функциональности, присущей хранилищам. Поэтому руководителям, отвечающим за управление данными, стоит подождать, пока озера достигнут того же уровня развития, считают в Gartner.
Accenture: 92% внедривших системы больших данных, довольны результатом
Среди главных преимуществ больших данных опрошенные назвали:
- «поиск новых источников дохода» (56%),
- «улучшение опыта клиентов» (51%),
- «новые продукты и услуги» (50%) и
- «приток новых клиентов и сохранение лояльности старых» (47%).
При внедрении новых технологий многие компании столкнулись с традиционными проблемами. Для 51% камнем преткновения стала безопасность, для 47% - бюджет, для 41% - нехватка необходимых кадров, а для 35% - сложности при интеграции с существующей системой. Практически все опрошенные компании (около 91%) планируют в скором времени решать проблему с нехваткой кадров и нанимать специалистов по большим данным.
Компании оптимистично оценивают будущее технологий больших данных. 89% считают, что они изменят бизнес столь же сильно, как и интернет. 79% респондентов отметили, что компании, которые не занимаются большими данными, потеряют конкурентное преимущество.
Впрочем, опрошенные разошлись во мнении о том, что именно стоит считать большими данными. 65% респондентов считают, что это «большие картотеки данных», 60% уверены, что это «продвинутая аналитика и анализ», а 50% - что это «данные инструментов визуализации».
Мадрид тратит 14,7 млн евро на управление большими данными
В июле 2014 г. стало известно о том, что Мадрид будет использовать технологии big data для управления городской инфраструктурой. Стоимость проекта - 14,7 млн евро, основу внедряемых решений составят технологии для анализа и управления большими данными. С их помощью городская администрация будет управлять работой с каждым сервис-провайдером и соответствующим образом оплачивать ее в зависимости от уровня услуг.
Речь идет о подрядчиках администрации, которые следят за состоянием улиц, освещением, ирригацией, зелеными насаждениями, осуществляют уборку территории и вывоз, а также переработку мусора. В ходе проекта для специально выделенных инспекторов разработаны 300 ключевых показателей эффективности работы городских сервисов, на базе которых ежедневно будет осуществляться 1,5 тыс. различных проверок и замеров. Кроме того, город начнет использование инновационной технологическлй платформы под названием Madrid iNTeligente (MiNT) - Smarter Madrid.
2013
Эксперты: Пик моды на Big Data
Все без исключения вендоры на рынке управления данными в это время ведут разработку технологий для менеджмента Big Data. Этот новый технологический тренд также активно обсуждается профессиональными сообществом, как разработчиками, так и отраслевыми аналитиками и потенциальными потребителями таких решений.
Как выяснила компания Datashift, по состоянию на январь 2013 года волна обсуждений вокруг «больших данных » превысила все мыслимые размеры. Проанализировав число упоминаний Big Data в социальных сетях, в Datashift подсчитали, что за 2012 год этот термин употреблялся около 2 млрд раз в постах, созданных около 1 млн различных авторов по всему миру. Это эквивалентно 260 постам в час, причем пик упоминаний составил 3070 упоминаний в час.
Gartner: Каждый второй ИТ-директор готов потратиться на Big data
После нескольких лет экспериментов с технологиями Big data и первых внедрений в 2013 году адаптация подобных решений значительно возрастет, прогнозируют в Gartner . Исследователи опросили ИТ-лидеров во всем мире и установили, что 42% опрошенных уже инвестировали в технологии Big data или планируют совершить такие инвестиции в течение ближайшего года (данные на март 2013 года).
Компании вынуждены потратиться на технологии обработки больших данных , поскольку информационный ландшафт стремительно меняется, требую новых подходов к обработки информации. Многие компании уже осознали, что большие массивы данных являются критически важными, причем работа с ними позволяет достичь выгод, не доступных при использовании традиционных источников информации и способов ее обработки. Кроме того, постоянное муссирование темы «больших данных» в СМИ подогревает интерес к соответствующим технологиям.
Фрэнк Байтендидк (Frank Buytendijk), вице-президент Gartner, даже призвал компании умерить пыл, поскольку некоторые проявляют беспокойство, что отстают от конкурентов в освоении Big data.
«Волноваться не стоит, возможности для реализации идей на базе технологий «больших данных» фактически безграничны», - заявил он.
По прогнозам Gartner, к 2015 году 20% компаний списка Global 1000 возьмут стратегический фокус на «информационную инфраструктуру».
В ожидании новых возможностей, которые принесут с собой технологии обработки «больших данных», уже сейчас многие организации организуют процесс сбора и хранения различного рода информации.
Для образовательных и правительственных организаций, а также компаний отрасли промышленности наибольший потенциал для трансформации бизнеса заложен в сочетании накопленных данных с так называемыми dark data (дословно – «темными данными»), к последним относятся сообщения электронной почты, мультимедиа и другой подобный контент. По мнению Gartner, в гонке данных победят именно те, кто научится обращаться с самыми разными источниками информации.
Опрос Cisco: Big Data поможет увеличить ИТ-бюджеты
В ходе исследования (весна 2013 года) под названием Cisco Connected World Technology Report, проведенного в 18 странах независимой аналитической компанией InsightExpress, были опрошены 1 800 студентов колледжей и такое же количество молодых специалистов в возрасте от 18 до 30 лет. Опрос проводился, чтобы выяснить уровень готовности ИТ-отделов к реализации проектов Big Data и получить представление о связанных с этим проблемах, технологических изъянах и стратегической ценности таких проектов.
Большинство компаний собирает, записывает и анализирует данные. Тем не менее, говорится в отчете, многие компании в связи с Big Data сталкиваются с целым рядом сложных деловых и информационно-технологических проблем. К примеру, 60 процентов опрошенных признают, что решения Big Data могут усовершенствовать процессы принятия решений и повысить конкурентоспособность, но лишь 28 процентов заявили о том, что уже получают реальные стратегические преимущества от накопленной информации.
Более половины опрошенных ИТ-руководителей считают, что проекты Big Data помогут увеличить ИТ-бюджеты в их организациях, так как будут предъявляться повышенные требования к технологиям, персоналу и профессиональным навыкам. При этом более половины респондентов ожидают, что такие проекты увеличат ИТ-бюджеты в их компаниях уже в 2012 году. 57 процентов уверены в том, что Big Data увеличит их бюджеты в течение следующих трех лет.
81 процент респондентов заявили, что все (или, по крайней мере, некоторые) проекты Big Data потребуют применения облачных вычислений. Таким образом, распространение облачных технологий может сказаться на скорости распространения решений Big Data и на ценности этих решений для бизнеса.
Компании собирают и используют данные самых разных типов, как структурированные, так и неструктурированные. Вот из каких источников получают данные участники опроса (Cisco Connected World Technology Report):
Почти половина (48 процентов) ИТ-руководителей прогнозирует удвоение нагрузки на их сети в течение ближайших двух лет. (Это особенно характерно для Китая , где такой точки зрения придерживаются 68 процентов опрошенных, и Германии – 60 процентов). 23 процента респондентов ожидают утроения сетевой нагрузки на протяжении следующих двух лет. При этом лишь 40 процентов респондентов заявили о своей готовности к взрывообразному росту объемов сетевого трафика.
27 процентов опрошенных признали, что им необходимы более качественные ИТ-политики и меры информационной безопасности .
21 процент нуждается в расширении полосы пропускания.
Big Data открывает перед ИТ-отделами новые возможности для наращивания ценности и формирования тесных отношений с бизнес-подразделениями, позволяя повысить доходы и укрепить финансовое положение компании. Проекты Big Data делают ИТ-подразделения стратегическим партнером бизнес-подразделений.
По мнению 73 процентов респондентов, именно ИТ-отдел станет основным локомотивом реализации стратегии Big Data. При этом, считают опрошенные, другие отделы тоже будут подключаться к реализации этой стратегии. Прежде всего, это касается отделов финансов (его назвали 24 процента респондентов), научно-исследовательского (20 процентов), операционного (20 процентов), инженерного (19 процентов), а также отделов маркетинга (15 процентов) и продаж (14 процентов).
Gartner: Для управления большими данными нужны миллионы новых рабочих мест
Мировые ИТ расходы достигнут $3,7 млрд к 2013 году, что на 3,8% больше расходов на информационные технологии в 2012 году (прогноз на конец года составляет $3,6 млрд). Сегмент больших данных (big data) будет развиваться гораздо более высокими темпами, говорится в отчете Gartner .
К 2015 году 4,4 млн рабочих мест в сфере информационных технологий будет создано для обслуживания больших данных, из них 1,9 млн рабочих мест – в . Более того, каждое такое рабочее место повлечет за собой создание трех дополнительных рабочих мест за пределами сферы ИТ, так что только в США в ближайшие четыре года 6 млн человек будет трудиться для поддержания информационной экономики.
По мнению экспертов Gartner, главная проблема состоит в том, что в отрасли для этого недостаточно талантов: как частная, так и государственная образовательная система, например, в США не способны снабжать отрасль достаточным количеством квалифицированных кадров. Так что из упомянутых новых рабочих мест в ИТ кадрами будет обеспечено только одно из трех.
Аналитики полагают, что роль взращивания квалифицированных ИТ кадров должны брать на себя непосредственно компании, которые в них остро нуждаются, так как такие сотрудники станут пропуском для них в новую информационную экономику будущего.
2012
Первый скепсис в отношении "Больших данных"
Аналитики компаний Ovum и Gartner предполагают, что для модной в 2012 году темы больших данных может настать время освобождения от иллюзий.
Термином «Большие Данные», в это время как правило, обозначают постоянно растущий объем информации, поступающей в оперативном режиме из социальных медиа, от сетей датчиков и других источников, а также растущий диапазон инструментов, используемых для обработки данных и выявления на их основе важных бизнес-тенденций.
«Из-за шумихи (или несмотря на нее) относительно идеи больших данных производители в 2012 году с огромной надеждой смотрели на эту тенденцию», - отметил Тони Байер, аналитик Ovum.
Байер сообщил, что компания DataSift провела ретроспективный анализ упоминаний больших данных в
Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.
С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации , быстродействие ее обработки и разнообразие сведений , хранящихся в массиве. В последнее время к трем базовым принципам стали добавлять еще один – Value , что обозначает ценность информации . То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.
В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.
Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.
Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.
Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.
Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.
В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.
К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.
ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.
К основным методам анализа и обработки данных можно отнести следующие:
- Методы класса или глубинный анализ (Data Mining).
Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.
- Краудсорсинг.
Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.
- А/В-тестирование.
Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.
- Прогнозная аналитика.
Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.
- Машинное обучение (искусственный интеллект).
Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.
- Сетевой анализ.
Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.
В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:
- Облачные хранилища.
Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.
- Использование Dark Data.
Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.
- Искусственный интеллект и Deep Learning.
Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.
Предисловие
“Big data” - модный нынче термин, фигурирующий почти на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных (data mining), CRM. Термин используется в сферах, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, веб-аналитике, медицине и др.
Вместе со стремительным накоплением информации быстрыми темпами развиваются и технологии анализа данных. Если еще несколько лет назад было возможно, скажем, лишь сегментировать клиентов на группы со схожими предпочтениями, то теперь возможно строить модели для каждого клиента в режиме реального времени, анализируя, например, его перемещение по сети Интернет для поиска конкретного товара. Интересы потребителя могут быть проанализированы, и в соответствии с построенной моделью выведена подходящая реклама или конкретные предложения. Модель также может настраиваться и перестраиваться в режиме реального времени, что было немыслимо еще несколько лет назад.
В области телекоммуникации, например, развиты технологии для определения физического расположения сотовых телефонов и их владельцев, и, кажется, в скором времени станет реальностью идея, описанная в научно-фантастическом фильме «Особое мнение», 2002 года, где отображение рекламной информации в торговых центрах учитывала интересы конкретных лиц, проходящих мимо.
В то же время, существуют ситуации, когда увлечение новыми технологиями может привести и к разочарованию. Например, иногда разреженные данные (Sparse data ), дающие важное понимание действительности, являются гораздо более ценными, чем Большие данные (Big Data), описывающие горы, зачастую, не существенной информации.
Цель данной статьи - прояснить и обдумать новые возможности Big Data и проиллюстрировать, как аналитическая платформа STATISTICA компании StatSoft может помочь в эффективном использовании Big Data для оптимизации процессов и решения задач.
Насколько большие Big Data?
Конечно, правильный ответ на данный вопрос должен звучать - «это зависит…»
В современных обсуждениях понятие Big Data описывают как данные объема в порядках терабайт.
На практике (если речь идет о гигабайтах или терабайтах), такие данные легко хранить и управлять ими с помощью «традиционных» баз данных и стандартного оборудования (сервера баз данных).
Программное обеспечение STATISTICA использует многопоточную технологию для алгоритмов доступа к данным (чтения), преобразования и построения прогностических (и скоринговых) моделей, поэтому такие выборки данных могут быть легко проанализированы, и не требуют специализированных инструментов.
В некоторых текущих проектах StatSoft обрабатываются выборки порядка 9-12 миллионов строк. Умножим их на 1000 параметров (переменных), собранных и организованных в хранилище данных для построения рисковых или прогностических моделей. Такого рода файл будет иметь объем “только” около 100 гигабайт. Это, конечно, не маленькое хранилище данных, но его размеры не превышают возможностей технологии стандартных баз данных.
Линейка продуктов STATISTICA для пакетного анализа и построения скоринговых моделей (STATISTICA Enterprise ), решения, работающие в режиме реального времени (STATISTICA Live Score ), и аналитические инструменты для создания и управления моделями (STATISTICA Data Miner , Decisioning ) легко масштабируются на несколько серверов с многоядерными процессорами.
На практике это означает, что достаточная скорость работы аналитических моделей (например, прогнозы в отношении кредитного риска, вероятности мошенничества, надежности узлов оборудования, и т.д.) позволяющая принимать оперативные решения, почти всегда может быть достигнута с помощью стандартных инструментов STATISTICA .
От больших объемов данных к Big Data
Как правило, обсуждение Big Data сосредоточено вокруг хранилищ данных (и проведении анализа, основанных на таких хранилищах), объемом намного больше, чем просто несколько терабайт.
В частности, некоторые хранилища данных могут вырасти до тысячи терабайт, т.е., до петабайт (1000 терабайт = 1 петабайт).
За пределами петабайт, накопление данных может быть измерено в эксабайтах, например, в производственном секторе по всему миру в 2010 году, по оценкам, накоплено в общей сложности 2 эксабайта новой информации (Manyika et al., 2011 г.).
Существуют отрасли, где данные собираются и накапливаются очень интенсивно.
Например, в производственной сфере, такой как электростанции, непрерывный поток данных генерируется иногда для десятков тысяч параметров каждую минуту или даже каждую секунду.
Кроме того, за последние несколько лет, внедряются так называемые “smart grid” технологии, позволяющие коммунальным службам измерять потребление электроэнергии отдельными семьями каждую минуту или каждую секунду.
Для такого рода приложений, в которых данные должны храниться годами, накопленные данные классифицируются как Extremely Big Data.
Растет и число приложений Big Data среди коммерческих и государственных секторов, где объем данных в хранилищах, может составлять сотни терабайт или петабайт.
Современные технологии позволяют «отслеживать» людей и их поведение различными способами. Например, когда мы пользуемся интернетом, делаем покупки в Интернет-магазинах или крупных сетях магазинов, таких как Walmart (согласно Википедии, хранилище данных Walmart оценивается более чем в 2 петабайт), или перемещаемся с включенными мобильными телефонами - мы оставляем след наших действий, что приводит к накоплению новой информации.
Различные способы связи, от простых телефонных звонков до загрузки информации через сайты социальных сетей, таких как Facebook (согласно данным Википедии, обмен информацией каждый месяц составляет 30 млрд. единиц), или обмен видео на таких сайтах, как YouTube (Youtube утверждает, что он загружает 24 часа видео каждую минуту; см. Wikipedia), ежедневно генерируют огромное количество новых данных.
Аналогичным образом, современные медицинские технологии генерируют большие объемы данных, относящиеся к оказанию медицинской помощи (изображения, видео, мониторинг в реальном времени).
Итак, классификацию объемов данных можно представить так:
Большие наборы данных: от 1000 мегабайт (1 гигабайт) до сотен гигабайт
Огромные наборы данных: от 1000 гигабайт (1терабайт) до нескольких терабайт
Big Data: от нескольких терабайт до сотен терабайт
Extremely Big Data: от 1000 до 10000 терабайт = от 1 до 10 петабайт
Задачи, связанные с Big Data
Существуют три типа задач связанных с Big Data:
1. Хранение и управление
Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных.
2. Неструктурированная информация
Большинство всех данных Big Data являются неструктурированными. Т.е. как можно организовать текст, видео, изображения, и т.д.?
3. Анализ Big Data
Как анализировать неструктурированную информацию? Как на основе Big Data составлять простые отчеты, строить и внедрять углубленные прогностические модели?
Хранение и управление Big Data
Big Data обычно хранятся и организуются в распределенных файловых системах.
В общих чертах, информация хранится на нескольких (иногда тысячах) жестких дисках, на стандартных компьютерах.
Так называемая «карта» (map) отслеживает, где (на каком компьютере и/или диске) хранится конкретная часть информации.
Для обеспечения отказоустойчивости и надежности, каждую часть информации обычно сохраняют несколько раз, например - трижды.
Так, например, предположим, что вы собрали индивидуальные транзакции в большой розничной сети магазинов. Подробная информация о каждой транзакции будет храниться на разных серверах и жестких дисках, а «карта» (map) индексирует, где именно хранятся сведения о соответствующей сделке.
С помощью стандартного оборудования и открытых программных средств для управления этой распределенной файловой системой (например, Hadoop ), сравнительно легко можно реализовать надежные хранилища данных в масштабе петабайт.
Неструктурированная информация
Большая часть собранной информации в распределенной файловой системе состоит из неструктурированных данных, таких как текст, изображения, фотографии или видео.
Это имеет свои преимущества и недостатки.
Преимущество состоит в том, что возможность хранения больших данных позволяет сохранять “все данные”, не беспокоясь о том, какая часть данных актуальна для последующего анализа и принятия решения.
Недостатком является то, что в таких случаях для извлечения полезной информации требуется последующая обработка этих огромных массивов данных.
Хотя некоторые из этих операций могут быть простыми (например, простые подсчеты, и т.д.), другие требуют более сложных алгоритмов, которые должны быть специально разработаны для эффективной работы на распределенной файловой системе.
Один топ-менеджер однажды рассказал StatSoft что он «потратил целое состояние на IT и хранение данных, но до сих пор не начал получать денег», потому что не думал о том, как лучше использовать эти данные для улучшения основной деятельности.
Итак, в то время как объем данных может расти в геометрической прогрессии, возможности извлекать информацию и действовать на основе этой информации, ограничены и будут асимптотически достигать предела.
Важно, чтобы методы и процедуры для построения, обновления моделей, а также для автоматизации процесса принятия решений были разработаны наряду с системами хранения данных, чтобы гарантировать, что такие системы являются полезными и выгодными для предприятия.
Анализ Big Data
Это действительно большая проблема, связанная с анализом неструктурированных данных Big Data: как анализировать их с пользой. О данном вопросе написано гораздо меньше, чем о хранении данных и технологиях управления Big Data.
Есть ряд вопросов, которые следует рассмотреть.
Map-Reduce
При анализе сотни терабайт или петабайт данных, не представляется возможным извлечь данные в какое-либо другое место для анализа (например, в STATISTICA Enterprise Analysis Server ).
Процесс переноса данных по каналам на отдельный сервер или сервера (для параллельной обработки) займет слишком много времени и требует слишком большого трафика.
Вместо этого, аналитические вычисления должны быть выполнены физически близко к месту, где хранятся данные.
Алгоритм Map-Reduce представляет собой модель для распределенных вычислений. Принцип его работы заключается в следующем: происходит распределение входных данных на рабочие узлы (individual nodes) распределенной файловой системы для предварительной обработки (map-шаг) и, затем, свертка (объединение) уже предварительно обработанных данных (reduce-шаг).
Таким образом, скажем, для вычисления итоговой суммы, алгоритм будет параллельно вычислять промежуточные суммы в каждом из узлов распределенной файловой системы, и затем суммировать эти промежуточные значения.
В Интернете доступно огромное количество информации о том, каким образом можно выполнять различные вычисления с помощью модели map-reduce, в том числе и для прогностической аналитики.
Простые статистики, Business Intelligence (BI)
Для составления простых отчетов BI, существует множество продуктов с открытым кодом, позволяющих вычислять суммы, средние, пропорции и т.п. с помощью map-reduce.
Таким образом, получить точные подсчеты и другие простые статистики для составления отчетов очень легко.
Прогнозное моделирование, углубленные статистики
На первый взгляд может показаться, что построение прогностических моделей в распределенной файловой системой сложнее, однако это совсем не так. Рассмотрим предварительные этапы анализа данных.
Подготовка данных. Некоторое время назад StatSoft провел серию крупных и успешных проектов с участием очень больших наборов данных, описывающих поминутные показатели процесса работы электростанции. Цель проводимого анализа заключалась в повышении эффективности деятельности электростанции и понижении количества выбросов (Electric Power Research Institute, 2009).
Важно, что, несмотря на то, что наборы данных могут быть очень большими, информация, содержащаяся в них, имеет значительно меньшую размерность.
Например, в то время как данные накапливаются ежесекундно или ежеминутно, многие параметры (температура газов и печей, потоки, положение заслонок и т.д.) остаются стабильными на больших интервалах времени. Иначе говоря, данные, записывающиеся каждую секунду, являются в основном повторениями одной и той же информации.
Таким образом, необходимо проводить “умное” агрегирование данных, получая для моделирования и оптимизации данные, которые содержат только необходимую информацию о динамических изменениях, влияющих на эффективность работы электростанции и количество выбросов.
Классификация текстов и предварительная обработка данных. Проиллюстрируем ещё раз, как большие наборы данных могут содержать гораздо меньше полезной информации.
Например, StatSoft участвовал в проектах, связанных с анализом текстов (text mining) из твитов, отражающих, насколько пассажиры удовлетворены авиакомпаниями и их услугами.
Несмотря на то, что ежечасно и ежедневно было извлечено большое количество соответствующих твитов, настроения, выраженные в них, были довольно простыми и однообразными. Большинство сообщений - жалобы и краткие сообщения из одного предложения о “плохом опыте”. Кроме того, число и “сила” этих настроений относительно стабильны во времени и в конкретных вопросах (например, потерянный багаж, плохое питание, отмена рейсов).
Таким образом, сокращение фактических твитов до скора (оценки) настроения, используя методы text mining (например, реализованные в STATISTICA Text Miner ), приводит к гораздо меньшему объему данных, которые затем могут быть легко сопоставлены с существующими структурированными данными (фактические продажи билетов, или информация о часто летающих пассажирах). Анализ позволяет разбить клиентов на группы и изучить их характерные жалобы.
Существует множество инструментов для проведения такого агрегирования данных (например, скор настроений) в распределенной файловой системе, что позволяет легко осуществлять данный аналитический процесс.
Построение моделей
Часто задача состоит в том, чтобы быстро построить точные модели для данных, хранящихся в распределенной файловой системе.
Существуют реализации map-reduce для различных алгоритмов data mining/прогностической аналитики, подходящих для масштабной параллельной обработки данных в распределенной файловой системе (что может быть поддержано с помощью платформы STATISTICА StatSoft).
Однако, именно из-за того, что вы обработали очень большое количество данных, уверенны ли вы, что итоговая модель является действительно более точной?
На самом деле, скорее всего, удобнее строить модели для небольших сегментов данных в распределенной файловой системе.
Как говорится в недавнем отчете Forrester: «Два плюс два равняется 3,9 - это обычно достаточно хорошо» (Hopkins & Evelson, 2011).
Статистическая и математическая точность заключается в том, что модель линейной регрессии, включающая, например, 10 предикторов, основанных на правильно сделанной вероятностной выборке из 100 000 наблюдений, будет так же точна, как модель, построенная на 100 миллионах наблюдений.
Мы регулярно натыкаемся на модные слова и определения, смысл которых нам интуитивно вроде бы понятен, но четкой картины того, что это все-таки за штука и как она работает, у нас нет.
Одним из таких понятий является Big Data, в русском языке иногда можно встретить буквальный перевод — «большие данные», но чаще люди говорят и пишут как есть: Big Data. Все наверняка слышали или, по крайней мере, встречали это словосочетание в интернете, и оно вроде бы несложное, но что конкретно имеется в виду, далеким от тонкостей диджитал-мира офисным гуманитариям понятно не всегда.
Отличной попыткой восполнить этот пробел в мозгах самого широкого круга пользователей является статья одного из наших любимых авторов Бернарда Марра , которая так и называется «Что такое Big Data? Суперпростое объяснение для каждого» . Без заумного жаргона с единственной целью объяснить ключевые идеи этого феномена для каждого вне зависимости от образования и сферы деятельности.
На самом деле последние несколько лет мы уже живем в мире, насквозь пронизанном Big Data, но продолжаем путаться в понимании того, что же это все-таки такое. Отчасти это происходит и потому, что сама по себе концепция Big Data постоянно трансформируется и переосмысляется, потому что мир высоких технологий и обработки больших массивов информации очень быстро меняется, включая в себя все новые и новые опции. А объем этой информации постоянно растет.
Итак, что значит Big Data — 2017?
Все началось со взрывным ростом количества данных, которые мы создаем с начала цифровой эры. Это стало возможным в основном благодаря росту числа и мощности компьютеров, расширению интернета и развитию технологий, способных захватывать информацию из реального, физического мира, в котором все мы живем, и конвертировать ее в цифровые данные.
В 2017-м мы производим данные, когда заходим в интернет, когда пользуемся нашими укомплектованными GPS-смартфонами, когда общаемся с друзьями в соцсетях, скачиваем мобильные приложения или музыку, когда совершаем покупки.
Можно сказать, что мы оставляем за собой множество цифровых следов, что бы мы ни делали, если наши действия включают в себя какие-либо цифровые транзакции. То есть уже почти всегда и везде.
Помимо этого, с огромной скоростью растет количество данных, сгенерированных самими машинами. Данные создаются и передаются, когда наши умные девайсы коммуницируют друг с другом. Производственные предприятия по всему миру оснащаются оборудованием, которое денно и нощно собирает и передает данные.
В ближайшем будущем наши улицы будут заполнены самоуправляемыми автомобилями, самостоятельно прокладывающими маршруты на основе четырехмерных карт, данные которых генерируются в режиме реального времени.
Что может Big Data?
Бесконечно растущий поток сенсорной информации, фотографий, текстовых сообщений, аудио- и видеоданных лежит в основе Big Data, которые мы можем использовать так, как невозможно было даже представить себе несколько лет назад.
Прямо сейчас основанные на Big Data проекты помогают:
— Лечить болезни и предотвращать рак . Основанная на использовании Big Data медицина анализирует огромное количество медицинских записей и снимков, что делает возможным очень раннюю диагностику и способствует созданию новых методов лечения.
— Бороться с голодом . Сельское хозяйство переживает настоящую революцию Big Data, которая позволяет использовать ресурсы так, чтобы максимально увеличить урожайность при минимальном вмешательстве в экосистему и оптимизировать использование машин и оборудования.
— Открывать далекие планеты . НАСА, к примеру, анализирует огромное количество данных и выстраивает с их помощью модели будущих миссий в далекие миры.
— Предсказывать чрезвычайные ситуации различной природы и минимизировать возможный ущерб. Данные многочисленных сенсоров могут предсказать, где и когда произойдет следующее землетрясение или возможное поведение людей в чрезвычайной ситуации, что повышает шансы на выживание.
— Предотвращать преступления за счет использования технологий, которые позволяют более эффективно распределять ресурсы и направлять их туда, где они наиболее необходимы.
И самое близкое большинству из нас: Big Data делает жизнь обычного человека проще и удобнее — это и онлайн-шопинг, и планирование поездок, и навигация в условиях мегаполиса.
Выбрать лучшее время для покупки авиабилетов и решить, какой фильм или сериал посмотреть, стало гораздо легче именно благодаря работе Big Data.
Как это работает?
Big Data работает на принципе: чем больше вы знаете о чем-либо, тем точнее вы можете предсказать, что случится в будущем. Сравнение отдельных данных и отношений между ними (речь идет об огромном количестве данных и невероятно большом количестве возможных связей между ними) позволяет обнаружить ранее скрытые закономерности. Это дает возможность заглянуть внутрь проблемы и в конечном итоге понимание того, как мы можем управлять тем или иным процессом.
Чаще всего процесс обработки больших объемов информации включает в себя построение моделей, базирующихся на собранных данных, и запуск симуляций, в процессе которого постоянно меняются ключевые настройки, при этом каждый раз система мониторит, как «смена настроек» влияет на возможный результат.
Этот процесс полностью автоматизирован, ведь речь идет об анализе миллионов симуляций, перебора всех возможных вариантов вплоть до того момента, пока паттерн (нужная схема) не будет найден или пока не случится «просветление», что поможет решить задачу, ради которой все и затевалось.
В отличие от привычного нам мира предметов и вычислений, данные принимаются в неструктурированной форме, то есть их сложно засунуть в привычные нам, людям, таблицы с ячейками и столбиками. Огромное количество данных передается как изображения или видео: от спутниковых снимков до селфи, которые вы постите в инстаграм или фейсбук, — так же, как записи в email и мессенджер или телефонные звонки.
Чтобы придать всему этому бесконечному и разношерстному потоку данных практический смысл, Big Data часто использует самые передовые технологии анализа, которые включают в себя искусственный интеллект и машинное обучение (это когда программа в компьютере обучает другие программы).
Компьютеры сами обучаются определять, что представляет та или иная информация — например, распознавать изображения, язык, — и они могут делать это намного быстрее, чем люди.
Большой брат?
Пропорционально беспрецедентным возможностям, которые дает нам сегодня Big Data, растет количество опасений и вопросов, связанных с ее использованием.
НЕПРИКОСНОВЕННОСТЬ ЛИЧНЫХ ДАННЫХ. Big Data собирает огромное количество информации о нашей частной жизни. Очень много информации, которую мы предпочли бы сохранить в тайне.
БЕЗОПАСНОСТЬ. Даже если мы решили, что в передаче всех наших персональных данных машине ради какой-то конкретной, выгодной нам цели нет ничего страшного, можем ли мы быть уверены, что наши данные хранятся в безопасном месте?
Кто и как может нам это гарантировать?
ДИСКРИМИНАЦИЯ. Когда все известно, допустимо ли подвергать людей дискриминации на основании того, что о них известно благодаря Big Data? Банки используют кредитную историю, а страховые компании определяют стоимость автостраховки, исходя из того, что они знаю о вас. Как далеко это может зайти?
Можно предположить, что ради минимизации рисков компании, государственные органы и даже частные лица будут использовать то, что они могут узнать о нас, и по каким-то соображениям ограничивать нам доступ к ресурсам и информации.
При всех преимуществах мы должны признать, что все эти опасения также являются неотъемлемой частью Big Data. До последнего времени над ответами ломали голову ученые, но сейчас пришло время, когда волна докатилась до бизнеса, который хочет использовать преимущества Big Data в своих целях. А это может быть чревато в том числе и катастрофическими последствиями.