big data мода что такое

Как «большие данные» меняют мир моды

Все истории о «больших данных» повествуют об одном и том же. О том, как из огромных объёмов разрозненной информации рождаются новые идеи, появляются новые модели и обоснованные решения. В моде — сфере, где успех каждого следующего сезона зависит от правильного выбора цветов, тканей, форм и размеров и где раньше львиная доля решений зависела от интуиции дизайнеров, — «большие данные» могут изменить очень многое.

Мир моды — просто кладезь данных. Люди охотно обсуждают новые коллекции на сайтах и форумах, оставляют миллиарды сообщений в социальных сетях и выкладывают в Instagram или Pinterest фото понравившихся моделей или своих свежих приобретений. Комментарии, заметки, сообщения появляются каждый день. Бренды реагируют. Так, например, Oscar de la Renta недавно представил новую линейку исключительно на Instagram. Burberry делится фотографиями своего закулисья в Twitter ещё до того, как модели выйдут на подиум, а Michael Kors с десятками других торговых марок и дизайнеров объединился с Pinterest, чтобы создать собственный хаб Fashion Week.

Разумеется, всё большее число крупных дизайнеров, брендов и предприятий розничной торговли так или иначе пытаются собирать и анализировать эту информацию. Как минимум они мониторят отзывы и мнения клиентов в социальных сетях, причём происходит это с самых начальных этапов развития нового продукта — буквально с его проектирования. Возможность взаимодействия на столь ранней стадии добавляет много полезных данных, которые учитываются в конечном продукте. Ещё до того, как новая коллекция появится на подиуме, пользователи социальных сетей уже увидели фото модели или кумира в том или ином наряде, решили для себя, нравится он им или нет. И обозначили своё мнение.

Большую роль в цифровой трансформации мира моды играют компании, предлагающие высокоскоростные аналитические инструменты для работы с информацией социальных медиа. Именно они дают возможность моментально превратить огромные объёмы данных в стоимости реального бизнеса. Модные дома и розничные торговцы могут использовать анализ «больших данных», чтобы быстро понять, какие тенденции набирают силу, а какие — теряют почву под ногами. С этим можно своевременно внести коррективы до запуска новой коллекции, снижая риск того, что линейка не будет продаваться. Учитывается все — начиная от того, какой цвет предпочтут покупатели в следующем сезоне, до нюансов подгонки фасонов под типы фигур. Кроме того, используются методы машинного обучения: с их помощью дома моды научились отслеживать ассоциирование модных брендов с известными личностями. Проще говоря, теперь компания довольно точно знает, например, сумки какого бренда предпочитают поклонники какой актрисы.

На рынке моды прослеживается уже несколько крупных компаний, предоставляющих дизайнерам услуги по сбору и аналитике. Так, компания EDITD предлагает своим клиентам инструменты для того, чтобы увидеть рыночную активность в режиме реального времени. Она и собирает всевозможные данные в социальных медиа и онлайн-магазинах, и составляет прогнозы относительно новых моделей. А точнее, можно взять любой из своих продуктов и посмотреть, в какой степени он соответствует современным предпочтениям публики. Этот сервис особенно популярен среди молодых дизайнеров, которым часто приходится забирать свои нераскупленные товары обратно, если их не удалось продать. Точное планирование ассортимента позволяет им заранее исключить неуспешные модели, продумать стратегию продвижения, получить обратную связь от клиентов. Кроме того, возможности визуального мерчандайзинга EDITD позволяют клиентам понять, когда лучше начинать продажи новых коллекций или проводить акции. Ведь компания может наглядно показать, что именно делали конкуренты в прошлом сезоне и как на это отреагировал рынок.

Ещё один лидер рынка, фактически единственный представитель мира моды в области бизнес-аналитики, — это компания Fashionbi. Она предлагает клиентам самые разнообразные отчёты — по социальным медиа, по рынку в целом и даже финансовые. Компания отслеживает около 2 500 брендов, производящих одежду, косметику и другие подобные товары. Выгодное её отличие от конкурентов — количественные данные. Удобная панель управления сервисом Fashionbi показывает, что именно популярно в конкретных уголках страны в заданный период. В том, что касается анализа клиентских отзывов, компания в большей степени полагается на массовые отклики в блогосфере и соцсетях, нежели на единичные статьи профессиональных критиков. В распоряжении пользователей имеется достаточно полная картина о производителях, формирующих рынок моды.

На создание лучшего розничного опыта при помощи анализа данных ориентирована Burberry. Эта компания стала флагманом во внедрении «больших данных» в розничной среде. Она добилась того, что в любом магазине доступна информация о любом покупателе. Собирается она буквально везде — начиная от кассы магазина и заканчивая профилем клиента в социальной сети. Известно, что именно было куплено в прошлый раз и для кого, какие события произошли в жизни клиента и каковы его предпочтения. Немалую роль в ненавязчивом сборе информации играют и многочисленные датчики, закреплённые повсюду на территории магазинов бренда: помимо определения, какую рекламу или предложение показать находящемуся перед зеркалом покупателю, они также собирают информацию о его поведении. Все вместе это позволяет магазину создать небывало персонализированный подход к покупателю.

Без сомнения, анализ данных оказывают большое влияние на моду, и усиление их роли ещё впереди. Через социальные медиа индустрия открывает свои двери перед мнениями миллионов любителей моды. И будущее именно за теми брендами, которые вовремя уловят тенденции масс и правильно отреагируют на них. Означает ли это, что интуиции профессионалов скоро будут доверять меньше, чем аналитическим платформам? Создатели утверждают, что нет. Практика же заставляет задуматься…

Источник

Big Data – почему это так модно?

Технологии Big Data сегодня очень популярны, о чем говорит хотя бы то, что на текущий момент это наиболее часто встречающийся термин в IT-публикациях. Достаточно посмотреть на статистику таких известных поисковых систем, как Google или Yandex по словосочетанию «Big Data», и становится понятным, что так называемые «Большие Данные» действительно сейчас можно назвать одним из самых востребованных и интересных направлений развития информационных технологий.

Так в чем же секрет популярности этих технологий и что означает термин «Big Data»?
В первую очередь, под терминами «Big Data» или «Большие данные» скрывается огромный набор информации. Причем объем ее столь велик, что обработать такое количество данных обычными программными и аппаратными средствами становиться крайне сложно. Другими словами, Big Data – это проблема. Проблема хранения и обработки гигантских объемов данных.

Откуда берутся эти объемы? Давайте задумаемся, сколько информации генерирует каждый день каждый из нас. Мы разговариваем по телефону, пишем сообщения, ведем блоги, что-то покупаем, что-то фотографируем, что-то отсылаем своим друзьям, что-то получаем в ответ и т.д. и т.п. В конечном итоге речь здесь идет о гигабайтах информации. Все это оставляет свой след в информационном пространстве. Все это где-то хранится и как-то обрабатывается. В какой-то момент информации становится слишком много, и извлекать из нее пользу становится слишком сложно.

С другой стороны, большой объем информации – это только часть «айсберга». Здесь уместно вспомнить такое определение «Big Data», как «Volume, Velocity, Variety», что с одной стороны означает огромные объемы данных (о чем мы уже упомянули), а с другой — необходимость работать с информацией очень быстро. Например, время операции по проверке баланса на вашей карте при снятии наличных исчисляется в миллисекундах. Именно такие требования диктует рынок. Третья сторона вопроса – это разнообразие и неструктурированность информации. Все чаще и чаще приходится оперировать медиа контентом, записями в блогах, слабо структурированными документами и т.д.

Таким образом, когда мы говорим о Big Data, мы понимаем, что это связано с тремя аспектами: большим объемом информации, ее разнообразием или необходимостью обрабатывать данные очень быстро.

С другой стороны, под этим термином часто понимают совершенно конкретный набор подходов и технологий, призванных решить данные задачи. В основе одного из таких подходов лежит система распределенных вычислений, где для обработки данных используется не одна высокопроизводительная машина, а целая группа таких машин, объединенных в кластер.

Существует несколько подходов к построению систем, обеспечивающих распределенную обработку данных. Одним из наиболее популярных подходов является использование парадигмы MapReduce, согласно которой обработка данных разделяется на большое количество элементарных заданий, выполняемых на различных узлах кластера и, в конечном итоге, сводится в единый результат. Модель эта разработана компанией Google и позволяет обрабатывать петабайты данных с помощью компьютерных кластеров.

Сейчас парадигму MapReduce использует довольно большое количество различных проектов, а интерес к технологиям распределенных вычислений становиться выше и выше с каждым днем. В числе существующих реализаций описанной модели можно выделить проект Hadoop, находящийся в настоящий момент под управлением фонда Apache Software Foundation.

Проект Hadoop развивается с 2005 года и используется по всему миру, например, в таких гигантах как Amazon, Google, Facebook, и стремительно набирает популярность и у нас в России. Стоит отметить, что Hadoop — не единственная реализация парадигмы MapReduce. В Википедии вы можете найти ссылки не менее, чем на 15 проектов, так или иначе использующих этот подход.

Но с чем связана популярность и что именно дает использование такого подхода? Основным достоинством распределенных систем является их способность неограниченного увеличения производительности путем линейного масштабирования. Кроме того, не нужно забывать, что высокопроизводительный кластер может быть построен на low-end машинах, а значит его стоимость будет существенно ниже, чем стоимость аналогичного по мощности сервера. И третий, немаловажный, как мне думается момент — это надежность и отказоустойчивость системы. Благодаря тому, что кластер состоит из большого количества узлов, и система автоматически перераспределяет хранящиеся на них данные, при выводе из строя отдельно взятой или нескольких машин, риски потерять какую-либо информацию сведены к минимуму.

Неправильным с моей стороны было бы обойти вниманием и такую область технологий, как NoSQL базы данных. На мой взгляд, это второй существенный тренд, который часто связывают с технологиями Big Data.

И это происходит неспроста. NoSQL базы данных стали активно развиваться в виду того, обработка больших объемов данных с использованием традиционно популярных реляционных баз данных становится все более сложной и ресурсоемкой задачей. В то время, как стоимость аппаратных средств, необходимых для решения таких задач на реляционных СУБД все чаще и чаще ставит под сомнение эффективность такого подхода с точки зрения необходимых инвестиций.

Сам термин NoSQL подразумевает под собой применение подходов, отличных от привычных для нас реляционных СУБД, основанных на принципах ACID. В методологической основе NoSQL баз данных лежит принцип, гласящий что в распределённой системе невозможно одновременно обеспечить согласованность данных, доступность и устойчивость к расщеплению на изолированные части.
В виду этого, такие базы не фокусируются на обеспечении согласованности данных в пользу высокой доступности и устойчивости к разделению данных. Большинство из них организовано по принципу «ключ-значение», за счет чего достигаются высокие гибкость и скорость извлечения информации. С другой стороны, в силу своей инерционности NoSQL базы, как правило, не применяют для обработки быстро изменяющихся данных. А вот когда речь идет о необходимости быстро получить небольшую порцию информации из огромного объема данных, такое решение будет просто находкой.

Надо обратить особое внимание на то, что такие СУБД могут быть как распределенными, так и нераспределенными. В качестве примера распределенных баз класса NoSQL можно привести такие БД, как Cassandra, HBase, MongoDB, CouchDB, Riak, Scalaris или Voldemort. Что касается нераспределенных баз данных, то, на мой взгляд, применение нераспределенной NoSQL СУБД – это полумера. Дополнительный выигрыш в производительности мы сможем получить именно за счет масштабирования в распределенной системе. Хотя нельзя отрицать, что и эти решения имеют свой круг задач.

Нам остается понять, кому могут быть вообще интересны решения, для обработки больших объемов данных? Естественно, интерес порождается в тех индустриях, где есть эти объемы, есть и уже возникли сложности в их обработке. Примерами применения таких систем могут быть поисковые машины сети интернет, социальные сети, интернет-аукционы и пр. За пределами интернет-среды это могут быть банки и телекоммуникационные компании. Именно они, согласно опыту экспертов компании DIS Group, испытывают наибольшие трудности с обработкой накопленных за десятилетия гигантских объемов данных.
Давайте подведем итог: что же может привлекать в технологии Big Data корпоративного пользователя, и что технология распределенных вычислений может предложить бизнесу?

Прежде всего, она предлагает отлаженную в таких гигантах интернет-индустрии как Google, Yahoo и Facebook высокопроизводительную систему, способную оперировать данными терабайтного размера в режиме реального времени. Благодаря этим решениям, проблемы больших затрат времени на построение хранилищ данных, обработку плохо структурированной информации и большие расходы на аппаратное обеспечение уйдут в прошлое, а бизнес сможет в полной мере использовать все необходимые данные, накопленные в компании.

С другой стороны за счет использования при строительстве системы недорогого оборудования данные решения позволяют перераспределить финансирование и направить денежный поток на решение насущных нужд бизнеса, а не на содержание инфраструктуры самой же организации.

Источник

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.

Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.

Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.

История вопроса и определение термина

Термин Big Data появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года (ссылка):

При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и осветить вопрос – необходимо определиться с понятием.

В своей практике я встречался с разными определениями:

· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)

· Big Data – это такие данные, которые невозможно обрабатывать в Excel

· Big Data – это такие данные, которые невозможно обработать на одном компьютере

· Вig Data – это вообще любые данные.

· Big Data не существует, ее придумали маркетологи.

В этом цикле статей я буду придерживаться определения с wikipedia:

Большие данные (англ. big data) — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

Таким образом под Big Data я буду понимать не какой-то конкретный объём данных и даже не сами данные, а методы их обработки, которые позволяют распредёлено обрабатывать информацию. Эти методы можно применить как к огромным массивам данных (таким как содержание всех страниц в интернете), так и к маленьким (таким как содержимое этой статьи).

Приведу несколько примеров того, что может быть источником данных, для которых необходимы методы работы с большими данными:

· Логи поведения пользователей в интернете

· GPS-сигналы от автомобилей для транспортной компании

· Данные, снимаемые с датчиков в большом адронном коллайдере

· Оцифрованные книги в Российской Государственной Библиотеке

· Информация о транзакциях всех клиентов банка

· Информация о всех покупках в крупной ритейл сети и т.д.

Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

Принципы работы с большими данными

Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:

1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.

2. Отказоустойчивость. Принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, Hadoop-кластер Yahoo имеет более 42000 машин (по этой ссылке можно посмотреть размеры кластера в разных организациях). Это означает, что часть этих машин будет гарантированно выходить из строя. Методы работы с большими данными должны учитывать возможность таких сбоев и переживать их без каких-либо значимых последствий.

3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.

Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.

MapReduce

Про MapReduce на хабре уже писали (раз, два, три), но раз уж цикл статей претендует на системное изложение вопросов Big Data – без MapReduce в первой статье не обойтись J

MapReduce – это модель распределенной обработки данных, предложенная компанией Google для обработки больших объёмов данных на компьютерных кластерах. MapReduce неплохо иллюстрируется следующей картинкой (взято по ссылке):

MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

1. Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи.

Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

2. Стадия Shuffle. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.

3. Стадия Reduce. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce().

Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины». Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.

Несколько дополнительных фактов про MapReduce:

1) Все запуски функции map работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

2) Все запуски функции reduce работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.

4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).

5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.

Примеры задач, эффективно решаемых при помощи MapReduce

Word Count

Начнём с классической задачи – Word Count. Задача формулируется следующим образом: имеется большой корпус документов. Задача – для каждого слова, хотя бы один раз встречающегося в корпусе, посчитать суммарное количество раз, которое оно встретилось в корпусе.

Раз имеем большой корпус документов – пусть один документ будет одной входной записью для MapRreduce–задачи. В MapReduce мы можем только задавать пользовательские функции, что мы и сделаем (будем использовать python-like псевдокод):

Функция map превращает входной документ в набор пар (слово, 1), shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1]), reduce суммирует эти единички, возвращая финальный ответ для слова.

Обработка логов рекламной системы

Второй пример взят из реальной практики Data-Centric Alliance.

Задача: имеется csv-лог рекламной системы вида:

Необходимо рассчитать среднюю стоимость показа рекламы по городам России.

Функция map проверяет, нужна ли нам данная запись – и если нужна, оставляет только нужную информацию (город и размер платежа). Функция reduce вычисляет финальный ответ по городу, имея список всех платежей в этом городе.

Резюме

В статье мы рассмотрели несколько вводных моментов про большие данные:

· Что такое Big Data и откуда берётся;

· Каким основным принципам следуют все средства и парадигмы работы с большими данными;

· Рассмотрели парадигму MapReduce и разобрали несколько задач, в которой она может быть применена.

Первая статья была больше теоретической, во второй статье мы перейдем к практике, рассмотрим Hadoop – одну из самых известных технологий для работы с большими данными и покажем, как запускать MapReduce-задачи на Hadoop.

В последующих статьях цикла мы рассмотрим более сложные задачи, решаемые при помощи MapReduce, расскажем об ограничениях MapReduce и о том, какими инструментами и техниками можно обходить эти ограничения.

Спасибо за внимание, готовы ответить на ваши вопросы.

Источник

Зачем вам большие данные: примеры использования big data в 8 отраслях

Анализ больших данных помогает прогнозировать поведение клиентов, повышать продажи, выявлять мошенников и предотвращать аварии на производстве. Расскажем, как можно использовать большие данные в разных сферах и покажем кейсы big data от реальных компаний.

Big data в промышленности: предсказание аварий и оптимизация производства

Предиктивная аналитика. Сейчас на производстве часто внедряют IoT-системы: устанавливают датчики на оборудовании и в помещениях, а потом анализируют собранные ими данные. Эти данные и есть big data, их можно использовать для мониторинга состояния оборудования, моделирования производственных процессов, выявления и предотвращения сбоев.

Снижение стоимости продукции и оптимизация производства. Если собрать много данных о работе станков, проценте брака и каждом этапе производства, а потом их проанализировать, можно понять:

Все это помогает уменьшить издержки и снизить стоимость производства, а значит, повысить прибыль.

Поиск новых месторождений. При добыче природных ресурсов месторождения часто приходится искать почти вслепую. Однако с помощью анализа больших данных можно обнаруживать закономерности, изучать состояние почв, наличие подземных пустот, температуру пород — и таким образом эффективно искать перспективные месторождения, сравнивая новые участки с уже известными аналогами.

Big data в логистике: планирование грузоперевозок и оптимизация маршрутов.

Планирование грузоперевозок. В логистике на перевозку товаров влияет много разных факторов: загрузка складов, пробки на дорогах, состояние парка машин, расположение автозаправок. Если собрать все эти факторы вместе, сопоставить их и проанализировать, можно эффективнее планировать маршруты и время доставки, чтобы избежать простоев транспорта.

Сокращение времени доставки. Учет разных факторов перевозки товаров помогает не только планировать грузоперевозки, но и сокращать время доставки: выбирать самые короткие маршруты, избегать пробок и трудных участков пути, экономить бензин.

Например, в логистике есть «проблема последней мили» — она стоит примерно 28% от общей стоимости доставки. Так происходит, поскольку водителю приходится заезжать во дворы, искать парковку, останавливаться и разворачиваться.

Big data в ритейле: персональные предложения и оптимизация выкладки товаров

Повышение продаж. Информация о поведении клиентов в магазине или на сайте — это большие данные. На их основе можно предполагать, что именно люди будут покупать, и использовать это для повышения продаж:

Например, онлайн-ритейлер Amazon использует большие данные для системы рекомендаций товаров. Их система основана на машинном обучении — она учитывает поведение других покупателей, ваши предыдущие покупки, время года и десятки других факторов.

В итоге 35% всех продаж в Amazon генерируют рекомендации, а 86% пользователей сервиса утверждают, что рекомендации влияют на их решения о покупке.

Оптимизация выкладки товаров. Для расположения товаров на полках тоже можно использовать большие данные: анализировать предпочтения покупателей, информацию об ассортименте, форму и цвет упаковки, чтобы повысить продажи.

Big data в финансах: оценка платежеспособности и повышение качества сервиса

Оценка платежеспособности. Банкам важно выдавать кредиты только тем, кто точно сможет их вернуть, чтобы не понести убытки. Анализ больших данных помогает анализировать платежеспособность клиентов и оценивать риски.

Улучшение клиентского сервиса. Big data в банках также используют для того, чтобы делать клиентам персонализированные предложения. Это как в интернет-магазинах, только в качестве «рекомендуемых товаров» выступают банковские продукты и услуги.

Big data в HR: наем сотрудников и предупреждение увольнений

Наем сотрудников. На начальном этапе найма сотрудников часто требуется отсеять тех, кто мало заинтересован в работе или совсем для нее не подходит. Эту задачу можно решать с помощью больших данных: собирать информацию о кандидатах и резюме, выявлять в них закономерности, использовать эти данные для разработки скриптов или обучения роботов и нейросетей.

Оптимизация HR-стратегии. Компании часто анализируют поведение клиентов, и по тем же принципам можно анализировать поведение сотрудников: отслеживать эффективность их работы, переработки, признаки усталости или выгорания.

В Google есть отдел People Analytics, который анализирует большие данные, связанные с поведением сотрудников. У них есть несколько успешных кейсов применения big data:

Big data в медицине: прогноз заболеваний и сбор данных о пациентах

В медицинской сфере большие данные в перспективе можно использовать для диагностики и лечения, большинство интересных проектов пока находятся на стадии разработки или тестирования, но есть и уже реализованные.

Прогнозирование заболеваний. Если собрать достаточно данных о пациентах, можно делать предположения о том, чем они больны сейчас или могут заболеть в ближайшее время.

Ведение базы пациентов. У многих пациентов длинная история болезни, которая часто хранится в разных больницах и у разных врачей. Чтобы увидеть полную картину, нужно собрать данные в единую базу. С помощью технологий big data можно не только организовать такую базу, но и настроить в ней удобный поиск и аналитику.

Big data в образовании: помощь в выборе курсов и предотвращение отчислений

Помощь в выборе курсов. В образовании проекты big data помогают студентам с профориентацией: анализируют их способности и помогают выбрать направление обучения и будущую профессию.

Предотвращение отчислений. В США из университетов отчисляются 400 тысяч студентов в год. Чтобы решить эту проблему, в Университете Содружества Виргинии проанализировали данные об отчислениях и построили алгоритм, который выявляет студентов в группе риска.

Система оповещает, когда студент становится проблемным. И тогда с ним работают индивидуально, например, предлагают перевод на другой курс или помощь репетитора. По итогам семестра число студентов, закончивших курс, увеличилось на 16%.

Big data в маркетинге: повышение прибыли и привлечение клиентов

Создание коммерчески успешных продуктов. Большие данные о поведении клиентов помогут предсказывать спрос и позволяют до вывода продукта на рынок понять, будет ли он успешным.

Например, такие технологии использует Netflix. Этой платформой для просмотра фильмов и сериалов пользуются более 150 миллионов человек. В компании анализируют поведение клиентов: какие сериалы они смотрят, какие бросают, какие моменты перематывают. Это помогает лучше понимать психологию зрителей и грамотно рекомендовать им новые сериалы.

Таргетированная реклама и снижение стоимости привлечения клиента. Big data помогает лучше настраивать целевые аудитории и показывать таргетированную рекламу более точечно.

Например, ритейлер Ozon использует большие данные для таргетированной рекламы и рекомендации товаров. Для этого на сайте и в мобильном приложении собирают логи пользователей — фиксируют всё, что они просмотрели, пролистали, на что кликнули. На основе данных составляют прогноз: планирует ли пользователь покупку, товар какой категории, скорее всего, его заинтересует. Релевантные товары показывают в таргетированной рекламе.

Также в Ozon тестировали полки рекомендаций для различных товаров. Пользователей разделили на две группы: для первой рекомендации вручную составили эксперты, для второй — собрали автоматически на основе данных логов. В итоге во второй группе продажи оказались в 10 раз ваше.

Источник