На днях закончил чтение книги " Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим ". Мне понравилось, общую оценку ставлю 4+ (приятное чтение, но много воды и слишком общих мыслей и идей).
Как это видно из названия, книга рассказывает про "большие данные" (big data): что это, зачем, какой принцип, примеры использования и многое другое. Все объяснено простым языком, много примеров. отличная книга для понимания сути концепции. Рекомендую!
- Понятие «большие данные» относится к операциям, которые можно выполнять исключительно в большом масштабе.
- Поразительнее всего то, что обществу придется отказаться от понимания причинности в пользу простых корреляций: променять знание почему на что именно. Это переворачивает веками установленный порядок вещей и ставит под сомнение наши фундаментальные знания о том, как принимать решения и постигать действительность.
- Настоящая революция заключается не в компьютерах, которые вычисляют данные, а в самих данных и в том, как мы их используем.
- Google обрабатывает более петабайта данных в день — это примерно в 100 раз больше всех печатных материалов Библиотеки Конгресса США. Facebook — компания, которой не было в помине десятилетие назад, — может похвастать более чем 10 миллионами загрузок новых фотографий ежечасно.
- А 800 миллионов ежемесячных пользователей службы YouTube компании Google каждую секунду загружают видео длительностью более часа.
- Немало людей пыталось оценить реальный объем окружающей нас информации и рассчитать темп ее роста. Они достигли разного успеха, поскольку измеряли разные вещи. Одно из наиболее полных исследований провел Мартин Гилберт из школы коммуникаций им. Анненберга при Университете Южной Калифорнии. Он стремился сосчитать все, что производилось, хранилось и передавалось. Это не только книги, картины, электронные письма, фотографии, музыка и видео (аналоговые и цифровые), но и видеоигры, телефонные звонки и даже автомобильные навигационные системы, а также письма, отправленные по почте. Он также брал в расчет вещательные СМИ, телевидение и радио, учитывая охват аудитории. По его расчетам, в 2007 году хранилось или отправлялось примерно 2,25 зеттабайта данных. Это примерно в пять раз больше, чем 20 лет назад (около 435 экзабайт).
- Если рассматривать только хранящуюся информацию, не включая вещательные СМИ, проявляются интересные тенденции. В 2007 году насчитывалось примерно 300 экзабайт сохраненных данных, из которых около 7% были представлены в аналоговом формате (бумажные документы, книги, фотоснимки и т. д.), а остальные — в цифровом. Еще в 2000 году количество информации, хранящейся в цифровом формате, составляло всего одну четверть общего количества информации в мире. А остальные три четверти содержались в бумажных документах, на пленке, виниловых грампластинках, магнитных кассетах и подобных носителях. К 2013 году количество хранящейся информации в мире составило 1,2 зеттабайта, из которых на нецифровую информацию приходится менее 2%.
- В мире больших данных мы можем проанализировать огромное количество данных, а в некоторых случаях — обработать ВСЕ данные, касающиеся того или иного явления, а не полагаться на случайные выборки.
- Используя ВСЕ данные, мы получаем более точный результат и можем увидеть нюансы, недоступные при ограничении небольшим объемом данных. Большие данные дают особенно четкое представление о деталях подкатегорий и сегментов, которые невозможно оценить с помощью выборки. Принимая во внимание гораздо больший объем данных, мы можем снизить свои претензии к точности...
- До недавнего времени все наши цифровые инструменты были основаны на точности: мы считали, что системы баз данных должны извлекать записи, идеально соответствующие нашим запросам, равно как числа вносятся в столбцы электронных таблиц. Этот способ мышления свойствен среде «малых данных». Измерялось так мало показателей, что следовало как можно точнее подсчитывать все записанное.
- Точность требует тщательной проверки данных. Она подходит для небольших объемов данных и в некоторых случаях, безусловно, необходима (например, чтобы проверить, достаточно ли средств на банковском счету, и выписать чек). Но в мире больших данных строгая точность невозможна, а порой и нежелательна. Если мы оперируем данными, большинство которых постоянно меняется, абсолютная точность уходит на второй план.
- Люди привыкли во всем искать причины, даже если установить их не так просто или малополезно. С другой стороны, в мире больших данных мы больше не обязаны цепляться за причинность. Вместо этого мы можем находить корреляции между данными, которые открывают перед нами новые неоценимые знания. Корреляции не могут сказать нам точно, почему происходит то или иное событие, зато предупреждают о том, какого оно рода. И в большинстве случаев этого вполне достаточно.
- Нам больше не нужно ограничиваться проверкой небольшого количества гипотез, тщательно сформулированных задолго до сбора данных. Позволив данным «говорить», мы можем уловить корреляции, о существовании которых даже не подозревали.
- Большие данные — важный шаг человечества в постоянном стремлении количественно измерить и постичь окружающий мир. То, что прежде невозможно было измерять, хранить, анализировать и распространять, находит свое выражение в виде данных. Использование огромных массивов данных вместо их малой доли и выбор количества в ущерб точности открывают путь к новым способам понимания мира. Это подталкивает общество отказаться от освященного веками поиска причинности и в большинстве случаев пользоваться преимуществами корреляций.
- Большие данные диктуют три основных шага к новому образу мышления. Они взаимосвязаны и тем самым подпитывают друг друга. Первый — это способность анализировать все данные, а не довольствоваться их частью или статистическими выборками. Второй — готовность иметь дело с неупорядоченными данными в ущерб точности. Третий — изменение образа мыслей: доверять корреляциям, а не гнаться за труднодостижимой причинностью.
- Понятие выборки подразумевает возможность извлечь максимум пользы из минимума материалов, подтвердить крупнейшие открытия с помощью наименьшего количества данных. Теперь же, когда мы можем поставить себе на службу большие объемы данных, выборки утратили прежнюю значимость.
- Беспорядочность — не внутренняя характеристика больших данных, а объективная реальность, с которой нам предстоит иметь дело.
- В отличие от материальных объектов (употребляемой пищи, горящей свечи и пр.), ценность данных не уменьшается по мере их потребления. Данные можно обрабатывать снова и снова. Они представляют собой то, что экономисты называют «неконкурирующим» товаром. Им могут пользоваться несколько человек одновременно без ущерба друг для друга. К тому же, в отличие от материальных благ, информация не изнашивается по мере употребления.
- Истинная ценность данных — как айсберг в океане. На первый взгляд видна лишь незначительная часть, в то время как все остальное скрыто под водой. Инновационные компании, которые понимают это, могут извлечь скрытую ценность и получить потенциально огромные преимущества. Проще говоря, ценность данных необходимо рассматривать с точки зрения всех возможностей их дальнейшего использования, а не только нынешнего.
- Данные можно наглядно представить в виде энергии, как ее видят физики. Это хранящаяся, или потенциальная энергия, которая дремлет в каждом из объектов, будь то сжатая пружина или мяч на вершине пригорка. Энергия в этих объектах находится в скрытом (потенциальном) состоянии, пока не будет высвобождена (например, если отпустить пружину или подтолкнуть мяч, чтобы он покатился вниз). Тогда она становится кинетической, поскольку они движутся и прилагают силу к другим объектам физического мира. После первичного использования данных их ценность остается прежней, но только в «спящем» состоянии. Она сохраняет свой потенциал, как пружина или мяч, вплоть до вторичного применения, когда преимущества данных раскроются с новой силой. В эпоху больших данных у нас, наконец, есть все необходимое (мышление, изобретательность и инструменты), чтобы высвободить их скрытую ценность. В конечном счете ценность данных заключается в том, что можно получить от их всестороннего использования.
- Суть стоимости данных заключается в их неограниченном повторном использовании — альтернативной ценности. Сбор информации имеет решающее, но не исчерпывающее значение, поскольку существенная часть ценности находится в применении, а не хранении как таковом.
- Несмотря на радужные перспективы, есть причины для беспокойства. Большие данные обеспечивают все более точные прогнозы об окружающем мире и нашей роли в нем. Мы можем оказаться не готовы к влиянию этих прогнозов на нашу частную жизнь и принятие решений, ведь наши мировоззрение и структура учреждений формировались в условиях дефицита, а не избытка информации.
- Поскольку большие данные обещают ценные открытия тем, кто их анализирует, естественно ожидать стремительного увеличения числа тех, кто будет собирать, хранить и повторно использовать наши личные данные. Поскольку стоимость хранения будет так же стремительно падать, а аналитические инструменты — становиться все мощнее, размер и масштаб сбора данных станет расти не по дням, а по часам. Если эпоха интернета поставила под угрозу конфиденциальность, возможно ли, что большие данные усугубят эту проблему? Это ли не темная их сторона?
- Существует еще одна опасность: мы рискуем стать жертвами диктатуры данных, в результате которой станем боготворить информацию и выходные данные анализов, а в конечном счете и злоупотреблять ими. Большие данные являются хорошим инструментом рационального принятия решений, если с ними вдумчиво обращаться. Если же ими орудовать неблагоразумно, они способны превратиться из мощного инструмента в оправдание репрессий, создавая неудобства клиентам и сотрудникам или, что еще хуже, нанося ущерб гражданам. На кону гораздо больше, чем принято считать. Неспособность управлять большими данными с точки зрения конфиденциальности и прогнозирования или неправильное их толкование чреваты намного более глубокими последствиями, чем нацеливание рекламных объявлений в интернете.
- По мере того как мир движется в сторону больших данных, общество подвергается подобному «тектоническому» сдвигу. Большие данные заставляют нас пересмотреть фундаментальные представления о том, как стимулировать их рост и умерять потенциальный вред, поскольку они во многом меняют наш образ жизни и мышления. Однако, в отличие от печатной революции, на раздумья нам отведены не столетия, а, возможно, всего каких-то пара лет. Защита частной жизни потребует от лиц, имеющих дело с личными данными, большей ответственности за свою политику и действия. Нам предстоит пересмотреть свое представление о справедливости, чтобы гарантировать человеческое право на свободу действий (и, конечно, соблюдение ответственности за эти действия). Понадобятся новые учреждения и эксперты (так называемые «алгоритмисты»), чтобы интерпретировать сложные алгоритмы, на основе которых формируются выводы из больших данных, и защищать интересы тех, кто может от этих выводов пострадать, например получить отказ в приеме на работу или хирургическом вмешательстве или не получить кредит из-за того, что' о них «говорят» большие данные. Дело не в адаптации существующих правил, а в создании новых.
- Большие данные имеют огромное практическое значение как технология, которая служит решению животрепещущих повседневных проблем, но при этом порождает еще больше новых. Большие данные способны изменить наш образ жизни, труда и мышления. В каком-то смысле мы упираемся в больший тупик, чем во времена других эпохальных инноваций, значительно расширивших объем и масштабы информации в обществе. Мы стоим на зыбкой почве. Старые факты подвергаются сомнению. Ввиду больших данных необходимо пересмотреть понятия природы принятия решений, судьбы и справедливости. Мировоззрение, сотканное из понимания причин, теперь оспаривается доминированием корреляций. Обладание знанием, которое когда-то означало понимание прошлого, постепенно преобразовывается в способность прогнозировать будущее.
- Успеха добьются компании, которые сумеют попасть в центр информационных потоков и научатся собирать данные. Для эффективного использования больших данных требуются технические навыки и хорошее воображение — мышление категориями больших данных. Основная ценность достанется тем, кто владеет данными. При этом важным активом может оказаться не только та информация, которая на виду, но и выбросы данных, полученные от взаимодействия людей с информацией. Используя такие выбросы с умом, компания улучшит существующую службу или запустит совершенно новую.
- Большие данные таят в себе огромные риски. Они стирают правовые и технические ограничения, с помощью которых мы пытаемся сохранить конфиденциальность, тем самым выявляя неэффективность существующих основных технических и правовых механизмов. Раньше было хорошо известно, что относится к личной информации: имена, номера социального страхования, идентификационные коды и пр. Защитить такую информацию было относительно нетрудно, заблокировав ее. Сегодня даже с помощью самых безобидных данных, если их накоплено достаточно много, можно установить личность. Попытки придать данным анонимную форму или скрыть их уже неэффективны. Кроме того, установление слежки за отдельными лицами теперь влечет за собой более глубокое вторжение в частную жизнь, чем когда-либо, поскольку органы власти хотят увидеть не только как можно больше информации о человеке, но и как можно более широкий спектр его отношений, связей и взаимодействий.