Big Data: технология, принципы и архитектура*
аспирант Российской академии народного хозяйства и государственной службы при Президенте РФ,
Москва
"Журнал Суда по интеллектуальным правам", № 4 (30), декабрь 2020 г., с. 32-41
В условиях развития цифровой среды существенно изменилась роль информации. Если до развития компьютерных технологий скорости создания и распространения информации позволяли обозначить ее в качестве источника необходимых сведений и знаний (вне зависимости от целей использования), то в современных реалиях можно смело утверждать, что информация постепенно приобретает статус независимого ресурса, обладающего собственной ценностью.
Следует отметить, что информация по своей сути является ресурсом универсальным. В современной науке1 ее чаще всего относят к разновидности экономических ресурсов, поскольку информация оказывает непосредственное влияние на отношения, которые в конечном итоге выражаются в денежном эквиваленте. Но вместе с тем информация влияет не только на социально-экономические отношения, но и имеет существенное значение для научного, технического прогресса, представляет ценность для военных и политических задач.
Как нематериальный ресурс, информация обладает определенными преимуществами. В сравнении с другими ресурсами (в первую очередь, материальными) она требует минимальных затрат на хранение, транспортировку (передачу), изначально отсутствуют запреты на копирование и использование2.
До конца XX в. информация создавалась и распространялась при непосредственном участии человека. Развитие компьютерных и сетевых технологий, возникновение «интернета-вещей», «облачных сервисов», появление автоматизированных алгоритмов сбора и анализа информации изменили как сам процесс работы с информацией, так и объемы данных, которые задействованы в информационном обороте. Возникновение и накопление огромного массива данных и информации привели к рождению нового феномена – феномена “больших данных” (Big Data).
До периода «революции больших данных», но после появления возможности хранения цифровой информации, довольно остро стоял вопрос о том, что неструктурированные данные занимают значительные объемы памяти, длительное хранение архивных данных не представлялось целесообразным, а работа с таким объемом информации не была эффективной. Особенно эта проблема затрагивала интересы крупных международных компаний. Традиционные способы хранения и обработки данных обладали лимитированными объемами памяти, примитивными механизмами управления и требовали больших финансовых затрат.
Интерес к технологии Big Data и ее возможностям, помимо коммерческого сектора, также проявляют государственные и международные организации. В 2012 г. администрация президента США объявила о запуске программы по исследованию технологии Big Data и возможностях ее развития с общим финансированием в 200 млн долл. США. Как отмечалось в официальном заявлении администрации, результаты, полученные по итогам программы, помогли бы «использовать возможности технологии Big Data для научных открытий, экологических и медицинских исследований, образования и национальной безопасности»3. Вопросы исследования и использования технологии Big Data стали одними из ключевых векторов развития в соответствии с национальной стратегией технического развития Японии4, принятой в 2012 г. Значение технологии Big Data для международного развития также подчеркивает доклад Организации Объединенных Наций, в котором обозначены существующие проблемы технологии и перспективы ее использования5.
Вместе с тем работа с большими данными предполагает совершенно иной подход в обработке информации. В общем виде технология Big Data должна выполнять следующие функции:
-
«очищение» массива данных от лишней информации;
-
обработка и структурирование массива данных;
-
анализ массива данных;
-
защита данных;
-
обеспечение доступа ко всему объему постоянно изменяемых данных.
Важно иметь в виду, что из всех вышеперечисленных функций приоритетное значение имеет анализ постоянно обновляемых данных. В современных условиях результаты такого анализа будут иметь решающее значение для компаний и предприятий при создании новых персонализированных товаров и услуг, позволят спрогнозировать дальнейшее направление развития.
В настоящее время существует множество проектов Big Data, которые отличаются разными моделями, структурой, особенностями анализа, разнообразными программными комплексами и техническими требованиями. В статье будут рассмотрены основные характеристики Big Data, принципы и источники накопления данных, система Hadoop и основанные на ней сервисы по работе с большими данными.
В отличие от понятий «информация», «данные» термин «большие данные» (Big Data) связан в большей степени с техническими аспектами формирования и обработки. Он не предполагает конкретные виды данных, а может включать и структурированные, и неструктурированные, и частично структурированные данные. В научной литературе принято определять Big Data по трем «V»6:
1.
«Volume» - «объем». К 2020 г. общий объем информации, созданный в цифровой среде, достиг 44 зеттабайтов7. По прогнозам Всемирного экономического форума, к 2025 г. объем ежедневного интернет-трафика данных по всему миру достигнет 463 эксабайтов8. С точки зрения наглядной оценки такого огромного объема информации следует отметить, что для его записи потребовалось бы более 212 млн DVD-дисков. Информация, которая образует объем «больших данных», поступает от миллионов используемых электронных сетевых устройств и приложений. Например, в 2019 г. среднее ежедневное количество созданных сообщений в Twitter составляло 500 млн, 294 млрд электронных почтовых сообщений, 65 млрд сообщений и 2 млрд голосовых записей в мессенджере WhatsApp, 5 млрд поисковых запросов и т.д. Важно иметь в виду, что на этапе накопления информации Big Data не производит отбора «ненужных» данных: любые транзакции, действия пользователей в сети (включая просто просмотр интернет-страниц, без совершения активных действий или перехода по ссылкам).
Обычные инструменты хранения и анализа не способны справляться с таким объемом данных.
2.
«Velocity» - «скорость». Указанные выше объемы данных поступают в обработку в режиме реального времени, в отличие от традиционной обработки пакета данных. Это означает, что они накапливаются моментально, при этом не имеет значения продолжительность потока самих данных. Таким образом, Big Data не только фиксирует потоки данных, но и производит их запись и обработку в таком виде, чтобы не было потерь. Примером потоковой обработки данных является сервис YouTube, проводящий анализ данных пользователей, исходя не только из просмотренных полностью видеозаписей и трансляций, но из пропущенных пользователями материалов и воспринятых ими в качестве ненужных. Для целей авторов каналов YouTube дополнительно предлагает услуги по сбору данных об интересах зрителей, географических особенностях, контентных предпочтениях, предложения по целевой аудитории9.
3.
«Variety» - «разнообразие». Big Data формируется из различных источников и в виде множества разнообразных форматов данных (видеоданные, фотографии, звуковые записи, текстовые сообщения, файлы транзакций, комментарии, использование ссылок и фиксация просмотров страниц и т.д.). Наибольший объем «больших данных» формируется из сведений в социальных сетях и социальных медиа-сервисах и представляет либо частично структурированную, либо неструктурированную информацию.
Таким образом, термин Big Data не относится исключительно к «большим данным» в понимании объема. Он значительно шире, поскольку включает в себя также большие скорости поступления данных и большое разнообразие источников и форматов получаемой информации.
Следует отметить, что в некоторых случаях к указанному правилу «3-V» выделяют дополнительные признаки Big Data («7-V»)10:
4.
«Veracity» - «достоверность». Из-за большого объема и вариативности источников поступающих данных сложно проконтролировать достоверность Big Data. Соответствие, точность и правдивость получаемой информации могут быть подтверждены только в результате тщательного анализа и сопоставления.
5.
«Variability» - «вариативность». При обработке и сопоставлении исходное значение полученных данных может меняться, то есть зависит от определенного контекста. В первую очередь данный признак проявляется при работе с речевыми и текстовыми данными. Для понимания точного значения отдельных слов необходима разработка сложных программных продуктов, позволяющих определять смысловую нагрузку исходя не только из прямого значения, но и из контекста.
6.
«Visualization» – «визуализация». Полученные в результате сбора данные непригодны для восприятия человеком. Поэтому требуется их обработка в доступной форме – процедура визуализации. Характерным примером визуализации данных является построение графиков и диаграмм, отображающих результаты анализа данных. Важным является возможность самостоятельной настройки визуализации Big Data: самостоятельное определение параметров, которые учитываются при построении итоговых данных. Необходимые параметры пользователи определяют самостоятельно, в зависимости от поставленных целей и задач.
7.
«Value» – «ценность». Потенциальная ценность Big Data крайне высока. На ценность влияют указанные выше признаки Big Data: тщательный и точный анализ данных, актуальность информации и полученные в результате визуализации выводы. Наибольший коммерческий и научный интерес представляют те сведения, которые можно использовать для решения текущих задач конкретного пользователя, а также результаты анализа, которые способствуют построению новых идей.
Как было отмечено выше, Big Data формируется из совершенно разных цифровых источников. При этом в процесс сбора не попадают данные, которые являются личными (хранятся за пределами цифровой среды??? или изолированно от нее) или закрытыми в соответствии с политикой конфиденциальности (установленными сетевыми сервисами или самостоятельно пользователями).
Всю собираемую Big Data информацию можно классифицировать в зависимости от источников, из которых она была получена. Так, американская компания Gartner11 предлагает следующую классификацию информации, включаемую в «большие данные»:
1)
операционные данные. Это данные о клиентах, поставщиках, партнерах и сотрудниках, доступные в процессе онлайн-обработки транзакций и/или полученные из онлайн-базы данных аналитической обработки. Обычно включает транзакционные данные, контактные данные и общие данные о лицах. Чаще всего такая информация успешно собирается с помощью дополнительных датчиков и мониторинга процессов предприятий. Например, кассовые аппараты, подключенные к банковской системе, интеллектуальные счетчики, голосовая связь, радиочастотная идентификация и т.д.;
2)
«темные» данные. Информация, которая не хранится или не собирается организациями специально, а формируется случайно (попутно) в процессе ведения бизнеса или взаимодействия с сетевыми сервисами и остается в Интернет-архивах. Такие данные являются общедоступными и частично структурированными для анализа, включают электронные письма, электронные договоры, документы, мультимедиа, системные журналы и т.д. Внутри компаний данный источник информации является самым удобным, поскольку признается наиболее достоверным.;
3)
коммерческие данные. До появления возможностей технологии Big Data в разных отраслях промышленности существовали агрегаторы коммерчески ценной информации. Например, компания Nielsen, основанная в 1923 г., занимается маркетинговыми исследованиями товаров повседневного спроса, изучает потребительский спрос. Компания Dun & Bradstreet (основана в 1841 г.) специализируется на составлении кредитных рейтингов частных компаний. Указанные агрегаторы предоставляют полный доступ к собственным каталогам информации по подписке. Но с учетом перенаправления современных рыночных отношений в сторону открытия информации для потенциальных инвесторов и клиентов многие сведения, представляющие коммерческий интерес, открыто размещаются в цифровой среде. Распространенной стала практика размещения информации об активах на открытых площадках, в особенности если речь идет о принадлежащих компаниям объектах интеллектуальной собственности;
4)
официальные данные. Информация, распространяемая государственными органами (заявления, пресс-релизы, прогноз погоды, сведения о планах муниципального развития), открытые публичные реестры, опубликованные нормативные акты (включая их проекты), является наиболее достоверной и чаще всего структурированной. Ценность таких данных для предприятий раскрывается в совокупности с другими источниками сведений, поскольку позволяет определить направления развития бизнеса или целой индустрии в рамках отдельного города, страны или на международном уровне;
5)
информация из социальных сетей и сервисов. Вовлеченность бизнеса и частных лиц в функционал крупных социальных сетей (Facebook, ВКонтакте, LinkedIn, Twitter, Instagram и др.) создала еще один источник данных о спросе, тенденциях в определенных сегментах рыночных отношений, новых и перспективных продуктах, услугах и компаниях. Сообщения, комментарии, цитаты («репосты») активно используют для выявления и прогнозирования целевых клиентов, коммерческих возможностей, конкурентных отношений, бизнес-рисков и потенциальных партнеров.
Каждый из указанных выше источников данных обладает определенной ценностью, зависящей, как было отмечено, от его достоверности и полноты. Но наибольший коммерческий, научный, публичный или социально направленный интерес представляют результаты общего анализа всех доступных данных. Именно комплексные выводы могут служить для целей прогноза, выявления возможного спроса (если речь идет о развитии нового рынка услуг и товаров), целевой аудитории (применительно к медиа-сервисам) и т.д. Результаты анализа Big Data можно использовать для выявления закономерностей, корреляций и аномалий12 13.
Механизм анализа в рамках больших данных по своей логике и порядку не отличается от традиционного алгоритма анализа: сбор информации – анализ полученных данных – построение выводов. Необходимость построения нового подхода к анализу данных обусловлено возникновением в условиях цифрового мира факторов «3-V», о которых было сказано выше: большого объема данных, больших скоростей их обновления, большого количества источников данных. Ни одна традиционная программа анализа не в состоянии справиться с проведением анализа с учетом данных факторов. В свою очередь компенсация вычислительных мощностей за счет физического увеличения вычислительных комплексов позволяет производить необходимые расчеты, но снижает скорость анализа.
Принцип работы анализа Big Data отличается от традиционных концепций систем хранения данных или бизнес-аналитики. Анализ «больших данных» является по своей сути новым подходом к информационному менеджменту: создание принципиально новой комплексной структуры (архитектуры) анализа. Она предполагает распределение функций сбора, хранения и анализа данных между несколькими программами-исполнителями, функционирующих в соответствии с алгоритмами, заложенными контрольными модулями.
В настоящее время наиболее распространенной и эффективной архитектурой Big Data является Hadoop. Данная система позволяет своевременно и с минимальными затратами обрабатывать большие объемы данных.
Hadoop – это проект с открытым программным кодом, разработанный фондом Apache Software Foundation14. Hadoop используется для распределенной (параллельной) обработки большого объема данных. По своей сути Hadoop представляет целый набор простых программ, утилит и библиотек для решения распределенных задач, основанных на нескольких кластерах из тысяч узлов. Сравнительно простой дизайн инфраструктуры Hadoop обеспечил его популярность и масштабность использования, даже в случае выполнения задачи на тысячах вычислительных машин, каждая из которых имеет собственные возможности обработки и хранения данных.
В настоящее время Hadoop активно используется компаниями, у которых ежедневный объем генерируемых данных превышает возможности обычных систем хранения и обработки. Программные возможности Hadoop используют Adobe, Amazon, eBay, Facebook, Google (включая входящие в состав компании сервисы как YouTube), Twitter, Yahoo и др.
Благодаря тому что проект Hadoop состоит из разных программных модулей (утилит), каждый из них может быть установлен независимо или в составе комплекса, образуя так называемую экосистему Hadoop15. Все утилиты разработаны таким образом, чтобы эффективно взаимодействовать друг с другом при сборе, хранении и обработке информации. Наиболее распространенные утилиты Hadoop, которые обычно устанавливаются в совокупности, включают в себя:
1)
HDFS (Hadoop Distributed File System) – распределенная файловая система, основная система хранения данных, используемая другими компонентами Hadoop. Отличается высокой отказоустойчивостью и возможностью развертывания на недорогом оборудовании. Архитектура HDFS позволяет обеспечивать высокопроизводительный доступ к данным и подходит для работы с большими объемами данных. Файлы, поступающие в систему, распределяются между отдельными узлами вычислительного кластера (DataNode), образуя блоки. Все блоки в узлах данных (за исключением последнего добавленного) обладают одинаковым размером. Отдельно в системе расположен центральный узел имен (NameNode), в котором хранятся данные файловой системы и информация о распределении блоков и узлах данных, содержащих эти блоки. Примитивное отображение принципа работы HDFS можно выразить следующим образом: поступающие данные формируются в отдельные блоки, образующие узлы (DataNode), навигация по собранным данным осуществляется при помощи узла имен (NameNode).
Изначально HDFS создавалась в качестве инфраструктуры для проекта веб-поиска Apache Nutch. В настоящее время HDFS является самостоятельным подпроектом Hadoop16;
2)
MapReduce – система распределенных вычислений для обработки больших наборов данных. Задача MapReduce состоит в том, чтобы разбивать входной набор данных на независимые блоки, которые обрабатываются параллельно в соответствии с картой задач («to map» - планировать; составлять схему, карту). Таким образом, основная задача по обработке входных данных делится на подзадачи между параллельными процессами (принцип «разделяй и властвуй»). При этом каждая подзадача решается в строго определенном направлении, чтобы полученные в результате множественного анализа данные соответствовали друг другу. Результаты подзадач объединяются в итог в соответствии с основной задачей на этапе сворачивания («to reduce» - сокращать, сворачивать).
Обычно вычислительные узлы и узлы хранения совпадают, то есть инфраструктура MapReduce и HDFS работают на одном наборе узлов. Такой подход позволяет платформе наиболее эффективно планировать задачи на узлах, где уже есть данные, что приводит к высокой скорости обработки и передачи данных между кластерами. HDFS и MapReduce образуют ядро экосистемы Hadoop.
Система MapReduce состоит из одного главного устройства (JobTracker) и одного подчиненного устройства (TaskTracker) на каждый узел кластера. В совокупности они образуют своеобразный контроллер и отвечают за планирование задач на ведомых устройствах, следят за выполнением и отправляют на повторную обработку нерешенные задачи. Ведомые устройства выполняют задачи в соответствии с указаниями контроллера17;
3)
HBase – распределенная база данных NoSQL18, основанная на модели Google BigTable, которая использует HDFS в качестве носителя. Основная задача HBase – размещение таблиц с огромным количеством строк (миллиарды строк и миллионы столбцов) на кластерах обычного оборудования. Данная утилита используется в приложениях Hadoop, которые требуют произвольных операций чтения/записи для очень большого объема данных или для приложений с большим количеством пользователей. HBase состоит из трех основных компонентов: клиентской библиотеки, главного и нескольких распределенных серверов.
Является самостоятельной утилитой Hadoop19;
4)
Hive – платформа хранения данных, используемая для чтения, внесения записей и управления большими объемами данных из распределенного хранилища20;
5)
Mahout – библиотека, в которой хранятся алгоритмы машинного обучения и интеллектуального анализа данных, включая алгоритмы классификации и кластеризации данных. Алгоритмы разрабатываются отдельно. Mahout также позволяет пользователям создавать собственные алгоритмы, соответствующие персонализированным задачам. Полученные алгоритмы совместимы с MapReduce, поэтому их можно использовать для обработки большого объема данных21;
6)
Oozie – инструмент для управления рабочим процессом и координации заданий MapReduce. Он позволяет объединить несколько задач в единое логическое задание всего рабочего процесса22;
7)
Pig – платформа, используемая для анализа больших наборов данных и основанная на языке высокого уровня для выражения программ анализа данных, включает инфраструктуру оценки этих программ. Разнообразные данные требуют разных программ обработки – Pig занимается определением, какие именно. При этом платформа допускает параллельную обработку данных разными программами во время выполнения одного задания. Работает платформа в тесном взаимодействии с MapReduce, создавая для него задания. Pig имеет собственный тип данных, собственную карту заданий, которые используются для анализа частично структурированных данных23;
8)
YARN – платформа управления ресурсами, обеспечивающая безопасность и управление данными на разных кластерах. Главная задача YARN – разделение функций управления и планирования/мониторинга задания на отдельные системные процессы24;
9)
Whirr – библиотека с алгоритмами для управления облачными сервисами25;
10)
Zookeeper – служба координации распределенных приложений экосистемы Hadoop. Ее задача состоит в поддержке, настройке и присвоении имени большому объему данных. Также обеспечивает распределенную синхронизацию и определение групповых задач. Zookeeper включает главный и подчиненный узлы, хранит информацию о настройках. Служба нацелена на выявление конфликтующих задач внутри всей системы, нерационального использования ресурсов26;
11)
Flume – распределенная служба, позволяющая собирать, сортировать и перемещать большие объемы данных журнала событий. Архитектура службы основана на обработке потоковых данных, что позволяет разрабатывать аналитические приложения для всей экосистемы Hadoop27. То есть Flume – внутренняя служба аналитики Hadoop.
Все компоненты, разработанные для экосистемы Hadoop, можно разделить на несколько уровней, которые образуют общую архитектуру28:
•
Уровень хранения данных в распределенных реестрах.
•
Уровень запроса данных. На этом уровне задействуются утилиты, ответственные за запрос необходимых данных в рамках поставленной задачи и последующей передачи их на уровень обработки данных.
•
Уровень обработки данных, где проходят основные процессы обработки и анализа данных в рамках поставленной задачи.
•
Уровень управления данными, на котором есть прямой доступ пользователей ко всем компонентам экосистемы, а также возможных постановки общих заданий для анализа.
На данный момент не существует единой системы по работе с Big Data, которую можно было бы признать универсальной. Каждый уровень работы с данными может включать в себя разные программные комплексы, в зависимости от потребностей пользователя. У каждого программного и системного решения существуют свои преимущества, но также могут быть и недостатки. Затруднения по введению систем Big Data также связаны с разнообразием источников данных, качества получаемых данных и их итоговой визуализацией29.
Как было отмечено выше, технология Big Data – это не отдельный программный продукт, не самостоятельное техническое вычислительное средство. На примере Badoop очевидно, что это система программ и утилит, связанных между собой и другими сервисами компании-пользователя, для работы с “большими данными”.
Вместе с тем можно вывести общую архитектуру, характерную для Big Data30:
1.
Сбор данных. Источники данных (информации) сами по себе не входят в архитектуру Big Data, но в нее включаются программные и технические средства, способные осуществлять сбор. Разнообразие способов сбора данных напрямую зависит от их источника. Также влияние оказывает и природа информации, подлежащей сбору и последующему анализу. Механизмы сбора можно классифицировать следующим образом:
•
сбор структурированных данных (различные базы данных, существующие архивы данных, внутренние системы предприятий и т.д.);
•
сбор неструктурированных данных (данные GPS, аудио- и видеофайлы, текстовые файлы, аналоговые источники информации и т.д.);
•
сбор частично структурированных данных (данные журналов событий внутренних систем, сетевых служб, XML-данные и т.д.).
2.
Хранилище данных. Все собранные данные распределяются на хранение и, в зависимости от типа данных, оказываются в распределенных/нераспределенных хранилищах или фиксируются в отдельных журналах записи событий.
3.
Преобразование данных. Перед передачей данных на стадию обработки они должны быть преобразованы в понятный для программ формат с помощью инструментов импорта/экспорта. Такие инструменты могут быть как встроенными внутри самих утилит, ответственных за хранение данных, так и внешними, то есть дополнительными.
4.
Обработка данных. На данном этапе происходит объединение всех собранных данных. Обработка может проходить пакетами (то есть сегментировано обрабатывается установленный объем данных) или в режиме реального времени (обрабатываются все поступающие данные без формирования пакетов). На этом этапе выделяются полезные для последующего анализа сведения.
5.
Анализ данных. Инструменты, используемые на данном этапе, зависят от целей пользователя. Следует отметить, что выделенные на этапе обработки данные являются по своей сути «сырыми»: с ними можно работать, но без обработки в контексте поставленной пользователем задачи они не представляют большого интереса. Для решения отдельных задач могут быть созданы самостоятельные алгоритмы анализа, утилиты или использованы стандартные.
6.
Вывод данных. Результаты анализа должны быть представлены в формате, удобном для восприятия пользователем. Это могут быть таблицы, диаграммы, машинописный текст и т.д. – должна быть проведена визуализация результатов. В зависимости от вида и сложности визуализации в экосистему Big Data могут быть добавлены дополнительные программы, службы или надстройки.
Вопрос о необходимости использования возможностей технологии Big Data решается в зависимости от конкретных задач и целей пользователя. Несмотря на существование проекта Badoop и наличие открытых кодов к основным программам и утилитам, процесс интеграции экосистемы в информационную структуру пользователей является сложным и требующим постоянной поддержки специалистов. Поскольку общие алгоритмы анализа данных в рамках традиционных систем и технологии Big Data принципиально друг от друга не отличаются, то представляется, что использование такой сложной экосистемы целесообразно только для тех пользователей, которые сталкиваются с проблемой обработки данных в условиях принципа «3-V».
В настоящее время растет спрос на услуги по анализу больших данных сторонними организациями31. Так, пользователь, у которого нет возможности полной интеграции технологии в собственную инфраструктуру, может заказать программное решение у разработчика с собственной экосистемой Big Data. В этом случае интеграции подлежат только последние два уровня архитектуры технологии – комплекс, осуществляющий непосредственно анализ и визуализацию результатов. Весь процесс сбора, обработки, переработки информации осуществляет разработчик.
Вопрос о необходимости использования собственной экосистемы Big Data должен решаться на основе четкого осознания пользы и последующей окупаемости затрат. Поскольку в современном мире информация стала ресурсом, обладающим собственной ценностью, то темпы развития и использования технологии Big Data напрямую зависят от того, насколько ценная информация будет получена в результате анализа “больших данных” и как много собственных ресурсов пользователя будет затрачено.
* Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-29-16169.
1 См., напр.: Ищенко М.В. Информация как экономический ресурс и ее использование в системе высшего профессионального образования: Дис. … канд. экон. наук. Омск, 2005. С. 31-47; Шуть О.Н. Информация как экономический ресурс / Экономика России: основные направления совершенствования. Межвуз. сб. науч. тр. / под. ред. д.э.н. А.В. Бандурина М.: 2003. URL: https://www.cfin.ru/bandurin/article/sbrn02/08.shtml
2 Любощинский М.П. Информация как ресурс // Общество научных работников – ОНР, 25 сентября 2013. URL: http://onr-russia.ru/content/%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D1%8F-%D0%BA%D0%B0%D0%BA-%D1%80%D0%B5%D1%81%D1%83%D1%80%D1%81
3 Weiss R., Zgorski L.J. Obama Administration Unveils "Big Data" Initiative: Announces $200 Million in New R&D Investments // March 29, 2012. URL: https://obamawhitehouse.archives.gov/the-press-office/2015/11/19/release-obama-administration-unveils-big-data-initiative-announces-200
4 Open Government Data Strategy. Adopted by the IT strategic Headquarters. Japan, July 4, 2012 // URL: https://japan.kantei.go.jp/policy/it/20120704/text.pdf
5 Letouzé E. Big Data for Development: Opportunities and Challenges // UN Global Pulse. 2012. URL: https://unstats.un.org/unsd/trade/events/2014/Beijing<...>
6 См., напр.: Xiaomeng Su. Introduction to Big Data. Learning material // Institute for informatikk og e-læring ved NTNU URL: https://www.ntnu.no/iie/fag/big/lessons/lesson2.pdf; Oussous A., Benjelloun F.Z., Lahcen A.A., Belfkih S. Big Data Technologies: A Survey // Journal of King Saud University – Computer and Information Sciences, 2017, URL: http://dx.doi.org/10.1016/j.jksuci/2017.06.001; Furht B., Villanustre F. Introduction to Big Data // Big Data Technol. App. Springer International Publ., 2016. P. 3-11.
7 Зеттабайт – единица измерения количества информации, равная 2^70??? стандартным (8-битным) байтам или 1024 эксабайтам. Официально не принято ни Генеральными конференциями по мерам и весам, ни Международным бюро мер и весов. В 2016 г. объем интернет-трафика превзошел один зеттабайт. См. подробнее: Зеттабайт // Национальная библиотека им. Н.Э. Баумана. URL: https://ru.bmstu.wiki/index.php?title<...>
8 Desjardins J. How much data is generated each day? // World Economic Forum Articles, April 17, 2019. URL: https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/
9 См. подробнее: YouTube Help. Analyze performance with analytics // URL: https://support.google.com/youtube/topic/9257532?hl=en&ref_topic=9257610
10 См.: McNulty E. Understanding Big Data: The Seven V’s // Dataconomy, May 22, 2014. URL: http://dataconomy.com/2014/05/seven-vs-big-data/; Biehn N. The Missing V’s in Big Data: Viability and Value // Wired, May 1, 2013. URL: https://www.wired.com/insights/2013/05/the-missing-vs-in-big-data-viability-and-value/; Alexandru A., Tudora E., Coardos D. Big Data: Consepts, Technologies and Applications in the Public Sector // International Journal of Computer, Electrical, Automation, Control and Information Engineering. Vol: 10, № 10, 2016. URL: https://www.researchgate.net/publication/310415976
11 Gartner, Inc. – исследовательская и консалтинговая компания, специализирующаяся на рынке информационных технологий. Аналитиками компании была сформулирована концепция ERP (Enterprise Resource Planning) – стратегия интеграции производства и операций, управления финансовыми и трудовыми ресурсами, активами и оптимизацию ресурсов через интегрированный пакет прикладного программного обеспечения.
12 Big Data Analytics in health // Canada Inforoute. White Paper, Full Report, April 2013 URL: https://www.infoway-inforoute.ca/en/component/edocman/1246-big-data-analytics-in-health-white-paper-full-report/view-document?Itemid=101
13 Alexandru A., Coardos D. Big Data in Tackling Energy Efficiency in Smart City // Scientific Bulletin of the Electrical Engineering Faculty. 2014, vol. 28, № 4. P. 14-20. URL: https://www.researchgate.net/publication/301285649_Big_Data_In_Tackling_Energy_Efficiency_In_Smart_City
14 См. подробнее: http://hadoop.apache.org/
15 Alexandru A., Tudora E., Coardos D. Big Data: Consepts, Technologies and Applications in the Public Sector // International Journal of Computer, Electrical, Automation, Control and Information Engineering. 2016, vol. 10, № 10, URL: https://www.researchgate.net/publication/310415976
16 HDFS Architecture Guide. URL: https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
17 MapReduce Tutorial. URL: https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html
18 NoSQL – это подход к реализации масштабируемого хранилища (базы) информации с гибкой моделью данных. В нереляционных базах проблемы масштабируемости (scalability) и доступности (availability), важные для Big Data, решаются за счёт атомарности (atomicity) и согласованности данных (consistency). NoSQL-базы оптимизированы для приложений, которые должны быстро, с низкой временной задержкой (low latency) обрабатывать большой объем данных с разной структурой. См. подробнее: Вичугова А. NoSQL // Курсы Big Data, Hadoop. Arenadata, Kafka и Spark. URL: https://www.bigdataschool.ru/wiki/nosql
19 См. подробнее: https://hbase.apache.org/
20 См. подробнее: https://hive.apache.org/
21 См. подробнее: https://mahout.apache.org/
22 См. подробнее: https://oozie.apache.org/
23 См. подробнее: https://pig.apache.org/
24 См. подробнее: Apache Hadoop YARN URL: https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html
25 См. подробнее: https://whirr.apache.org/
26 См. подробнее: https://zookeeper.apache.org/
27 См. подробнее: https://flume.apache.org/
28 Khan N., Yaqoob I., Hashem I. A. T., et al. Big Data: Survey, Technologies, Opportunities, and Challenges // The Scientific World Journal. Vol. 2014. URL: https://www.hindawi.com/journals/tswj/2014/712826
29 Bodapati R. Data Integration Ecosystem for Big Data and Analytics. URL: https://www.smartdatacollective.com/data-integration-ecosystem-big-data-and-analytics/
30 Anuganti V. Typical “Big” Data Architecture. URL: http://venublog.com/2012/11/30/typical-big-data-architecture/
31 Например, компания Double Data: https://doubledata.ru/index.html
Литература
1. Ищенко М.В. Информация как экономический ресурс и ее использование в системе высшего профессионального образования: Дис. … канд. экон. наук. Омск, 2005. С. 31-47.
2. Шуть О.Н. Информация как экономический ресурс / Экономика России: основные направления совершенствования. Межвуз. сб. науч. тр. / под. ред. д.э.н. А.В. Бандурина М., 2003. URL: https://www.cfin.ru/bandurin/article/sbrn02/08.shtml
3. Любощинский М.П. Информация как ресурс // Общество научных работников – ОНР, 25 сентября 2013. URL: http://onr-russia.ru/content/%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D1%8F-%D0%BA%D0%B0%D0%BA-%D1%80%D0%B5%D1%81%D1%83%D1%80%D1%81
4. Weiss R., Zgorski L.J. Obama Administration Unveils "Big Data" Initiative: Announces $200 Million in New R&D Investments // March 29, 2012. URL: https://obamawhitehouse.archives.gov/the-press-office/2015/11/19/release-obama-administration-unveils-big-data-initiative-announces-200
5. Open Government Data Strategy. Adopted by the IT strategic Headquarters. Japan, July 4, 2012. URL: https://japan.kantei.go.jp/policy/it/20120704/text.pdf
6. Letouzé E. Big Data for Development: Opportunities and Challenges // UN Global Pulse. 2012. URL: https://unstats.un.org/unsd/trade/events/2014/Beijing/documents<...>
7. Xiaomeng Su. Introduction to Big Data. Learning material // Institute for informatikk og e-læring ved NTNU. URL: https://www.ntnu.no/iie/fag/big/lessons/lesson2.pdf
8. Oussous A., Benjelloun F.Z., Lahcen A.A., Belfkih S. Big Data Technologies: A Survey // Journal of King Saud University – Computer and Information Sciences, 2017. URL: http://dx.doi.org/10.1016/j.jksuci/2017.06.001
9. Furht B., Villanustre F. Introduction to Big Data // Big Data Technol. App. Springer International Publ., 2016. P. 3-11.
10. Зеттабайт // Национальная библиотека им. Н.Э. Баумана. URL: https://ru.bmstu.wiki/index.php?title<...>
11. Desjardins J. How much data is generated each day? // World Economic Forum Articles, April 17, 2019. URL: https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/
12. YouTube Help. Analyze performance with analytics. URL: https://support.google.com/youtube/topic/9257532?hl=en&ref_topic=9257610
13. McNulty E. Understanding Big Data: The Seven V’s // Dataconomy, May 22, 2014. URL: http://dataconomy.com/2014/05/seven-vs-big-data/
14. Biehn N. The Missing V’s in Big Data: Viability and Value // Wired, May 1, 2013. URL: https://www.wired.com/insights/2013/05/the-missing-vs-in-big-data-viability-and-value/
15. Alexandru A., Tudora E., Coardos D. Big Data: Consepts, Technologies and Applications in the Public Sector // International Journal of Computer, Electrical, Automation, Control and Information Engineering. 2016, vol. 10. № 10, 2016. URL: https://www.researchgate.net/publication/310415976
16. Big Data Analytics in health // Canada Inforoute. White Paper, Full Report, April 2013. URL: https://www.infoway-inforoute.ca/en/component/edocman/1246-big-data-analytics-in-health-white-paper-full-report/view-document?Itemid=101
17. Вичугова А. NoSQL // Курсы Big Data, Hadoop. Arenadata, Kafka и Spark. URL: https://www.bigdataschool.ru/wiki/nosql
18. Khan N., Yaqoob I., Hashem I. A. T., et al. Big Data: Survey, Technologies, Opportunities, and Challenges // The Scientific World Journal. Vol. 2014. URL: https://www.hindawi.com/journals/tswj/2014/712826
19. Bodapati R. Data Integration Ecosystem for Big Data and Analytics. URL https://www.smartdatacollective.com/data-integration-ecosystem-big-data-and-analytics/
20. Anuganti V. Typical “Big” Data Architecture. URL: http://venublog.com/2012/11/30/typical-big-data-architecture/