Главная / Технология / Big Data


Big Data

Распределенная обработка сверхбольших объемов данных сегодня является актуальной задачей электронной науки (e-Science). Ключевой особенностью типового решения таких задач является обработка данных, находящихся в распределенном хранилище непосредственно на ресурсах этого хранилища. Де-факто стандартным подходом для решения таких задач является модель MapReduce формирующая алгоритм обработки данных с использованием двух процедур (map и reduce), допускающих выполнение в распределенной среде хранения и обработки данных.

Распределенная обработка больших данных

В среде CLAVIRE обработка сверхбольших объемов данных реализуется на базе распределенного хранилища данных, выполняющего процедуры по обработке хранимых данных и агрегации результатов (в соответствии с моделью MapReduce). Такие процедуры формируют иерархическую схему обработки данных, конечные элементы которой обеспечивают локальную обработку отдельных наборов данных агентами распределенного хранилища. Код таких процедур формируется автоматически по высокоуровневому описанию и допускает обработку данных непосредственно на узлах, как посредством заданного в процедурах кода, так и с помощью вызова локальных (находящихся на узле) или глобальных (доступных через централизованную систему CLAVIRE) сервисов. Такой подход может быть эффективно использован, например, необходимости поиска в архивных данных наборов, отвечающих заданным условиям, с более детальным их анализом.