Классика баз данных - статьи

Функции для обработки данных


Наиболее важными в API являются методы OperateOnSomeRows и OperateOnPartition, которые являются частями интерфейсов функций над строками и разделами соответственно. Эти методы составляют механизм вызова SQL/MR-функции. Функции предоставляется итератор над строками, для обработки которых она вызвана, а также объект "emitter" для возврата строк в базу данных. Метод OperateOnPartition также включает объект PartitionDefinition, который обеспечивает значения выражений PARTITION BY. Это полезно, поскольку столбцы, используемые для вычисления этих значений, могут не входить в число входных данных функции.

На рис. 6 показана реализация функции OperateOnPartition для SQL/MR-функции Sessionize. Каждая результирующая строка конструируется из одной входной строки и текущего значения идентификатора сессии. Заметим, что результирующие атрибуты добавляются к источнику выходных данных в порядке слева направо.



Содержание раздела