Классика баз данных - статьи


Аннотация


Параллельная СУБД Teradata на протяжении последних двадцати лет успешно используется в крупных хранилищах данных для выполнения крупномаштабного бизнес-анализа в различных областях индустрии над наборами данных объемом от нескольких терабайт до нескольких петабайт. Однако вследствии наблюдаемого в последние годы взрывообразного роста объема данных в вычислительных центрах некоторых заказчиков некоторые данные, такие как Web-журналы и сенсорные данные, не управляются Teradata EDW (Enterprise Data Warehouse), частично из-за того, что загрузка этих данных в РСУБД обходится слишком дорого, в особенности в тех случаях, когда эти данные не слишком часто используются для поддержки принятия важных бизнес-решений. В последнее время в академических и производственных кругах все более распространенным становится применение парадигмы MapReduce (придуманной в Google и ставшей популярной благодаря доступной в исходных кодах реализации Hadoop, основную поддержку которой оказывает Yahoo!) в качестве альтернативного способа выполнения крупномасштабного анализа данных. К настоящему времени большинство исследователей и практических специалистов в области хранилищ данных соглашается с тем, что у парадигм параллельных СУБД и MapReduce имеются свои достоинства и недостатки в разных бизнес-приложениях, и что поэтому этим двум парадигмам суждено сосуществовать на протяжении долгого времени [16]. На самом деле, большое число заказчиков Teradata, в особенности, те из них, кто относится к индустриям электронной коммерции и телекоммуникаций, испытывает возрастающую потребность в выполнении бизнес-анализа данных, сохраняемых и в Hadoop, и в Teradata EDW. Одной из общих черт Hadoop и Teradata EDW является то, что данные в обеих системах для параллельной обработки разделяются по нескольким узлам, что обеспечивает возможности интеграционной оптимизации, недоступные для СУБД, работающих в одном узле. В этой статье мы описываем три свои работы, направленные на достижение тесной и эффективной интеграции Hadoop и Teradata EDW.




- Начало -  - Назад -  - Вперед -