Классика баз данных - статьи

Логические компоненты пространств данных


Пространство данных (см. рис. 2) должно содержать всю информацию, уместную для конкретной организации, несмотря на формат и местоположение этой информации, а также моделировать развитый набор связей между репозиториями данных. Следовательно, мы моделируем пространство данных как набор участников и связей.

Рис. 2. Пример пространства данных и компоненты системы пространства данных

Участниками пространства данных являются индивидуальные источники данных: они могут быть реляционными базами данных, репозиториями XML, текстовыми базами данных, Web-сервисами и пакетами программного обеспечения. Они могут храниться или быть потоками данных (локально управляемыми системами потоков данных), или даже сенсорными установками.

Некоторые участники могут поддерживать выразительные языки запросов, а другие - быть неинтеллектуальными и поддерживающими лишь ограниченные интерфейсы для формулировки запросов (например, структурированные файлы, Web-сервисы или другие софтверные пакеты). Участники могут быть очень структурированными (например, реляционными базами данных), полуструктурированными (XML, коллекции кода) или полностью неструктурированными. Некоторые источники будут поддерживать традиционные операции обновления, другие - допускать только добавления (в целях архивации), а третьи могут быть полностью неизменчивыми.

Пространство данных должно уметь моделировать любой вид связи между двумя (или несколькими) участниками. В более традиционном варианте мы должны уметь моделировать ситуации, когда один участник является представлением или репликой другого участника, или отображать одна на другую схемы двух участников. Однако нам хотелось бы моделировать намного более широкий набор связей, например, что источник A был вручную произведен из источников B и C, или что источники E и F создавались независимо, но отражают одну и ту же физическую систему (например, ДНК мыши). Связи могут быть даже менее конкретными, например, два набора данных образованы из одного источника данных в одно и то же время.

Пространства данных могут вкладываться одно в другое (например, пространство данных факультета Computer Science вкладывается в пространство данных университета), и они могут перекрываться (например, пространство данных факультета Computer Science может разделять некоторых участников с факультетом Electrical Engineering). Поэтому в пространстве данных должны содержаться правила разграничения доступа. Вообще говоря, в некоторых случаях границы между пространствами данных могут быть плавающими, но мы ожидаем, что в большинстве случаев эти границы будут определяться естественным образом.



Содержание раздела