Классика баз данных - статьи

Извлечение информации из Википедии


Одним из важнейших этапов разработки системы явилась обработка XML-дампа всех статей английской Википедии по состоянию на июль 2009 г. Целью анализа был расчёт информативности для всех терминов Википедии по формуле (1).

Нужно отметить, что для одной концепции в словаре Википедии может быть несколько синонимов. Например, термин «IBM» имеет несколько синонимов: «International Business Machines», «Big Blue» и т.д. Так как в разработанной системе отсутствует этап разрешения лексической многозначности терминов, то было недопустимо, чтобы синонимы имели различные значения информативности. Поэтому было принято считать, что информативность всех синонимов одной концепции становится одинаковой, исходя из общей статистики для всех них.

Кроме того, согласно рекомендациям авторов методики расчёта информативности , были исключены термины, которые были найдены менее, чем в 5 статьях. Если пропустить этот шаг, то результирующее значение зачастую становится недостоверным и не позволяет корректно оценить относительную значимость термина в контексте. В результате данного этапа БД содержит 5 445 377 терминов с рассчитанной для них информативностью.



Содержание раздела