Archive for Март, 2008

Ссылки от Ивана

Читаю материалы и исследования по выявлению и работе с метаданными и, в очередной раз, убеждаюсь что тема куда сложнее чем можно было подумать вначале.

Например, наиболее часто встречающиеся схемы работы с нимия:

- Объект + тэги

Упрощённая модель когда дополнительные характеристики и атрибуты объектов определяются исключительно смысловым значением ключевых слов. Плюсы - простая реализация, минусы - слабая аналитическая пригодность. Пример - любая социальная сеть закладок, тот же del.icio.us.

- Объект + атрибуты метаданных без структуризации. В этом случае каждому информационному объекту может присваиваться произвольный набор атрибутов его характеризующих. Каждый атрибут определяется его названием, типом (строка, число, дата и т.д.) и значением. Пример - файлы Microsoft Office, где можно указать набор метаданных в документе. Плюсы - лучшая пригодность к анализу и классификации чем тэги, минусы - классификация атрибутов определяется внутренними словарями анализирующих их приложений/

- Объект со специфицированной карточкой атрибутов, например, в виде XML схемы

Атрибуты чётко специфицированы и уложены в XML схему. Как результат, информационные объекты легко подвергаются анализу и обработке, минусы в негибкости расширения схем. Такой подход используется в большинстве коммерческих и государственных стандартов обмена данными, где надежность и предсказуемость важнее гибкости. Ко всему эта модель чётко ложится на реляционные СУБД, OOP и другие наработанные технологии

- Объект в контексте онтологической модели

Это то что вкладывают, как одно из значений, в Semantic Web и в этом случае атрибуты объекта также специфицированы как и при XML схеме и также негибки в изменении, но, при этом атрибуты могут быть не просто значениями, но ссылками и связями с другими объектами этой онтологической модели. Пример, описывая организацию в виде объекта онтологии, БИК её счета может быть связующей ссылкой по которой можно получить метаданные банка которому он принадлежит. При этом анализ аномалий, особенностей данных и закономерностей может происходить автоматически даже без знания предметной области. Либо с незначительной корректировки аналитических алгоритмов, предметным специалистом. Недостаток такой модели в необходимости длительной и кропотливой работы надо формированием “моделей связностей”. А также в технологических проблемах хранения и работы с подобного рода информацией - необходимы базы данных с поддержкой OWL и RDF, а также преодоление проблем комплексности описываемых областей.