ИНТЕГРАЦИЯ СЕМАНТИЧЕСКИ СВЯЗАННЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ НА ОСНОВЕ ОНТОЛОГИЙ
Ломов П. А., Шишаев М. Г.

 

    В данной работе рассматривается актуальная проблема логической интеграции разнородных территориально распределенных семантически связанных ресурсов. Данная проблема сегодня возникает в большом количестве различных приложений вследствие того, что в мире существует, и каждый день производиться огромное количество информационных ресурсов, посвященных тот или иной предметной области. Вместе с тем, современные требования к информационному обеспечению производственных, управленческих и иных процессов создают необходимость максимально эффективно использовать накопленный информационный багаж, каким-либо образом упорядочить имеющиеся объемы информации, произвести интеграцию информационных ресурсов. Трудностью при этом является то, что данные ресурсы, как правило, являются распределенными и гетерогенными. Среди типичных подходов для решения этой проблемы, применяемых в наше время, выделяют: взаимообмен информацией или создание еще одного обобщающего ресурса. Данные способы решают проблему интероперабельности информации лишь на синтаксическом и структурном уровнях и, вследствие этого, не в достаточной степени эффективны. Среди их недостатков можно выделить: отсутствие ответственности за информацию, переданную во время интеграции, дублирование информации, потеря контроля доступа к информации, технологические трудности, связанные с разными форматами представления данных. Наряду с этим, в силу использования разной интерпретации, появляются смысловые конфликты между информационными единицами. Отсюда можно сделать вывод, что, осуществляя интеграцию, не следует ограничиваться чисто техническими мерами. Следует принимать во внимание тот факт, что информационные ресурсы одной предметной области содержат отличающиеся внешне термины, понятия, сущности, которые, тем не менее, могут быть семантически связанными, близкими по смыслу, и, наоборот, имея одинаковые названия, могут нести абсолютно разную смысловую нагрузку. Такое виденье смысла не присутствует в явном виде в структуре информации, а присуще лишь сознанию эксперта. Это обстоятельство позволяет человеку при обработке информации действовать на уровне семантики, и тем самым производить интеграцию информационных ресурсов, абсолютно различающихся по структуре и форме представления данных. Например, есть несколько баз данных и поставленная задача найти информацию о той или иной персоне. Человек-оператор знает, что с понятием персона связанны свойства: ФИО, год рождения, адрес, место работы и.т.д. При этом, даже если информация находиться в разных базах данных, для человека-оператора они представляют одно информационной пространство для поиска.

 

Идея интеграции ресурсов на базе онтологий

 

    Что же позволяет человеку осуществлять мысленную интеграцию на уровне семантики? Ответ прост - понимание смысла, то есть осознание того, что элемент данных это некий объект, обладающий свойствами, связанный какими-либо отношениями с другими объектами. Таким образом, для того чтобы осуществить интеграцию на семантическом уровне и позволить машине осуществлять обработку данных, подобно человеку-эксперту, необходимо представить информационный ресурс в виде списка каких-либо объектов и разработать некую схему, отражающую взаимосвязи объектов. В виде такой схемы может выступать онтология предметной области.

Онтология это, своего рода, попытка всеобъемлющей и детальной формализации некоторой области знаний с помощью концептуальной схемы. Обычно такая схема состоит из иерархической структуры данных, содержащей все релевантные классы объектов, их связи и правила, принятые в этой области. Она является виденьем эксперта предметной области, выраженном в некотором формальном представлении, что дает возможность использования этого понимания структуры и значения элементов информации при ее автоматической обработке. Именно формализация представления связей между понятиями в онтологии делает возможным их использование в широком спектре автоматизированных информационных систем.

    Онтология состоит из терминов (понятий), их определений и атрибутов, а также связанных с ними аксиом и правил вывода. Формальная модель онтологии - это упорядоченная тройка конечных множествO=<T,R,F>, где:

  • Т - термины предметной области, которую описывает онтология O;
  • R - отношения между терминами заданной предметной области;
  • F - функции интерпретации, заданные на терминах и/или отношениях онтологии O.

    Идея использования онтологий для интеграции разнородных ресурсов заключается в том, что при принятии решения об отождествлении некоторой пары информационных атрибутов из различных источников, осуществляется анализ их смысловой эквивалентности путем выявления связей между соответствующими этим атрибутам понятиями (концептами) в онтологии предметной области. Почти все подходы к интеграции разнородных ресурсов применяют онтологии для явного описания их семантики. В общем можно выделить три направления использования онтологий [Wache H. and others] (Рис. 1.):
Methods_of_integration

Рисунок 1. Различные направления использования онтологий
  1. Подход с использованием единой онтологии. Используется одна общая онтология, предоставляющая разделяемый словарь терминов, который используют все информационные ресурсы для представления смысла содержащейся в них информации. Основным преимуществом является быстрота и малая трудоемкость проведения процесса интеграции. Недостатком же является требование принадлежности ресурсов к узкой предметной области и наличия одинакового ее представления.
  2. Мульти-онтологический подход. При применении мульти-онтологического подхода каждый информационный ресурс описывается своей онтологией. Вследствие этого нет необходимости в какой-либо обобщающей онтологии, и каждая новая онтология может разрабатываться независимо от других, что облегчает подключение новых информационных ресурсов. Мульти-онтологический подход плох тем, что необходимо устанавливать соответствие между различными онтологиями. Обычно это делается путем связывания семантически эквивалентных термов в двух или более онтологиях. Для реализации этой идеи в существующих системах используется, в том или ином виде, специализированный формализм установления соответствия. На практике реализация связи онтологий представляет собой очень сложную задачу, поскольку онтологии, в общем случае, разнородны - используют различные домены для представления знаний, различную глубину детализации концептов, и т.п.
  3. Гибридный подход. Гибридный подход призван нивелировать недостатки моно- и мульти-онтологических подходов к интеграции разнородных ресурсов. В этом случае, также как при мульти-онтологическом подходе, каждый ресурс описан в своей собственной частной онтологии. Однако все эти онтологии строятся в общей терминологической базе (словаре), которая представляет собой набор примитивных концептов, из которых, при помощи набора специальных операций, формируются описания концептов частных онтологий. Описание концептов в общих терминах дает возможность сравнивать их (оценивать семантическую близость). Достоинством гибридного подхода является то, что при этом достаточно легко можно добавлять в систему новые информационные ресурсы, без необходимости доработки общего словаря, как в случае моно-онтологического подхода, или модификации системы соответствий между онтологиями, как в случае использования различных онтологий для описания каждого ресурса. Недостатком гибридного подхода является то, что при этом нельзя использовать уже существующие онтологии - все локальные описания семантики должны быть привязаны к глобальному словарю.
    Нельзя сказать, что разработка и использование онтологий довольно редкий феномен. Во всемирной паутине они стали обычным явлением. Они варьируются от больших таксономий, категоризирующих веб-сайты (как на сайте Yahoo!), до категоризации продаваемых товаров и их характеристик (как на сайте Amazon.com). Специалистами уже созданы довольно подробные онтологии некоторых предметных областей для совместного использования и аннотирования информации. Использование онтологий обеспечивает решение следующих задач:
  1. Использование людьми и программами общего понимания структуры информации.
  2. Повторное использование знаний предметной области.
  3. Отделение знаний предметной области от оперативных знаний.
  4. Анализ знаний предметной области.

    В контексте проблемы интеграции информационных ресурсов наиболее важны первые две задачи. Так, решение первой из них позволяет соединить разные источники информации в единое информационное поле, с которым могут работать программные агенты. Например, если несколько сайтов совместно используют и публикуют одну и ту же базовую онтологию терминов, то компьютерные агенты, также разработанные для работы с классами данной онтологии, могу извлекать и накапливать информацию с любого из вышеупомянутых сайтов.


Проблематика использования онтологий


    На данный момент уже существуют детальные онтологии некоторых областей знаний и, следовательно, встает вопрос их повторного совместного использования, но при этом могут возникнуть трудности с различным значением терминов. Для их преодоления необходимо выполнить картирование терминов одной онтологии в другую. Эта проблема хорошо известна в инженерии знаний. Пока не найдено способов выполнять автоматическое картирование, машина может лишь предлагать определенные соответствия и проверять валидность соответствий, заданных человеком-оператором. Необходимо также отметить, что существование семантических несоответствий и использование картирования для их устранения предполагает определенную потерю информации, что может являться серьезной проблемой в определенных сферах деятельности, например, в электронной коммерции, где неточность информации недопустима. Среди различных подходов для решения проблемы повторного использования онтологий выделяются [Wache H. and others]:

  1. Определение отображения. Объединение онтологий осуществляется отображением их объектов с помощью специального промежуточного программного агента. Причем трансляция может производиться в широких пределах, начиная от простых классов и значений свойств до картирования сложных выражений. Этот подход обеспечивает высокую гибкость, но не может гарантировать сохранения семантики, так как разработчик может определять какие угодно правила транслирования, даже если это приводит к определенным конфликтам.
  2. Лексическое связывание. Данный метод привносит некоторую семантику в процесс картирования. Он предполагает создание общей описательной логической модели, основанной на лингвистических отношениях между онтологиями. Как правило, в системах, использующих этот метод, отношениями являются: синоним (synonym), гиперним (hyponym), перекрытие (overlap), покрытие (covering) и несвязность (disjoint). В то время как эти отношения подобны конструктам в дескриптивной логике и позволяют формально осуществить отображение терминов, но используя их далеко не всегда в достаточной степени можно отразить семантику. Данный алгоритм получается в большей мере эвристическим, нежели формальным.
  3. Использование общего основания. Самым простой и легкий способ не выйти за пределы необходимого формализма - это использовать некую общую онтологию, чьи концепты будут наследоваться связываемыми онтологиями. Это позволит решить некоторые семантические конфликты. Минусом может являться тот факт, что не будет возможности установить, когда это необходимо, прямое соответствие между классами, а только через суперкласс общей онтологии.
  4. Семантические соответствия. Данный подход призван нивелировать проблему отсутствия прямого соответствия. Он заключается в переклассификации концептов одной семантической структуры в другую. Задача переклассификации состоит в определении отношений членства между рассматриваемым концептом одной онтологии и набором классов другой. Формально этот процесс можно выразить следующим образом[Stuckenschmidt H.,]: Пусть Ct и Ct наборы классов двух онтологий; Пусть Ct набор, так называемых, явных наблюдений. В нашем случае это необходимые условия для принадлежности концепта к определенному классу. Они предоставляются исходной семантической структурой; Пусть Ct набор правил установления соответствия. В нашем случае это достаточные условия для членства в классе. Они предоставляются целевой семантической структурой. Используя данные определения, концепт одной онтологии может быть причислен к определенному классу другой онтологии, если выполняется следующее уравнение: Ct , где Ct

    Данный подход также предполагает создание общего словаря в терминах свойств для определения различных концептов, и отнесении их впоследствии к соответствующим онтологическим классам. Как правило, его создание осуществляется экспертом, знакомым с проблемами и задачами определенной области знаний, но не имеющего отношения к конкретному информационному ресурсу. Основной проблемой данного метода является невозможность, в случае семантически плохо связанных онтологий, создания достаточно полного общего словаря, в результате чего пропадает возможность переклассифицировать некоторые концепты с сохранением их точной семантики.

   Немаловажным также является вопрос связывания онтологий и информационных ресурсов. Разумеется, речь идет о явных связях, которые могут быть использованы программными агентами при выполнении клиентского запроса. Данная задача может быть решена следующими способами:

  1. Копирование структуры. Наиболее быстрый подход, заключающийся в создании копии структуры информационного ресурса и в последующем перекодировании ее на языке, позволяющем проводить автоматизированную обработку. Впоследствии переработанная таким образом модель может быть легко преобразована в оригинальный формат ресурса.
  2. Определение термов. В некоторых случаях, для того чтобы более ясно выразить смысл термов информационного ресурса, онтология может использоваться для предоставления их описаний, которые представляют собой набор правил, определяющих тот или иной терм. Данные описания не выражаются структуру ресурса, а только связывают информацию с помощью термов, определяемых ими.
  3. Обогащение структуры. Это наиболее распространенный метод для связи онтологий и информационных ресурсов. Он является комбинацией ранее-упомянутых методов и включает построение копии модели, содержащей в себе дополнительные определения концептов.
  4. Использование метаописаний. Новый подход, предполагающий включение мета-описаний, выражающих семантику, в контент информационного ресурса.

Semantic web: пример интеграции ресурсов на базе онтологий

 

    Далее рассматривается метод осуществления интеграции данных с использованием онтологий и технологий, применяемых в наше время для интеграции информационных ресурсов сети Интернет. На сегодняшний день глобальная паутина предоставляет различные информационные респозитории, которые используются людьми для решения самых различных задач. Данная информация обычно представлена неоднородно. И, несмотря на то, что проблема гетерогенности данных решается человеком достаточно просто, но он, однако, не в силах обработать весь тот огромный объем информации, содержащийся в Интернете. Именно поэтому автоматизированная интеграция данных весьма необходима для рационального хранения данных в сети Интернет.

    Сейчас очень активно начинает проект построения так называемой семантической сети (Semantic Web), с целью решения проблемы информационного хаоса, появившейся в современном Интернете. В сущности, это не что иное, как попытка интеграции огромного количества информационных ресурсов. Разумеется, эту задачу, в силу ее крупномасштабности, нельзя решить никаким взаимообменом или каким-либо обобщающим ресурсом. Хотя и сейчас существуют определенные механизмы для осуществления определенного упорядочивания информации в Интернете, это поисковые машины, но они также обеспечивают интеграцию лишь на техническом уровне, рассматривая веб-сайты, как некоторые наборы символов. Да и сами веб-ресурсы представлены в большинстве своем отформатированными при помощи HTML разметки текстовыми блоками, связанными друг с другом URL ссылками. Разумеется, ни о какой семантике здесь не может быть и речи.

    Главной идеей семантической сети является представления у любой информации связанного с этой информацией точного смысла, которого нельзя было бы перепутать даже в случае совпадения фраз или слов, встреченных в разных контекстах. Уже сейчас создан ряд важнейших технологий для реализации этой цели:

  1. Язык XML (Extensible Markup Language), расширенный язык разметки, позволяющий добавлять мета информацию к определенному информационному ресурсу;
  2. Язык RDF (Resource Definition Framework), предоставляющий удобную среду формализации метаданных и сведений о контексте. RDF создан консорциумом W3C и предназначен для описания метаданных, является подмножеством языка XML и имеет собственный язык RDF Schema для описания структуры документов. RDF - это самый низкоуровневый из существующих языков описания метаданных;
  3. Язык онтологий OWL (Web Ontology Language) общий набор терминов, которые используются для описания и представления объектов в Интернет, поддерживается популярными редакторами онтологий такими как Altova's SemanticWorks, Protege;
  4. SPARQL - язык запросов к RDF респозиториям и, одновременно, протокол передачи информации RDF (SPARQL Query Language for RDF).
Все эти технологии служат для решения следующих задач:
  1. Определение таксономии объектов и связей между ними;
  2. Преставления информационного ресурса в виде совокупности экземпляров объектов, их свойств и конкретных значений этих свойств;
  3. Выполнение запросов к представлениям информационных ресурсов и конструирование новых ресурсов на основе результатов запросов.

Для реализации первой цели необходимо построить онтологию предметной области по этапам, описанным выше. Для примера рассмотрим простую онтологию (Рис. 1), показывающую отношения между классами Person (личность человека), Organization (организация), Website (веб-сайт), Building (здание), обладающих определенными свойствами - слотами.
Рисунок 2. Простой пример онтологии

Рисунок 2. Простой пример онтологии.

    Каждый из этих основных классов, имеет несколько подклассов, являющихся уточнением основного. Например, класс Organization имеет подклассы Factory (фабрика), Jurisprudence (юридическая организация), SellingHouse (магазин, рынок), Service (обслуживание), Teaching (обучение). Подклассы являются уточнением основного и обладают, помимо слотов основного класса, еще и своими специфическими слотами. Например, класс Organization обладает свойствами isCalled (название организации) и isPlaceIn (где располагается), а подкласс Factory, кроме ранее обозначенных общих свойств имеет еще свойство whatProduces (что производит). Рассмотрим частичное представление данной онтологии в формате RDF:

 

<!DOCTYPE rdf:RDF [
  <!ENTITY rdf 'http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
  <!ENTITY kb 'http://myOntology #'>
  <!ENTITY rdfs 'http://www.w3.org/2000/01/rdf-schema#'>
]>
<rdf:RDF xmlns:rdf="&rdf;"
  xmlns:kb="&kb;"
  xmlns:rdfs="&rdfs;">
<rdfs:Class rdf:about="&kb;Building"
  rdfs:label="Building">
 <rdfs:subClassOf rdf:resource="&rdfs;Resource"/>
</rdfs:Class>
<rdfs:Class rdf:about="&kb;DwellingHouse"
  rdfs:comment="Жилой дом"
  rdfs:label="DwellingHouse">
 <rdfs:subClassOf rdf:resource="&kb;Building"/>
</rdfs:Class>
……
<rdfs:Class rdf:about="&kb;Worker"
  rdfs:label="Worker">
 <rdfs:subClassOf rdf:resource="&kb;Person"/>
</rdfs:Class>
</rdf:RDF>

 

    Рассмотрим тег  <!ENTITY kb 'http://myOntology #'>, расположенный в начале RDF онтологии, он определяет пространство имен, которое впоследствии используется для ссылки на классы нашей онтологии. Например, тег <rdfs:Class rdf:about="&kb;DwellingHouse"> декларирует некий класс, который описывается в неком пространстве имен "kb" как DwellingHouse. Указание различных пространств имен дает возможность повторно использовать другие онтологии, расширять и уточнять их, объявляя свои подклассы, что позволяет выполнять картирование с той строгостью, которая необходима. Данная возможность является очень ценной, особенно в случае интеграции узконаправленных информационных ресурсов, объединенных широкой предметной областью.

   Следующим шагом является разработка представление информационного ресурса, включающего метаописания тех или иных информационных элементов. Это не что иное, как связывание информационного ресурса с некоторой общей онтологией. Она решается путем анализа контента каждого ресурса с целью выявления фактов, их сопоставления с терминами предметной области и с последующим добавлением их в виде экземпляров классов в онтологию. Экземпляры (instances) - это основные, нижнеуровневые компоненты онтологии. Экземпляры могут представлять собой как физические объекты (люди, дома, планеты), так и абстрактные (числа, слова).
   Рассмотрим, к примеру, несколько экземпляров классов описанных в нашей онтологии:

<!DOCTYPE rdf:RDF [
  <!ENTITY rdf 'http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
  <!ENTITY kb 'http://myOntology#'>
  <!ENTITY rp 'http://myRespository#'>
  <!ENTITY rdfs 'http://www.w3.org/2000/01/rdf-schema#'>
]>
<rdf:RDF xmlns:rdf="&rdf;"
  xmlns:kb="&kb;"
  xmlns:rdfs="&rdfs;">
<kb:Worker rdf:about="&rp;SmallOnt_Instance_44"
  kb:hasAppointment="Оперативный сотрудник"
  kb:hasName="Василий"
  kb:hasPatronymicName="Антонович"
  kb:hasSallary="5000"
  kb:hasSurname="Рогов"
  rdfs:label="SmallOnt_Instance_44">
 <kb:OfThe rdf:resource="&rp;SmallOnt_Instance_46"/>
 <kb:isLivingIn rdf:resource="&rp;SmallOnt_Instance_55"/>
</kb:Worker>
<kb:Jurisprudence rdf:about="&rp;SmallOnt_Instance_46"
  kb:hasSpecializeIn="Охрана правопорядка"
  kb:isCalled="Милиция"
  rdfs:label="SmallOnt_Instance_46">
 <kb:isPlacedIn rdf:resource="&rp;SmallOnt_Instance_53"/>
</kb:Jurisprudence>

<kb:Person rdf:about="&rp;SmallOnt_Instance_61"
  kb:hasName="Виталий"
  kb:hasPatronymicName="Николаевич"
  kb:hasSurname="Кротов"
  rdfs:label="SmallOnt_Instance_61"/>
</rdf:RDF>

 

   В данном респозитории описываются три экземпляра SmallOnt_Instance_44, SmallOnt_Instance_46, SmallOnt_Instance_61, которые описывают двух персон и одну организацию. Один из этих людей работает в данной организации, что указывается строкой:<kb:OfThe rdf:resource="&rp;SmallOnt_Instance_46"/>. Связь с нашей онтологией обеспечивается указанием пространства имен "kb", которое ссылается на нее.
Таким образом, в итоге после произведения наполнения онтологии мы получаем базу знаний, в которой каждый объект храниться вместе с информацией о том, какое место он занимает в общей таксономии, с какими объектами связан. Это дает возможность системе выполнения пользовательских запросов, "понять" после обращения к онтологии, какое место в системе классов занимает объект поиска, с какими классами он связан, после чего он может сформировать дополнительные запросы к респозиторию для получения связанной информации. Простейшая схема интеграции показана на рисунке 3. Для добавления ресурса к общему полю поиска необходимо выявить отсутствующие в онтологии термины, описывающие объекты, произвести их добавление и создать представление ресурса.

Рисунок 3. Простейшая система интеграции с использование онтологий.

Рисунок 3. Простейшая система интеграции с использование онтологий.

 

    В данном подходе сначала создается перечень информационных ресурсов, подлежащих интеграции. Затем составляется общий словарь терминов и, на его основе, создается онтология предметной области. Основную работу выполняет система пользовательских запросов. Она выполняет распознавание концептов в запросе пользователя или предоставляет конструктор запросов, осуществляет поиск релевантной информации в информационных респозиториях, кэширует популярные запросы и хранит список информационных респозиториев. Требование принадлежности ресурсов к узкой предметной области здесь снимается благодаря возможности расширения онтологии, но, вследствие этого, может возникнуть проблема функционирования системы выполнения запросов, рассчитанную на еще нерасширенную базу знаний, по получению информации из нового ресурса. Также возникает вопрос о добавлении онтологий других предметных областей, обладающих недостаточным количеством семантических связей с общей онтологией для создания общего словаря терминов.
   Рассмотрим (Рис. 4) более сложную систему интеграции, использующую мультиагентный подход и, так называемое, семантическое хранилище.

Рисунок 4. Использование мультиагентного подхода и семантического хранилища

Рисунок 4. Использование мультиагентного подхода и семантического хранилища

 

    Семантическое хранилище, используемое в данном решении, применяется для агрегирования семантических данных в единой форме и предоставления централизованного доступа к ним. Система пользовательских запросов более не привязана непосредственно к онтологиям и респозиториям, а взаимодействует с семантическим хранилищем. Основную работу по наполнению и изменению информации в хранилище выполняют программные агенты, выполняя ту или иную обработку резпозиториев, причем они же обращаются к онтологиям, которые им необходимы. В случае добавления ресурса, обладающего новыми терминами, можно, в зависимости от объемов, либо расширять существующие онтологии с одновременной, если требуется, модификацией алгоритмов работы агентов, взаимодействующих с ними, либо создать дополнительную онтологию, программного агента, способного работать с ней, и представление информационного ресурса. Таким образом, программный агент выполняет функции отображения онтологий и адаптирования семантики информационного ресурса.

 

Инструментарий разработки онтологий


    На сегодняшний день доступно множество редакторов онтологий, позволяющих не только создавать иерархию классов, но и наполнять онтологию экземплярами, сохранять в форматах RDF, OWL, выполнять запросы к онтологии. Популярными редакторами являются Protege, Ontolingua, Chimaera.
    В качестве языка описания представлений информационных ресурсов следует использовать RDF (Resource Description Framework) или OWL (Web Ontology Language). Их применение обусловлено использованием в их основе расширенного языка разметки XML, что позволяет довольно просто публиковать описания ресурсов в веб-среде. 
    Базовый строительный блок модели данных RDF - утверждение, представляющее собой тройку или триплет: ресурс (экземпляр объекта), именованное свойство и его значение. Любая из этих частей может быть представлена либо просто строкой символов, либо соответствующим URI (Universal Recourse Identificator) универсальным идентификатором ресурса. Причем URI может быть как и URL так и указывать на объекты не находящиеся непосредственно в веб-среде, такие как базы данных, текстовые документы и.т.д.
    Следует сразу отметить, что язык RDF чрезвычайно выразителен, то есть позволяет делать утверждения о чем угодно и как угодно, даже если они противоречат другим утверждениям. Следовательно, нет никакой гарантии целостности и непротиворечивости RDF-описаний. Вся ответственность за проверку целостности ложится на получателей метаданных, то есть на разработчиков приложений обрабатывающих RDF.
OWL, как следует из названия, разработан специально для описания онтологий. Язык OWL строится на основе стандартов RDF и RDFS и обогащает предоставляемые ими возможности для описания свойств и классов. Например, для классов можно указывать, что они не пересекаются, указывать их кардинальность, определять эквивалентность заданных классов. OWL располагает более богатой системой типов. Он позволяет указывать характеристики свойств, такие как транзитивность, функциональность, инверсивная функциональность, симметричность, которые можно использовать при выводе новых фактов.
    Для дальнейшей работы с представлениями информационных ресурсов разрабатывается программа-агент, которая по команде пользователя инициирует тот или иной запрос, использую язык  SPARQL[Андреев А.М. и другие]. SPARQL - язык запросов информационных ресурсов в среде Веб в терминах их описания средствами стандарта RDF. Имеющиеся в настоящее время средства семантического описания информационных ресурсов Веб (стандарты RDF и OWL) не обладают какими-либо операционными возможностями, адекватными этому уровню представления информационных ресурсов Веб. Стандарт SPARQL восполняет этот пробел, позволяя извлекать данные по запросу из RDF-документа, а также вносить новые данные.

    К примеру, запрос, осуществляет выборку всех классов из онтологии:

Select ?y WHERE (?y, ?x, rdfs:Class )  using rdfs FOR <http://www.w3.org/2000/01/rdf-schema#>
    А следующий делает выборку всех свойств класса Person:
Select ?y  WHERE (?y, ?x, rdf:Property), (?y, rdfs:domain, on:Person ) using

rdfs FOR <http://www.w3.org/2000/01/rdf-schema#>,

rdfs FOR <http://www.w3.org/1999/02/22-rdf-syntax-ns#>,

on FOR < http://myOntology#>
    Его результаты можно впоследствии использовать при формировании запросов к респозиторию для получения значений всех свойств, определяющих какой-либо класс.
На сегодняшний день существует множество реализаций механизма работы с RDF ресурсами, среди них наиболее популярным и функциональным  является JENA - набор JAVA-классов, предоставляющий RDF API, OWL API, функции для выполнения SPARQL запросов.
    В итоге, имея представления информационных ресурсов в терминах предметной области и ее онтологию, можно разработать приложения - агенты, которые будут рассматривать это множество разнотипных источников данных, как единое информационное пространство, навигацию по которому будет обеспечивать онтология, а работу с ним SPARQL-движок приложения. Среди положительных моментов данного подхода следует отметить возможность легкого изменения информации (достаточно поменять представление в соответствии с изменением ресурса), ее постоянную актуальность (информации информация берется непосредственно из ее уникального источника), контроль доступа, легкое подключение новых источников.


Заключение


    Таким образом, подход к интеграции с использованием технологий Sematic Web в целом решает проблему информационной интеграции и лишен многих недостатков, присущих чисто техническим методам, и предоставляет возможность разработки приложений, работающих с информацией на семантическом уровне. Однако данный подход ориентирован в первую очередь на ресурсы, имеющие соответствующее представление собственной семантики, то есть особым образом подготовленные ресурсы, это является главной проблемой его применимости для проведения интеграции, так как обычной формой представления является документ с HTML - разметкой. В случае переориентации системы на интеграцию ресурсов не имеющих семантического представления потребуется применять семантический анализатор для генерации смыслового описания, что вызывает дополнительные вопросы о производительности такой системы, ее ресурсоемкости, а также релевантности полученного семантического представления авторскому смыслу информационного ресурса.
    Также нерешенной остается проблема повторного использования онтологий, а точнее устранения появляющегося при этом смыслового несоответствия. В случае использования мультиагентной системы мы лишь локализуем проблему в рамках конкретного агента, хотя это и облегчает ее, избавляя от необходимости выполнять отображение многих онтологий, но не решает полностью.
Остается открытым вопрос о структуре семантического хранилища. Агенты, как правило, будут работать с множеством ресурсов, и предоставлять результаты абсолютно разных задач, при этом некоторые из них будут, также и брать информацию из хранилища. Вследствие этого, необходимо разработать некое общее представление семантики собранной информации для обеспечения возможности хранения разнородных информационных единиц и обеспечения независимой разработки программных агентов, пользующихся одной и той же информацией из хранилища. 


Литература
  1. [Wache H. and others] Wache H., Vogele, U. Visser U., Stuckenschmidt H., "Ontology-Based Integration of Information - A Survey of Existing Approaches
  2. [Stuckenschmidt H.] Stuckenschmidt H., Visser U. Semantic translation based on approximate re-classication. Colorado, 2000.
  3. [Андреев А.М. и другие] Андреев А.М. Березкин Д.В. Рымарь В.С. Симаков К.В, "Использование технологии Semantic Web в системе поиска несоответствий в текстах документов" - Режим доступа: http://www.inteltec.ru/publish/articles/textan/rimar_RCDL2006.shtml
  4. Tim Berners-Lee, James Hendler, Ora Lassila Semantic web //The Semantic Web. Scientific American, May 17, 2001.
  5. Петр Михаленко, "Язык онтологии в Web" - Режим доступа: http://www.hotdoc.ru/?P=3&T=7&D=60;
  6. Зимин М., "История Semantic Web" - Режим доступа: http://www.semanticweb.narod.ru;
  7. Frank Manola, Eric Miller, "RDF Primer" - Режим доступа: http://www.w3.org/TR/xhtml-rdfa-primer;
  8. Leigh Dodds "SPARQL: Querying the Semantic Web" - Режим доступа: http://www.xml.com/pub/a/2005/11/16/introducing-sparql-querying-semantic-web-tutorial.html
  9. Zhan Cui, Dean Jones and Paul O'Brien - "Issues in Ontology-based Information Integration"- Режим доступа: http://www.csd.abdn.ac.uk/~apreece/ebiweb/papers/cui.pdf
  10. D. Bianchini, V. De Antonellis "Ontology-based Integration for Sharing Knowledge over the Web" - Режим доступа: http://www.doc.ic.ac.uk/~pjm/diweb2004/DIWeb2004_Part8.pdf
  11. Bernd Amann, Catriel Beeri, Irini Fundulaki, Michel Scholl "Ontology-Based Integration of XML Web Resources" - Режим доступа: http://cedric.cnam.fr/PUBLIS/RC327.pdf
  12. Maksym Petrenko, Hasan Jamil "Query Ontologies for Autonomous Online Resource Integration Systems" - Режим доступа: http://www.cs.wayne.edu/~max/docs/QueryOntologies.pdf
  13. Agustina Buccella and Alejandra Cechich "Towards an Ontology-based Integration of Federated Information Sources" - Режим доступа: http://dc.exa.unrc.edu.ar/wicc/papers/IngenieriaSoftware/102.pdf
Последнее обновление ( 02.10.2008 )