4.2
データの形式
少なくとも、セマンティックWeb技術の進化に於けるデータ構造の観点において、如何なるアプローチがネイティブでない処理の為にデータを記述しデータを提供するのに用いられるべきかを考える上で、データの構造は非常に重要な問題である。企業のデータセットは、多くの様式と構造を持っている。企業のデータは、テキストファイルとオブジェクトの間の差異のように、内部のバイナリ形式が異なっているのみならず、その情報は特定の構造と表現の中に組み込まれている。データ構造は、極度に非構造なものから高度に構造化されたものまで色々である。
図 6: データ構造の種類
(From Pollock and Hodgson, 2004)
構造化データはこれらのデータの中で最も組織化されたものである。一般に、構造化データはタイプ、長さ、テーブル、制約のようなメタデータ定義を有する。構造化データの例として関係データベースモデル、オブジェクトモデル、XML文書などがある。通常、構造化データは機械処理や機械利用の為に生成される。
非構造データとは、既存の知識の延長線上もしくは組織の普遍形式によって意味を交換可能なデータ固有の構造または(明確なレイアウト規則に則った)関係を有しないデータを言う。その良い例が、自由形式の文字列から成る文書であり、その記述方法は任意であり、題名や著者名を除けば、他の文書との関連を定義する如何なるメタデータも構造も無い。非構造データは、主に人間向けに作られ、機械の場合(特にインターネット時代において)、強力な機能を用いなければ非構造データの意味を理解する事ができない。
半構造化データは、構造化データと非構造データとの中間のものであるが、その境界は曖昧で、それを明示的に示すことはできない。多くの場合、半構造化データは、組織化されてはいるが、高度な連携手法では明示的に定義されていないデータだと思われている。既存の半構造化データの例には、EDI、CSV(comma separated value)プロパティデータファイル、PostScriptファイル、HTMLファイルなどの位置で意味を示しているテキストメッセージがある。半構造化データは、一時的に使われるデータ(あるシステムから他のシステムに譲渡されるデータ)や特別な処理目的で且つ蓄積する事を想定していないデータに使われる事が多い。(Pollock and Hodgson, 2004)
データの形式は、ある特定のデータアイテム若しくはデータ自体を記述するのに、そのデータの構造及び意味に付いての情報を公開するのに、また、他のデータ要素もしくはデータと連携するのに、どの様なアプローチを用いるべきかに直接関わっている。セマンティック技術の本質は、色々な形式のものに横断的に作用できることである。例えば、米国本土の安全情報共有環境の場合、用語の矛盾、定義、電子メールの中のデータ、RSSのデータ、メモ若しくは報告書が、格納されたデータや、または、構造化データベース及び他の高度に構造化された形式から取り出されたデータと一致させる事ができる必要がある。