View Tomoaki Sawada's profile on LinkedIn Share
Locations of visitors to this page

UIMA 101: 前編 – UIMAことはじめ

レベル: 入門

菅野 啓<!-- (xxx)--> , 事業開発推進 グローバリゼーション技術/ソフトウェア開発研究所2007年3月9日


世の中にひしめく多数のデータのうち8割は構造化されていないデータ(非構造化データ)として存在していると言われています。UIMAはこれらの非構造化データの取り扱いに対して、IBMが示した解のひとつです。本稿ではUIMAの概要を紹介すると共に、サンプルのテキスト分析エンジンを動かしながらUIMAコンポーネントの構成を解説します

http://www-06.ibm.com/jp/developerworks/ysl/library/y-uima101a/index.shtml

はじめに

データベースやXMLのように諸要素の定義や構成が明確なものは構造化データと呼ばれており、コンピュータ処理の容易さからデータ管理、検索、統計など様々な面での活用技術が開発されてきました。しかし、非構造化データは自由な形式で表現されており、そこに含まれる要素は前後の関係によって定義されているために、これらを有効に活用するのは難しいのが現状です。実際、私たちの身近にあるメールや書類、動画の中に「どのような情報」が「どこに」あるのかは、見て・聴いて・観てみないと分からないことがほとんどです。

UIMAは分析・体系化などを通じて非構造化データから構造的なデータへの橋渡しの役目を果たします。例えばテキストデータの場合、言語判定、単語抽出、正規化、関係性認識などの分析を経て、構造化された検索のインデックスを作成するといった利用がされています。対象となるデータはテキストに限らず、音声、イメージ、動画などさまざまなものを想定しています (図 1)。


図1. UIMA 利用のイメージ (UIMA SDK User's Guide and Reference より抜粋)