日本語の処理を向上

10月9日(金)、株式会社ワークスアプリケーションズ(以下、ワークス)は、ワークス徳島人工知能NLP研究所(以下、NLP研究所)が開発した日本語言語処理資源「SudachiDict」および「chiVe」をOpen Data on AWSにて公開したことを発表しました。

ワークスは大手企業向けERPパッケージソフトの提供で知られる企業であり、NLP研究所はワークスが徳島県に開設した自然言語処理に特化した研究機関です。

「SudachiDict」および「chiVe」を利用すると、コンピュータによる日本語の処理が向上し、企業内に眠る様々なデータの解析や活用が促進されます。

全文検索などの用途にも

290万語以上の語彙を収録する「SudachiDict」は、高品質な日本語自然言語処理のための辞書としての機能を備えています。

文章の区切りを3種類用意することで日本語処理を最適化している点や、文字種の違いをはじめとした表記パターンを正規化し、統一的に扱っている点が特徴です。

収録語に同義語の情報を付与しているため、全文検索などの用途に利用できる点も「SudachiDict」の魅力といえます。

また「chiVe」は、国立国語研究所による超大規模なコーパス「NWJC」にて学習した大規模な単語分散表現リソースです。

(画像はプレスリリースより)

▼外部リンク

「SudachiDict」および「chiVe」をOpen Data on AWSで公開開始
https://prtimes.jp/main/html/rd/p/000000178.000011485.html