国語研とワークスの産学共同研究「日本語単語分散表現」モデルを無償公開

学習・教育

ワークスアプリケーションズは22日、国立国語研究所と産学共同研究を実施し、国語研が有する日本語データベース「国語研日本語ウェブコーパス(NWJC)」と、ワークス徳島人工知能NLP研究所の形態素解析器「Sudachi」を使って学習した、実用的な単語分散表現モデルを開発したことを明らかにした。

「単語の分散表現」(単語のベクトル表現ともいう)とは、単語の周辺文脈から単語間の関連性や類似性を機械学習して高次元のベクトルとして表現(数値化)したもの。深層学習などの技術においてコンピュータが日本語を意味解析・意味理解する上で欠かせない自然言語処理の基礎技術となる。日本語の単語分散表現モデルは、「単語の区切り」が明示されないといった特殊性や、学習データの不足などが課題となり、実用化にいたる研究は英語などに比較して遅れをとっていると言われる。

今回の共同研究では、「Sudachi」を使用して複数の粒度で分割したコーパスを同時に学習することで、人名や地名、ブランド名、企業名、サービス名などの固有表現の収録数を大幅に拡大。加えて、語の内部構造を考慮して類似度や相関度を学習することで実用性を向上させた。

このたび、第1弾として「複数粒度の分割結果に基づく日本語単語分散表現」モデルを商用利用可能なオープンデータとして無償公開した。同社では、同単語分散表現モ……(中略)…… tor/" target="_blank">「複数粒度の分割結果に基づく日本語単語分散表現」モデルの公開

記事の全文を見る⇒(ICT教育ニュース)

「本気でプログラミング・スキルを習得させること」を追求した“Webスキルのパーソナルジム”【WebCamp】
プログラミング学習において、「継続」は大事な要素の一つです。継続さえしていれば必ず…
受かる人は、ひとりで勉強する?資格試験のオンライン学習サービス「資格スクエア」
予備試験や司法書士試験などの難関試験ではゼミや予備校を活用して勉強をする方の割合が…
小学校のプログラミングが必修になるって本当?ヒューマンキッズサイエンス「ロボット教室」
2020年から小学校でプログラミング教育が必修になります。文部科学省は、早期からコンピュータに触れることを通じて…
学習・教育
小学生から参加可、東京大学「学習まんがの意義と影響」11/2

 東京大学は2019年11月2日、東京大学柏の葉キャンパス駅前サテライトにて、公開シンポジウム「学習 …

学習・教育
新卒エンジニア、内定承諾の決め手は「成長できる環境」=レバテックルーキー調べ=

ITエンジニア専門新卒向け就職支援エージェントのレバテックルーキーは19日、2020年入社予定の新卒 …

学習・教育
アゴス・ジャパン「MBA・大学院・大学留学を知る1日」10/14

 アゴス・ジャパンは2019年10月14日、高校生や大学生、大学院生などを対象とした無料イベント「M …