国語研とワークスの産学共同研究「日本語単語分散表現」モデルを無償公開

学習・教育

ワークスアプリケーションズは22日、国立国語研究所と産学共同研究を実施し、国語研が有する日本語データベース「国語研日本語ウェブコーパス(NWJC)」と、ワークス徳島人工知能NLP研究所の形態素解析器「Sudachi」を使って学習した、実用的な単語分散表現モデルを開発したことを明らかにした。

「単語の分散表現」(単語のベクトル表現ともいう)とは、単語の周辺文脈から単語間の関連性や類似性を機械学習して高次元のベクトルとして表現(数値化)したもの。深層学習などの技術においてコンピュータが日本語を意味解析・意味理解する上で欠かせない自然言語処理の基礎技術となる。日本語の単語分散表現モデルは、「単語の区切り」が明示されないといった特殊性や、学習データの不足などが課題となり、実用化にいたる研究は英語などに比較して遅れをとっていると言われる。

今回の共同研究では、「Sudachi」を使用して複数の粒度で分割したコーパスを同時に学習することで、人名や地名、ブランド名、企業名、サービス名などの固有表現の収録数を大幅に拡大。加えて、語の内部構造を考慮して類似度や相関度を学習することで実用性を向上させた。

このたび、第1弾として「複数粒度の分割結果に基づく日本語単語分散表現」モデルを商用利用可能なオープンデータとして無償公開した。同社では、同単語分散表現モ……(中略)…… tor/" target="_blank">「複数粒度の分割結果に基づく日本語単語分散表現」モデルの公開

記事の全文を見る⇒(ICT教育ニュース)

「本気でプログラミング・スキルを習得させること」を追求した“Webスキルのパーソナルジム”【WebCamp】
プログラミング学習において、「継続」は大事な要素の一つです。継続さえしていれば必ず…
受かる人は、ひとりで勉強する?資格試験のオンライン学習サービス「資格スクエア」
予備試験や司法書士試験などの難関試験ではゼミや予備校を活用して勉強をする方の割合が…
小学校のプログラミングが必修になるって本当?ヒューマンキッズサイエンス「ロボット教室」
2020年から小学校でプログラミング教育が必修になります。文部科学省は、早期からコンピュータに触れることを通じて…
学習・教育
大阪府【高校受験2020】大学入試改革の影響と合格への近道

 2020年度の大阪府公立高校入試が実施される2020年3月11日まで100日余りとなった。大阪府公 …

学習・教育
浪速中高、『すらら』軸にしたICT三本柱で相乗効果

【PR】 組み合わせで相互補完する三本柱 ICT教育には、指導業務や学習の効率化などさまざまなメリッ …

学習・教育
【中学受験2020】SAPIX、第3回合格力判定偏差値(11/10実施)筑駒71・桜蔭62

 SAPIX(サピックス)小学部は、2019年11月10日に実施した小学6年生対象の「2019年第3 …