国語研とワークスの産学共同研究「日本語単語分散表現」モデルを無償公開

学習・教育

ワークスアプリケーションズは22日、国立国語研究所と産学共同研究を実施し、国語研が有する日本語データベース「国語研日本語ウェブコーパス(NWJC)」と、ワークス徳島人工知能NLP研究所の形態素解析器「Sudachi」を使って学習した、実用的な単語分散表現モデルを開発したことを明らかにした。

「単語の分散表現」(単語のベクトル表現ともいう)とは、単語の周辺文脈から単語間の関連性や類似性を機械学習して高次元のベクトルとして表現(数値化)したもの。深層学習などの技術においてコンピュータが日本語を意味解析・意味理解する上で欠かせない自然言語処理の基礎技術となる。日本語の単語分散表現モデルは、「単語の区切り」が明示されないといった特殊性や、学習データの不足などが課題となり、実用化にいたる研究は英語などに比較して遅れをとっていると言われる。

今回の共同研究では、「Sudachi」を使用して複数の粒度で分割したコーパスを同時に学習することで、人名や地名、ブランド名、企業名、サービス名などの固有表現の収録数を大幅に拡大。加えて、語の内部構造を考慮して類似度や相関度を学習することで実用性を向上させた。

このたび、第1弾として「複数粒度の分割結果に基づく日本語単語分散表現」モデルを商用利用可能なオープンデータとして無償公開した。同社では、同単語分散表現モ……(中略)…… tor/" target="_blank">「複数粒度の分割結果に基づく日本語単語分散表現」モデルの公開

記事の全文を見る⇒(ICT教育ニュース)

「本気でプログラミング・スキルを習得させること」を追求した“Webスキルのパーソナルジム”【WebCamp】
プログラミング学習において、「継続」は大事な要素の一つです。継続さえしていれば必ず…
受かる人は、ひとりで勉強する?資格試験のオンライン学習サービス「資格スクエア」
予備試験や司法書士試験などの難関試験ではゼミや予備校を活用して勉強をする方の割合が…
小学校のプログラミングが必修になるって本当?ヒューマンキッズサイエンス「ロボット教室」
2020年から小学校でプログラミング教育が必修になります。文部科学省は、早期からコンピュータに触れることを通じて…
学習・教育
年長で勉強する算数はどこまで?小学校入学までに準備したい算数学習

<!– –> 小学校入学前にする算数の準備は? 年が明けるとあっ …

学習・教育
千葉県、初開催「親子料理コンテスト」簡単朝食レシピ募集

 千葉県は「親子料理コンテスト」のレシピを2020年8月3日から募集する。子どもが調理に関わり、千葉 …

学習・教育
Tech Fun、「教育担当者は通学受講の方がいい」アンケート結果

Tech Funは、直営のITスクールで今年4月~6月に受講した法人の受講者および教育担当者を対象に …