| グーグル、日本語N-gramデータを公開 |
2007/11/02 |
直前の言葉から次に来る単語の頻度がわかることで、かな漢字変換、機械翻訳、OCRのエラー訂正、音声認識といった分野に応用できる。 公開されたデータは、日本語データを形態素解析エンジンの「mecab」を使用して分割し、1〜7個の単語の並びについて出現頻度20回以上のものが収録されている。... [INTERNET Watch]続きを見る ... グーグル、日本語N-gramデータを公開
Posted at 15:39 | この記事のURL
|