| グーグルが日本語N-gramデータを公開 |
2007/11/01 |
かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。 公開したのはグーグルがWebサイトから抽出した約200億文(約2550億単語)の日本語データから作成したN-gramデータ(1〜7gram)。データは特定非営利活動法人 言語資源協会を通じて配布しており、団体・個人の区別なく利用できる。... [@IT]続きを見る ... グーグルが日本語N-gramデータを公開
Posted at 22:08 | この記事のURL
|