期せずして、短い期間で「今、なが〜い文書を書いてるんだけど、誤脱チェック出来るサービス無いかな」だったり、サイト内の日本語検索がうまくいかない、など同じ様なネタが話題にあがりました。英語の場合は単語間にスペースがあり表記もアルファベットなので文章の分解もかなり進んでいますが、日本語の場合はひらがなカナ漢字があり、1文からの正誤判断は出来ません。例えば「料理がうまい」の場合、上手い、旨い、美味い、ウマい、巧い、など「うまい」だけでも、前後の文脈が必要、更に文脈があったとしてもどの漢字が適切かは曖昧だったりします。メジャーな形態素解析は英語圏が基準のため日本語の場合は文法などもそれにあったカスタマイズが必要になりますし、そもそも日本語の場合は主語が省略されていたり、無かったり、古文の時代から一文が果てしなく長く、気を抜くと現代でもダラダラとながい文章が出来上がります。それらを「理解」には、AIで膨大な学習データ用意してホゲホゲだけじゃなくって何か画期的な考え方が必要だよね、ってことで話は終わってしまったのですが、文章の誤脱チェックのお話。サイト内検索に限って言えば、「候補を羅列」出来ればいいので、ある程度の学習がすすんだAIであれば、「料理がうまい」は「美味い」を使う人が多いから、それ優先的に出すかな?的なことが自分らでも作ることが出来そうです。google検索も最初はかなりの力技を使っていたと聞きかじったことがありますし、googleカーも世界中を旅しています。そう言えば深夜帯にロレツの回らなくなった理系大学の先生が「もう暇な学生100人閉じ込めてやらすのがいいんだよ」的なことを言っていましたがスタートは案外そういうとこからなのかもしれません。

映像制作会社である万屋物産では、業務拡大に伴いスタッフを募集しています。撮影や編集スタッフはもちろん、誤脱チェックに地震がある方からの応募を心よりお待ちしています。