別の単語への誤爆
別の単語への誤爆は、さらに分類することができる。
まず、どのような形態で誤爆するかで分類できる。
また、誤爆対象によっても分類できる。
これらの組み合わせによって、誤爆の性質が異なるため、分けて論じることにする。
部分一致 | 複数単語 | |
非活用自立語のみ | A | B |
活用自立語・付属語を含む | C | D |
擬音・意図的誤表記 | E |
A.非活用自立語への部分一致誤爆
最も単純なパターン。誤爆回避策としては被誤爆語をキーワード登録するのが最善策である。ただし、被誤爆語が名詞でない場合(副詞・連体詞・接続詞など)は、キーワードとしての有用性に問題がある場合が多いので、登録の際には注意を要する。
また、「スト」「リティ」など、被誤爆語が非常に多くの種類にわたる場合がある。特に「スト」は1日に300件以上もの誤爆を生んだ非常に悪質な例である。このような場合は、手動で誤爆回避キーワードを登録するコストを考えると、キーワード登録による誤爆回避は非現実的である。この場合は当該キーワードを削除することも検討しなければならないだろう。
B.複数の非活用自立語にまたがる誤爆
主に複合語への誤爆が考えられる。(例:「デラックスコーナー」への「クスコ」の誤爆)
複合語の使用頻度が高く、一語として扱ってよいと思われる場合は、Aと同じく被誤爆語のキーワード登録が有効である。そうでない場合は他の誤爆回避策を検討することも必要である。
C.活用自立語への部分一致誤爆
動詞・形容詞の語幹への誤爆がありうる。(例:「なっち」)
通常活用語の登録は、ユーザー間で同意を得られないので慎むべきであるが、誤爆回避キーワードとしての登録は、現状では比較的容認されているようである。(例:「なっちゃう」「なっちまう」)
なお、付属語への部分一致誤爆はまずありえないので割愛する。
D.複数の活用自立語・付属語を含む単語群にまたがる誤爆
複数の単語にまたがる誤爆の内、被誤爆語に活用自立語・付属語を含む場合。
このタイプの誤爆は、ほとんどの場合2文節以上にまたがって誤爆するため、文脈を破壊するおそれがある。被誤爆語の登録による回避は不可能であることが多く、時には削除もやむを得ない場合がある。特に誤爆対象に付属語を含んでいる場合(例:「のの」)は、同様の誤爆を大量に生む恐れがあり、早急な対処が望まれる。ただスコアが十分低いならば、影響は少ない。
E.擬音・意図的誤表記への誤爆
擬音やわざとカタカナで書くなどといった表記に対する誤爆である。このタイプは、形態素解析を行っている検索エンジン等でも誤爆する場合があり、単純に抽出を行っているはてなでは誤爆を防ぐすべはない。ただ、カタカナだけで構成されるキーワードは、比較的このタイプの誤爆を生みやすいので、登録の際の配慮が求められる所である。
まとめ
Dについては、場合によっては削除を伴う回避手段も容認されるべきだが、その他のケースにおいては、トラブルを避けるためにも削除はできる限り避けることが望ましい。
ただし「スト」のような悪質な誤爆キーワードの場合は、費用対効果を見極めながら、最善の回避策を取るべきである。