誤爆に関する考察 第二版

誤爆というものを考えてみる。この文章は私の個人的解釈です。
ちなみに私はキーワードによる自動リンクができるだけ多い方がいい、すなわちキーワードは多ければ多いほど良いと思っています。それらの自動リンクがより正しく正確に働くために、誤爆による意図しないリンクはできる限り排除すべきである、というのが理想なのですが、私一人が頑張ったところで誤爆が撲滅できるわけもありませんので、最近は降りかかる(降りかかりそうな)火の粉だけ避ける方針で頑張ってます。

なお、私の日記のスコア設定は0です。
不十分・不適切な表現もあるかと思いますが、ご了承下さい。読みにくい文章ですみません。ご意見を頂ければ幸いです。
第二版:モデレーションシステムの誤爆への有効性、捕捉誤爆について追加しました。(2004/9/28)

文章中の用語の定義

  • 誤爆キーワード  誤爆を発生させているキーワードのこと
  • 被誤爆語  誤爆キーワードによって誤爆が発生している単語・文。誤爆対象とも表現する。
  • 誤爆回避キーワード  誤爆を回避するために新たに登録された(またはしようとする)キーワード
  • 自動リンク誤爆  キーワードの自動リンク機能による誤爆(次項で詳しく説明)
  • 捕捉誤爆  キーワードの「含む日記」機能による誤爆(次項で詳しく説明)
  • あまりに一般的なキーワード  id:n_kakka:00000306#type3参照

誤爆の問題点

誤爆によって生じる弊害については、以下のものが挙げられる。

  1. 正しいキーワードによる自動リンクを阻害する(自動リンク誤爆
  2. 各ダイアリーの見栄えを悪くする(自動リンク誤爆
  3. 「〜含む日記」に誤爆キーワードによるリンクが含まれてしまう(捕捉誤爆

誤爆」の定義から導かれる弊害は1と2である。ただキーワードの性質として、捕捉による意図しないリンク発生も問題となることが多いのが現状である。
なお、一般的に「誤爆」と言う場合には「自動リンク誤爆」を指す場合が多いが、場合によっては「捕捉誤爆」を指すこともあるので、十分注意が必要である。この文章での「誤爆」は主に「自動リンク誤爆」を指すこととし、必要なときには「自動リンク誤爆」「捕捉誤爆」の用語を用いて区別する。
はてなキーワードモデレーションシステム導入時に、キーワードの存在意義について次の2点を挙げている。(id:hatenadiary:20040607#1086579423)

  1. 同じキーワードを使っている日記を探しだすことができる(自動リンクシステム的側面
  2. キーワードについての有益な情報を得ることができる(辞書・百科事典的側面)

誤爆によって生じる弊害を考慮すると、誤爆の多いキーワードは、特に自動リンクシステム的側面について、誤爆によって存在意義が損なわれてしまっていると言える。これこそが誤爆の問題点である。

誤爆回避策

現在提唱されている誤爆回避策としては、次の方法がある。

  1. 誤爆語のキーワード登録
  2. 誤爆キーワードを削除+括弧付きでの再登録
  3. 誤爆キーワードの削除
  4. 誤爆キーワードのスコアを0にする
  5. 自動リンクを許可するスコアを、誤爆キーワードがリンクされない値まで上げる
  6. 「キーワードの編集」による自動リンク解除
  7. 空の一重大括弧[]で囲むことによる自動リンク解除
  8. 誤爆部分を誤爆しないように書き直す

1→2→3の順に他のユーザーへの影響が大きくなる。
4は、誤爆キーワードの自動リンクを(誤爆・正常問わず)防ぐ効果がある。従って、辞書的意味を主な登録目的とするキーワードに対して、登録時に行う処理として有効である。しかし、一人でも「リンク可」に投票する人がいると、スコアは0にならず成立しないので、あまり実用的な誤爆回避策ではない。
5〜8は、各ユーザーの日記上において個人の判断で行ってもらう回避策である。5は日記全体に効果が及ぶのに対し、6〜8は個別の誤爆箇所への対応である。

キーワードモデレーションシステムによる誤爆回避の有効性

キーワードに関するいろいろな意見の住み分けを図る目的で、キーワードモデレーションシステムが導入された。キーワードモデレーションシステム導入時のはてなのアナウンス(id:hatenadiary:20040607#1086579423)によれば、問題点として以下の2点が挙げられている。

  • 名詞の中には、キーワードとして不適切であると多くのユーザーが考える言葉が含まれる(あまりに一般的な普通名詞など)
  • 名詞以外にもキーワードとして有益な言葉が存在する

これらの問題を解決するためにモデレーションシステムが導入されたことから、その主たる目的は

であり、誤爆回避のためではなかったと考えられる。
ただ、「誤爆」の主な弊害の一つとして「キーワードの自動リンクが邪魔である」と言うことが挙げられる。従ってモデレーションシステムの導入に際し、誤爆問題の解決も1つの目的であったと考えるのは妥当である。
しかし、モデレーションシステムが誤爆を解決する完全な手段かと言うと疑問符がつく。
モデレーションシステムによる自動リンク制御は、キーワードのスコアを用いて行い、またその範囲は日記全体に及ぶ。そのため、あるキーワードAの自動リンクを停止しようとすると、Aよりスコアが低い他のキーワードも自動リンクが停止してしまう。これは「なっち」「さんま」のような比較的スコアの高いキーワードに対しては効果的でないことを示唆する。また、捕捉誤爆に対してはまったく効果がない。
ただ利点も多い。日記の閾値を操作するだけで、スコアの低い多数の誤爆キーワードを排除できることは、ユーザーにとって非常に簡便である。また現在、誤爆を多数誘発するキーワードや、「あまりに一般的なキーワード」はスコアが低く誘導される傾向がある。このことから、誤爆回避に対してある一定の効果はあると言える。
以上のことから、モデレーションシステムは誤爆を完全に解決する方法ではないが、個々のユーザーからのアプローチとしては、誤爆回避の有効な手段であることは確かである。

誤爆回避を図る上での留意点

まず第一に、誤爆キーワードにも存在意義があるということを留意しなければならない。(誤爆の程度にもよるが)あまり効果が期待できないものの自動リンクシステム的側面を持っている場合もあるし、辞書・百科事典的側面については誤爆と関係なく存在意義がある。これらのことを念頭に、誤爆回避をして頂きたい。

誤爆回避キーワードの登録
この回避策を効果的に行うためには、はてな自動リンクのふるまい(性質)を多少なりとも知っておく必要がある。
削除
誤爆を完全に回避するためには、削除もしくはキーワードのスコアを0にする必要がある。しかし、削除は往々にしてトラブルの元となる。誤爆キーワードの持っているメリットもすべて奪い去ってしまうからである。削除は他の回避策が尽きた時の最終手段であり、安易な削除は慎むべきである。
スコア操作
キーワードのスコアの操作による誤爆回避は、多数のユーザーの協力が必要であるため、案外難しい。ただ、個々のユーザーが日記の閾値操作で対応することはある程度有効である。キーワードのスコアを0にする回避策については、先ほど述べたので割愛する。

自動リンク誤爆の種類

自動リンク誤爆には様々な種類があるが、大きく分けると次の3種類に分類される。

  1. 別の単語への誤爆
  2. 「同文字列異義語」への誤爆
  3. いわゆる「あまりに一般的なキーワード」による誤爆

別の単語への誤爆

別の単語への誤爆は、さらに分類することができる。
まず、どのような形態で誤爆するかで分類できる。

  1. 1つの単語への部分一致誤爆
  2. 複数の単語にまたがる誤爆

また、誤爆対象によっても分類できる。

  1. 活用しない自立語への誤爆(名詞・形容動詞語幹・代名詞など)
  2. 誤爆対象に活用する自立語、付属語を含む誤爆(動詞・形容詞・助詞・助動詞など)
  3. 擬音・意図的誤表記への誤爆

これらの組み合わせによって、誤爆の性質が異なるため、分けて論じることにする。

  部分一致 複数単語
非活用自立語のみ A B
活用自立語・付属語を含む C D
擬音・意図的誤表記 E

A.非活用自立語への部分一致誤爆

最も単純なパターン。誤爆回避策としては被誤爆語をキーワード登録するのが最善策である。ただし、被誤爆語が名詞でない場合(副詞・連体詞・接続詞など)は、キーワードとしての有用性に問題がある場合が多いので、登録の際には注意を要する。
また、「スト」「リティ」など、被誤爆語が非常に多くの種類にわたる場合がある。特に「スト」は1日に300件以上もの誤爆を生んだ非常に悪質な例である。このような場合は、手動で誤爆回避キーワードを登録するコストを考えると、キーワード登録による誤爆回避は非現実的である。この場合は当該キーワードを削除することも検討しなければならないだろう。

B.複数の非活用自立語にまたがる誤爆

主に複合語への誤爆が考えられる。(例:「デラックスコーナー」への「クスコ」の誤爆
複合語の使用頻度が高く、一語として扱ってよいと思われる場合は、Aと同じく被誤爆語のキーワード登録が有効である。そうでない場合は他の誤爆回避策を検討することも必要である。

C.活用自立語への部分一致誤爆

動詞・形容詞の語幹への誤爆がありうる。(例:「なっち」)
通常活用語の登録は、ユーザー間で同意を得られないので慎むべきであるが、誤爆回避キーワードとしての登録は、現状では比較的容認されているようである。(例:「なっちゃう」「なっちまう」)
なお、付属語への部分一致誤爆はまずありえないので割愛する。

D.複数の活用自立語・付属語を含む単語群にまたがる誤爆

複数の単語にまたがる誤爆の内、被誤爆語に活用自立語・付属語を含む場合。
このタイプの誤爆は、ほとんどの場合2文節以上にまたがって誤爆するため、文脈を破壊するおそれがある。被誤爆語の登録による回避は不可能であることが多く、時には削除もやむを得ない場合がある。特に誤爆対象に付属語を含んでいる場合(例:「のの」)は、同様の誤爆を大量に生む恐れがあり、早急な対処が望まれる。ただスコアが十分低いならば、影響は少ない。

E.擬音・意図的誤表記への誤爆

擬音やわざとカタカナで書くなどといった表記に対する誤爆である。このタイプは、形態素解析を行っている検索エンジン等でも誤爆する場合があり、単純に抽出を行っているはてなでは誤爆を防ぐすべはない。ただ、カタカナだけで構成されるキーワードは、比較的このタイプの誤爆を生みやすいので、登録の際の配慮が求められる所である。

まとめ

Dについては、場合によっては削除を伴う回避手段も容認されるべきだが、その他のケースにおいては、トラブルを避けるためにも削除はできる限り避けることが望ましい。
ただし「スト」のような悪質な誤爆キーワードの場合は、費用対効果を見極めながら、最善の回避策を取るべきである。

「同文字列異義語」への誤爆

同じ文字列でありながら、異なる意味を複数持つキーワードにおいて起こる誤爆のことである。主に固有名詞が同じ文字列を持つ普通名詞に誤爆することが多い。(例:「人生」次元」)
キーワードの名詞制限が撤廃された現在では、文または語句に対してこのタイプの誤爆が起こる例も見つかっている(例:「本当のこと」「間違いない」)
このタイプにおける一番の問題点は、それぞれ異なる意味のキーワードについて言及した日記が、1つの「〜を含む日記」にリンクされてしまうことである。
回避策としては

がある。前者は3つ以上の異なる意味を持つ単語に対しては有効でない。後者については「〜含む日記」へは影響しないので、捕捉に対して効果的ではないが、各キーワードのスコアが異なること、さらにカテゴリー分けを併用すれば、各日記における自動リンク誤爆の防止には役立つ。

「あまりに一般的なキーワード」による誤爆

単独では抽象的な辞書的意味しか持たない単語が、各日記で使われることによって、個々の文脈に即した特別な意味を付加されることをいう。主に非物質名詞で起こる。
ただし、そもそもこれが誤爆であるかどうかについて議論があることを付け加えておく。ここでは、誤爆であると考える人がいたという事実から、誤爆に含めている。
このタイプは、最近では「意味」において起こった議論で表面化した。「意味」については他にもさまざまな論点があるが、ここでは「誤爆」という観点からのみ論じる。
キーワードによるつながりという点において、「辞書的には同じ意味だが、個々の文脈に即した意味まで考えると本当に同じ意味のキーワードとしてつながっているのか」という疑義が生まれた。しかもこのタイプの「誤爆の基準」(同じ意味だと考える基準)は人によって異なるため、それが問題の解決を難しくした。
このタイプへの対処法はこれまで削除以外に有効なものがなかったが、キーワードモデレーションシステムの導入によって、一般的すぎるキーワードはスコアが低く誘導された。その結果、各ユーザーが日記のスコアを操作することによって自動リンクを回避できるようになった。これにより、かなり不満は減少したように思われる。

「喜ん」「暑い」についての考察

先般、「喜ん」「暑い」についてはてなダイアリー評議会が開催され、投票の結果両者とも削除されることが決定した。これを誤爆という観点から考察する。
「喜ん」と「暑い」はともに活用する自立語(つまり用言)であるが、前者は連用形撥音便、後者は終止形というところが大きく異なる。従って、考察もそれぞれ別に行わなければなるまい。

「喜ん」
この単語は一語で文節を構成することができない。従って、自立語ではあるが「不完全な」単語である。このことから、「喜んだ」「喜んで」などは全て誤爆であるという考え方ができる。
「暑い」
この単語は終止形であるため、「完全な」自立語である。従って「意味」と同様に考えることが出来るだろう。

投票においては、「喜ん」が削除が圧倒的多数だった(存続:削除:どちらでもよい=39:481:63)のに対し、「暑い」は存続が削除の約4割の得票(存続:削除:どちらでもよい=137:329:141)であった。このことは、上のような両者の単語としての性質の違いも影響しているのではないだろうか。

二文字キーワードについて

キーワードは、その性質上文字数が少ないほど自動リンクが発生しやすいのは明らかである。文字種の使用頻度を考慮すると、ひらがなやカタカナだけで構成される(または含まれる)二文字キーワードは、文字数の多いキーワードよりも誤爆可能性が格段に高くなる。そのため、二文字キーワードを登録する際は、通常のキーワード登録よりも厳格に誤爆可能性を考慮しておく必要がある。
特に、助詞・助動詞に用いられるひらがな(て、に、を、は、etc...)を含む二文字単語の場合は、それらを含む複数の単語への誤爆を引き起こす恐れがあるため、キーワード登録は厳に慎むべきである。
なお、半角英数については単語単位でしかヒットしないため、二文字キーワードといえども劇的に誤爆可能性が変化するわけではない。ただし半角英数以外に別の文字種を含む場合は、単語単位ヒットの法則からはずれることは注意したい。
また、一文字のキーワードはシステム的に登録できないようになっている。

参考文献

次回改版予定


私の意見

id:n_kakka:20040630#1088566269などから加筆再掲。実際はこんなにうまくいかないのが現状なんですがね。
要するに双方とも誤爆状況を調べるべき、ということが言いたいわけです。いきなり削除は険がたちすぎる。

  • 誤爆を理由に削除しようとする人へ
    • まず誤爆が削除理由にならないと思う人がいることを考えてください
    • どういうタイプの誤爆が多いのかまず調べてみましょう
    • 登録者に頼んでスコアを0にすることはできませんか?(リンク可が1票しか入っていない場合)
    • 誤爆回避キーワード登録で対応できませんか?
    • スコアが十分低ければ、放置しても影響は少ないとは思いませんか?
    • それでも無理なら、最終手段として削除もやむなしなのかも知れません。括弧付きの再登録で我慢してもらえるか交渉してみましょう
  • 誤爆は削除理由にならないと言う人へ
    • まず誤爆が削除理由になると思う人がいるということを考えてください
    • 問題となっている(登録しようとする)キーワードが誤爆するかどうか考えてください
    • もし大量の誤爆が容易に予測できるなら、登録を控えるか削除した方が良いかも知れません
    • しかし登録者が誤爆回避の努力を見せることで、相当程度トラブルは回避できます

><