半角英数キーワードの定義

「半角英数キーワード」とは、半角英字および半角数字のみで構成されるキーワードであって、「単語一致の法則」が適用されるキーワードのことを言う。

単語一致の法則

半角英数キーワードは、前後に半角英数の文字種が連続している文字列を別の単語として認識し、自動リンクを発生させないしくみになっている。
ただし、"."や"/"などが連続している場合は、記号が単語の区切りとして扱われるため、自動リンクが発生する。

"AAA"は、"AAAA"や"ZAAAY"などの文字列には自動リンクを発生させない。
"AAA.A"や"AAA/A"、"AAA&A"などには、自動リンクが発生する。

一般論

半角英数キーワードは、「単語一致の法則」が適用されるため、文字列の一部に誤爆する「部分一致誤爆*1」の発生頻度は通常のキーワードよりも低い。
しかし、文字列によっては、日記での使用頻度が高いために、「同文字列異義語誤爆*2」が多数発生するおそれがある。例えば、英単語に存在する文字列であったり、数字だけで構成される文字列であったりする場合が考えられる。
また、通常のキーワードと同じく、キーワードの意味や解説の内容なども、キーワードを論じる際の事情として考慮すべきである。
従って、半角英数キーワードの是非を論じる場合には、「半角英数だけで構成される」という共通点のみをもって、その存在を論じるべきではない。各キーワードごとに、その存在意義を精査する必要がある。


一般的には、通常のキーワードと同じく、誤爆が多く(評議会にかけられた「スク」がボーダーラインとなるだろう)、解説が充実しておらず、解説に発展性が見込まれない場合(解説が誘導のみなど)には、削除対象として考慮すべきである。

*1:id:n_kakka:00000306#type1

*2:id:n_kakka:00000306#type2

半角英数キーワードのパターン

作成されうる半角英数キーワードは、いくつかの代表的パターンが存在する。

略語

"NHK"や"JR"など、別の言葉の略語として用いられる場合である。多くの場合、キーワード解説は誘導となっており、実質的な解説は誘導先のキーワードに記載されている。略称が正式名称よりも一般的な場合は、そのキーワードに解説が書いてある場合もある。
略語であり、解説が誘導である場合は、解説の発展性もほとんどなく、キーワードの辞書的役割が著しく低いと考えられる。

英単語など

"art"など、英語などの外国語の単語として作成される場合。多くの場合、解説は別の辞書からの転載である。短い文字列のものはほとんど存在しない。誤爆回避を目的として作られることも多い。

単語そのもの

"IS"など、略称ではなく正式名称である場合。解説はそのキーワードに書かれている。

文字種による分類

用いられている文字種によっても、分類することができる。

英字のみ

最も種類が多い。文字列の長さに比例して、誤爆が減少する。

数字のみ

"555", "802"など、数字のみで構成されるキーワード。二文字キーワードは存続が容認された例はない。三文字キーワードについては係争中である。

英字・数字混在

"F1"など、英字と数字が混在しているキーワード。"p1"などhtmlタグに誤爆した例を除けば、あまり誤爆が問題となる例は見られない。

二文字の数字キーワード

過去に18、19、24、42、69というキーワードが作成されたが、いずれも誤爆多数として削除された。実際、19のようにバンドの正式名称であるキーワードでさえも容認されなかったことを考えると、ユーザー間で「二文字の数字キーワードは登録すべきでない」という合意が形成されているように思われる。

三文字の数字キーワード

二文字の数字キーワードと異なり、各キーワードへの対応はまちまちである。現状では存続しているものが多い。このようにユーザー間の合意が見られない現状では、三文字の数字キーワード全体に対する是非を論じることは、無意味であると考えられる。
従って、ここでは一般論にならい、いくつかの個別事例から、考察を行うことにする。
なお、誤爆の多寡の基準は、評議会にかけられた「スク」を目安とする。(1日10〜20件、誤爆率50%以上)

100

列車の車両形式。解説は100系への誘導となっている。100という数字は車両形式以外に使われることの方が遥かに多く、実際に1日100件以上の誤爆を生んでいる。登録は現実的ではない。

171

災害用伝言ダイヤル。解説は誘導ではない。直近の言及を調べたところ、12/18〜12/24までで、誤爆率は100%だった。nozorinne氏の調査によっても、誤爆率は55/55で100%とのことである。リンクスコアも20程度であり、これ以上意図的に下げることは困難である。誤爆の頻度を考えると、削除して括弧付きへの移動がベターと思われる。

802

2つ作成されている。

  1. FM放送の周波数。解説はFM802への誘導となっている。
  2. 規格名。解説はIEEE802への誘導となっている。

直近の言及を調べたところ、12/18〜12/24までで、誤爆率は28%(キーワード自体への言及は除外)。内訳は、正解18(無線10、ラジオ8)、誤爆7、キーワード自体4。誤爆は散見されるが、この2つのキーワードで言及の7割をカバーしており、誤爆の絶対数誤爆率としては低い。リンクスコアで対応できるレベルではないだろうか。
ただ、論争発生後に802.11a802.11b802.11gが作成されており、これによって言及の捕捉のふるまいがある程度変化する可能性があることを注記しておく。

結論

三文字の数字キーワードは、多くの場合誤爆を多数発生させることがあり、登録することは好ましくない。
ただ、誤爆の可能性が多くない(50%未満であることが最低条件)と判断される場合(解説も辞書的役割が認められることが望ましい)に、誤爆率調査を行うことを前提として、登録が容認されることもわずかながらあるだろう。