日記(ブログ)内のカテゴリを自動抽出して設定したい。いわゆるクラスタリングだと思うが、うまくできる方法がよくわからない。

動機としては「カテゴリ」とか「タグ」を設定するのが面倒なので、自動的にトピックを解析して「タグ」として抽出したい。既に TF-IDF は出しているので、上位を使えばよさそうな感じではあるが、IDF の対象が自分のエントリだけなので、一般的な「特徴語」とは違った結果になっている。

機械的にやるよりも例えば「電子工作」なら「Raspberry Pi」「電子工作」「回路」とかを含む全てのエントリを適当に検索して出せばいいだけかもしれない。かなりヒューリスティックなので自分にとっては「新しい発見」はないが、検索流入の場合は狙った似たトピックに辿りつきやすいかもしれない。

▲ この日のエントリ