写真にもっとメタデータを書いておかないといけないんだろうけど、面倒くさくて無理なんだよなあ…… なんか簡単にできればいいのかな

「餡の雲」で検索するといつのまにやら知らない人が出てくるようになっていて、なんか嫌な感じだし、それなりに愛着はあるけど、それほどこだわりもないしサイト名を変えたい…… 。でもいい名前が思いつかない。

いろいろやって、ページのロード速度を改善してみた。

サイト名を「氾濫原」に変えた。他人にとってあまり意味がない言葉で、かつ自分にとってある程度意味がある言葉、というのにしたくていろいろ悩んだ。

あんまり仕様書読みこめてないけど書くだけ書いてみた。CPAN にあるのは依存がひどいし、別に HTML::Parser 的なもの一個の依存で JSON 返すようなのでいいじゃんと思った。やる気があればテスト書いて CPAN にあげたりしたいけど、あんまりやる気わかない。

結局 HTML::Parser ではなく HTML::TreeBuilder::LibXML にしたけど、普通に入るモジュールなのでよさそう。

レポジトリをつくってテストを書いた。
https://github.com/cho45/HTML-Microdata/blob/master/lib/HTML/Microdata.pm

use v5.12;
use LWP::Simple qw($ua);
use URI;
use JSON::XS;

my $uri = URI->new('http://www.lowreal.net/');

my $res = $ua->get($uri);
my $microdata = HTML::Microdata->parse($res->content);

say encode_json $microdata->items->{cho45}->{properties};

package HTML::Microdata;

use HTML::TreeBuilder::LibXML;
use Scalar::Util qw(refaddr);
use Hash::MultiValue;

sub new {
	my ($class, $args) = @_;
	bless {
		items => {},
	}, $class;
}

sub parse {
	my ($class, $content, $opts) = @_;
	my $self = $class->new($opts);
	$self->_parse($content);
	$self
}

sub items {
	my ($self) = @_;
	$self->{items};
}

sub _parse {
	my ($self, $content) = @_;

	my $tree = HTML::TreeBuilder::LibXML->new_from_content($content);
	my $scopes = $tree->findnodes('//*[@itemscope]');
	my $number = 0;
	for my $scope (@$scopes) {
		my $type = $scope->attr('itemtype');
		my $id   = $scope->attr('itemid');

		unless ($scope->id) {
			$scope->id($number++);
		}

		if (my $refs = $scope->attr('itemref')) {
			my $ids = [ split /\s+/, $refs ];
			for my $id (@$ids) {
				my $props = $tree->findnodes('//*[\@id="' . $id . '"]//*[\@itemprop]');
				for my $prop (@$props) {
					my $name = $prop->attr('itemprop');
					my $value = $self->extract_value($prop);
					$self->{items}->{ $scope->id }->add($name => $value);
				}
			}
		}

		$self->{items}->{ $scope->id } = {
			($id ? (id => $id) : ()),
			type       => $type,
			properties => Hash::MultiValue->new,
		};
	}

	my $props = $tree->findnodes('//*[@itemprop]');
	for my $prop (@$props) {
		my $name = $prop->attr('itemprop');
		my $value = $self->extract_value($prop);

		my $scope = $prop->findnodes('./ancestor::*[@itemscope]')->[-1];

		$self->{items}->{ $scope->id }->{properties}->add($name => $value);
	}

	for my $key (keys %{ $self->{items} }) {
		my $item = $self->{items}->{$key};
		$item->{properties} = $item->{properties}->multi;
	}
}

sub extract_value {
	my ($self, $prop) = @_;

	my $value;
	if (defined $prop->attr('itemscope')) {
		$value = $self->{items}->{ $prop->id };
	} elsif ($prop->tag eq 'meta') {
		$value = $prop->attr('content');
	} elsif ($prop->tag =~ m{^audio|embed|iframe|img|source|video$}) {
		$value = $prop->attr('src');
	} elsif ($prop->tag =~ m{^a|area|link$}) {
		$value = $prop->attr('href');
	} elsif ($prop->tag eq 'object') {
		$value = $prop->attr('data');
	} elsif ($prop->tag eq 'time' && $prop->attr('datetime')) {
		$value = $prop->attr('datetime');
	} else {
		$value = $prop->findvalue('normalize-space(.)');
	}

	$value;
}
  1. トップ
  2. tech
  3. microdata を適当に抜き出す Perl スクリプト