あんまり仕様書読みこめてないけど書くだけ書いてみた。CPAN にあるのは依存がひどいし、別に HTML::Parser 的なもの一個の依存で JSON 返すようなのでいいじゃんと思った。やる気があればテスト書いて CPAN にあげたりしたいけど、あんまりやる気わかない。
結局 HTML::Parser ではなく HTML::TreeBuilder::LibXML にしたけど、普通に入るモジュールなのでよさそう。
レポジトリをつくってテストを書いた。
https://github.com/cho45/HTML-Microdata/blob/master/lib/HTML/Microdata.pm
use v5.12;
use LWP::Simple qw($ua);
use URI;
use JSON::XS;
my $uri = URI->new('http://www.lowreal.net/');
my $res = $ua->get($uri);
my $microdata = HTML::Microdata->parse($res->content);
say encode_json $microdata->items->{cho45}->{properties};
package HTML::Microdata;
use HTML::TreeBuilder::LibXML;
use Scalar::Util qw(refaddr);
use Hash::MultiValue;
sub new {
my ($class, $args) = @_;
bless {
items => {},
}, $class;
}
sub parse {
my ($class, $content, $opts) = @_;
my $self = $class->new($opts);
$self->_parse($content);
$self
}
sub items {
my ($self) = @_;
$self->{items};
}
sub _parse {
my ($self, $content) = @_;
my $tree = HTML::TreeBuilder::LibXML->new_from_content($content);
my $scopes = $tree->findnodes('//*[@itemscope]');
my $number = 0;
for my $scope (@$scopes) {
my $type = $scope->attr('itemtype');
my $id = $scope->attr('itemid');
unless ($scope->id) {
$scope->id($number++);
}
if (my $refs = $scope->attr('itemref')) {
my $ids = [ split /\s+/, $refs ];
for my $id (@$ids) {
my $props = $tree->findnodes('//*[\@id="' . $id . '"]//*[\@itemprop]');
for my $prop (@$props) {
my $name = $prop->attr('itemprop');
my $value = $self->extract_value($prop);
$self->{items}->{ $scope->id }->add($name => $value);
}
}
}
$self->{items}->{ $scope->id } = {
($id ? (id => $id) : ()),
type => $type,
properties => Hash::MultiValue->new,
};
}
my $props = $tree->findnodes('//*[@itemprop]');
for my $prop (@$props) {
my $name = $prop->attr('itemprop');
my $value = $self->extract_value($prop);
my $scope = $prop->findnodes('./ancestor::*[@itemscope]')->[-1];
$self->{items}->{ $scope->id }->{properties}->add($name => $value);
}
for my $key (keys %{ $self->{items} }) {
my $item = $self->{items}->{$key};
$item->{properties} = $item->{properties}->multi;
}
}
sub extract_value {
my ($self, $prop) = @_;
my $value;
if (defined $prop->attr('itemscope')) {
$value = $self->{items}->{ $prop->id };
} elsif ($prop->tag eq 'meta') {
$value = $prop->attr('content');
} elsif ($prop->tag =~ m{^audio|embed|iframe|img|source|video$}) {
$value = $prop->attr('src');
} elsif ($prop->tag =~ m{^a|area|link$}) {
$value = $prop->attr('href');
} elsif ($prop->tag eq 'object') {
$value = $prop->attr('data');
} elsif ($prop->tag eq 'time' && $prop->attr('datetime')) {
$value = $prop->attr('datetime');
} else {
$value = $prop->findvalue('normalize-space(.)');
}
$value;
}