Perl-XML Frequently Asked Questions

tree

cvs -d :pserver:anonymous@axkit.org:/home/cvs co XML-LibXML
      
use Win32::OLE qw(in with);

my $xml_file  = 'your file name here';
my $node_name = 'element name or XPath expression';

my $dom = Win32::OLE->new('MSXML2.DOMDocument.3.0') or die "new() failed";

$dom->{async} = "False";
$dom->{validateOnParse} = "False";
$dom->Load($xml_file) or die "Parse failed";

my $node_list = $dom->selectNodes($node_name);
foreach my $node (in $node_list) {
  print $node->{Text}, "\n";
}
	
pyx doc.xml | sed -n 's/^(//p' | sort | uniq -c
      
pyx doc1.xml | grep -v '^A' | pyxw > doc2.xml
      
pyx talk.xml | sed -ne 's/^-//p' | ispell -l | sort -u
      
use XML::SAX::ParserFactory;
use MyFilter::One;
use MyFilter::Two;
use MyFilter::Three;
use XML::SAX::Writer;

my $writer  = XML::SAX::Writer->new(Output => $output_file);
my $filter3 = MyFilter::Three->new(Handler => $writer);
my $filter2 = MyFilter::Two->new(Handler => $filter3);
my $filter1 = MyFilter::One->new(Handler => $filter2);
my $parser  = XML::SAX::ParserFactory->parser(Handler => $filter1);

$parser->parse_uri($input_file);
	
use XML::SAX::Machines qw( Pipeline );

Pipeline(
  MyFilter::One => MyFilter::Two => MyFilter::Three => ">$output_file"
)->parse_uri($input_file);
	
C:\> ppm
ppm> install XML::Twig
	
C:\> ppm
ppm> repository add RK http://theoryx5.uwinnipeg.ca/cgi-bin/ppmserver?urn:/PPMServer58
ppm> set save
ppm> install XML::LibXML
	
ppm> set repository RK http://theoryx5.uwinnipeg.ca/cgi-bin/ppmserver?urn:/PPMServer
	
perl -MCPAN -e shell
	
o conf init
	
http://your.proxy.address:port/
	
install XML::SAX
	
ppm install http://theoryx5.uwinnipeg.ca/ppms/XML-SAX.ppd
	
perl -MXML::SAX -e "XML::SAX->add_parser(q(XML::SAX::PurePerl))->save_parsers()"
      
xslt-parser -s toc-links.xsl perl-xml-faq.xml > toc.html
	
1 byte character 0xxxxxxx
2 byte character 110xxxxx 10xxxxxx
3 byte character 1110xxxx 10xxxxxx 10xxxxxx
4 byte character 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
	
Content-type: text/html; charset=utf-8
      
<meta http-equiv="Content-type" content="text/html; charset=utf-8">
      
my $price_label = "\x{20AC}9.99";
	
my $euro = "\x{20AC}";
/^$euro/ && print;
	
/\p{IsUpper}/
	
open my $fh, '>:encoding(iso-8859-1)', $path or die "open($path): $!";
print $fh $utf_string;
      
use utf8;   # Only needed for 5.6, not 5.8 or later

s/([\x{80}-\x{FFFF}])/'&#' . ord($1) . ';'/gse;
	
s/([^\x20-\x7F])/'&#' . ord($1) . ';'/gse;
	
open my $fh, '>:encoding(iso-8859-1)', $path or die "open($path): $!";
print $fh $utf_string;
      
binmode(STDOUT, ':encoding(windows-1250)');
      
$string =~ tr/\0-\x{FF}//UC;      # Don't do this
	
use utf8;  # Not required with 5.8 or later

my $u_city = "S\x{E3}o Paulo";
my $l_city = pack("C*", unpack('U*', $u_city));
	
use Unicode::String;

$ustr = Unicode::String::utf8($string);
$latin1 = $ustr->latin1();
	
use Text::Iconv;

$converter = Text::Iconv->new('UTF-8', 'ISO8859-1');
print $converter->convert($string);
	
my $writer  = XML::SAX::Writer->new(EncodeTo => 'ISO8859-1');
	
<?xml version='1.0' encoding='WINDOWS-1252' ?>
	
print CGI->header('text/html; charset=utf-8');
	
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
	
sub sanitise  {
  my $string = shift;

  $string =~ tr/\x91\x92\x93\x94\x96\x97/''""\-\-/;
  $string =~ s/\x85/.../sg;
  $string =~ tr/\x80-\x9F//d;

  return($string);
}
	
<!ELEMENT xcard (firstname,lastname,email?)>
<!ELEMENT firstname (#PCDATA)>
<!ELEMENT lastname (#PCDATA)>
<!ELEMENT email (#PCDATA)>
	
<?xml version="1.0" ?>
<!DOCTYPE xcard SYSTEM "file:/opt/xml/xcard.dtd" >
<xcard>
<firstname>Joe</firstname>
<lastname>Bloggs</lastname>
<email>joe@bloggs.com</email>
</xcard> 
	
use XML::Checker::Parser;

my $xp = new XML::Checker::Parser ( Handlers => { } );

eval {
  $xp->parsefile($xml_file);
};
if ($@) {
  # ... your error handling code here ...
  print "$xml_file failed validation!\n";
  die "$@";
}
print "$xml_file passed validation\n";
	
$parser->validation(1);
	
xmllint --valid --noout filename.xml
	
use XML::LibXML;

my $schema_file = 'po.xsd';
my $document    = 'po.xml';

my $schema = XML::LibXML::Schema->new(location => $schema_file);

my $parser = XML::LibXML->new;
my $doc    = $parser->parse_file($document);

eval { $schema->validate($doc) };
die $@ if $@;

print "$document validated successfully\n";
	
xmllint --noout --schema po.xsd po.xml
	
use XML::SAX::ParserFactory;
use XML::Validator::Schema;

my $schema_file = 'po.xsd';
my $document    = 'po.xml';

my $validator = XML::Validator::Schema->new(file => $schema_file);

my $parser = XML::SAX::ParserFactory->parser(Handler => $validator);

eval { $parser->parse_uri($document); };
die $@ if $@;

print "$document validated successfully\n";
	
use XML::Simple;

my $ref = eval {
  XMLin('<bad>not well formed');
};

if($@) {
  print "An error occurred: $@";
}
else {
  print "It worked!";
}
	
<menu>Bubble &amp; Squeak</menu>
      
use XML::Parser;

my $xp = new XML::Parser(Handlers => { Char => \&char_handler });

$xp->parsefile('menu.xml');

sub char_handler {
  my($xp, $data) = @_;
  print "Character data: '$data'\n";
}
      
Character data: 'Bubble & Squeak'
      
Character data: 'Bubble '
Character data: '&'
Character data: ' Squeak'
      
use XML::Parser;

my $xp = new XML::Parser(Handlers => { Start => \&start_handler,
				       Char  => \&char_handler,
                                       End   => \&end_handler  });
$xp->parsefile('menu.xml');

sub start_handler {
  my($xp) = @_;
  $xp->{cdata_buffer} = '';
}

sub char_handler {
  my($xp, $data) = @_;
  $xp->{cdata_buffer} .= $data;
}

sub end_handler {
  my($xp) = @_;
  print "Character data: '$xp->{cdata_buffer}'\n";
}
      
<?xml version='1.0' standalone='yes'?>
<doc>
  <title>Test Document</title>
</doc>
      
<para>Paragraph 1</para>
      
 
<para>Paragraph 1</para>
<para>Paragraph 2</para>
      
<item name="widget"></item>
      
<item name=widget></item>
      
<?xml version='1.0' encoding='iso-8859-1'?>
      
&lt;    <
&gt;    >
&amp;   &
&quot;  "
&apos;  '
	
<!DOCTYPE doc [
    <!ENTITY eacute "&#233;" >
    <!ENTITY euro   "&#8364;" >
]>
<doc>Combien avez-vous pay&eacute;? 125 &euro;</doc>
	
<!DOCTYPE doc [
<!ENTITY % HTMLlat1 PUBLIC
        "-//W3C//ENTITIES Latin 1 for XHTML//EN"
        "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent">
%HTMLlat1;

<!ENTITY % HTMLspecial PUBLIC
        "-//W3C//ENTITIES Special for XHTML//EN"
        "http://www.w3.org/TR/xhtml1/DTD/xhtml-special.ent">
%HTMLspecial;

<!ENTITY % HTMLsymbol PUBLIC
        "-//W3C//ENTITIES Symbols for XHTML//EN"
        "http://www.w3.org/TR/xhtml1/DTD/xhtml-symbol.ent">
%HTMLsymbol;
]>
        
<char>&#3;</char>
      
<code><![CDATA[
  if($qty < 1) {
    print "<p>Invalid quantity!</p>";
  }
]]></code>
	
<code>
  if($qty &lt; 1) {
    print &quot;&lt;p&gt;Invalid quantity!&lt;/p&gt;&quot;;
  }
</code>
	
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
  <title>Sample Document</title>
</head>
<body>

<h1>An HTML Heading</h1>

<s:svg xmlns:s="http://www.w3.org/2000/svg" width="300" height="200">
  <s:rect style="fill: #eeeeee; stroke: #000000; stroke-width: 1;"
    width="80" height="30" x="60" y="50" />
  <s:text style="font-size: 12px; fill: #000066; font-family: sans-serif;"
    x="70" y="70">Label One</s:text>
</s:svg>

</body>
</html>
      
//h1
      
//*[local-name() = 'h1']
      
my $parser = XML::LibXML->new();
my $doc    = $parser->parse_file('sample.xhtml');

my $xpc = XML::LibXML::XPathContext->new($doc);
$xpc->registerNs(xhtml => 'http://www.w3.org/1999/xhtml');

foreach my $node ($xpc->findnodes('//xhtml:h1')) {
  print $node->to_literal, "\n";
}
      
$xpc->registerNs(svg => 'http://www.w3.org/2000/svg');
foreach my $node ($xpc->findnodes('//svg:text')) {
  print $node->to_literal, "\n";
}

Perl-XML Frequently Asked Questions

1. Tutorial and Reference Sources

2. Selecting a Parser Module

3. CPAN Modules

4. XSLT Support

5. Encodings

Note

6. Validation

7. Common Coding Problems

8. Common XML Problems

Note

Note

9. Miscellaneous

Corrections, Contributions and Acknowledgements