In my code I convert some styled xls document to html using openoffice.
I then parse the tables using xml_parser_create
.
The problem is that openoffice creates oldschool html with unclosed <BR>
and <HR>
tags, it doesn't create doctypes and don't quote attributes <TABLE WIDTH=4>
.
Ben kapalı biliyorum php çözümleyecilerin gibi, ve xml formating hataları verim yok. Benim geçerli çözüm ben bunu ayrıştırmak önce dosya üzerinde bazı ifadelerin çalıştırmak için, ama bu güzel ne hızlı ne olduğunu.
Eğer hatalar bu tür hakkında umursamayan (umarım dahil) php-ayrıştırıcı, biliyor musunuz? Ya da belki de bir 'kırık' html düzeltmek için hızlı bir yoldur?