4


0

一部のテキストから壊れたタグと適切にフォーマットされていないhtmlを削除する

私はウェブサイトに挿入しているスクレイプされたフォーラム投稿の巨大なデータベースを持っています。 しかし、多くの人がフォーラムの投稿でhtmlを使用しようとしていますが、多くの場合、間違っています。 このため、投稿には常に ``タグがあり、15個のフォーラム投稿を追加すると、Webページ形式が台無しになります。

今のところ、すべての可能な終了タグを投稿に追加して、開いているタグをキャッチできるようにしています…​テキストを解析して各開いているタグを手動で削除しようとするより短い方法がありますか? loooooongフォーラムの投稿では、これはWebアプリの高価なトランザクションです。

3 Answer


1


HTML Tidyをご覧ください

Pythonラッパーライブラリもあります:http://utidylib.berlios.de/[µTidylib]

または、http://htmlpurifier.org/ [HTML Purifier]があります


0


Beautiful Soupは、HTMLクリーンアップで適切な仕事をしています。


0


http://codespeak.net/lxml/ [lxml]も見てください。