0


0

組み込みの正規表現クラスまたはパーサー。htmlファイルからタグ間のテキストを抽出する方法

c#.netアプリケーションにテーブルコンテンツとその他の情報があるHTMLファイルがあります。

一部の列のみのテーブルの内容を解析したいのですが、htmlのパーサーまたは.netの* Regex Replace *メソッドを使用する必要がありますか?

そして、パーサーを使用する場合、パーサーの使用方法は? パーサーは、タグの間にある情報を抽出しますか? はいの場合、どのように使用しますか? パーサーは初めてなので、可能であれば例を示してください。

  • Regex クラスの Replace *メソッドを使用する場合、そのメソッドで情報を抽出するファイル名を渡す方法は?

  • Edit *:HTMLファイルのテーブルから情報を抽出したい。 そのために、HTMLアジリティパーサーをどのように使用できますか? そのパーサーを使用するには、どのタイプのコードを作成する必要がありますか?

2 Answer


4


https://stackoverflow.com/questions/2370092/how-to-use-html-parser-in-c-net-application [ほぼ同一の質問]を尋ねて削除しました。 以前私が出した答えは次のとおりです。

'' '' '

HTML Agility Packを試してください。

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
 }
 doc.Save("file.htm");

'' '' '

正規表現に関する追加の質問について:正規表現を使用してHTMLを解析しないでください。 堅牢なソリューションではありません。 上記のライブラリは、はるかに良い仕事をすることができます。


1


http://www.codeplex.com/htmlagilitypack [HtmlAgilityPack] …​.

次回-前に答えを検索します。 これは確かに重複しています。