1


0

特定の座標からテキストを抽出できるPDF解析ライブラリはありますか?

おはよう、フェラス。 フィールドとセクションの指定に従って、PDFファイル(銀行の請求書)からテキストを抽出することになっているタスクを割り当てられました。 この仕様はYAMLファイルで提供されます。 フィールドは、テキストが存在する長方形の左上と右下、およびフィールドの名前の2つの座標のセットとして表されます。 SnakeYAMLを使用して、この情報をオブジェクトに読み込みます。 ここまで成功しました。 次の部分では、このデータを使用してPDFからテキストを抽出する必要があります。 私はちょっとここで立ち往生しています。 1つには、使用するPDF解析ライブラリを決定することができません。 私のタスクに適したPDF解析ライブラリを提案してください。上記のタスクを達成するにはどうすればよいですか? ありがとうございます。

1 Answer


2


PDF Boxは、特定の領域からテキストを抽出できます。 PDFTextStripperByAreaをご覧ください!