Beautiful Soup の詳細
Beautiful Soup は 2004 年から存在し、プログラマーが迅速なスクリーンスクレイピングプロジェクトで時間と労力を節約できるように支援しています。
コア機能
- パースツリーのナビゲーション、検索、修正のための簡単なメソッドと Pythonic な慣習を提供します。
- 入力文書を自動的に Unicode に変換し、出力文書を UTF-8 に変換します。
- 人気の Python パーサー(lxml や html5lib など)の上に構築されており、異なるパーシング戦略を試すことができます。
基本的な使用方法
- 「すべてのリンクを見つける」「クラスが externalLink のすべてのリンクを見つける」などのように、特定の条件でデータを抽出できます。
これまで設計が不十分なウェブサイトに閉じ込められていた貴重なデータも、Beautiful Soup を使えば手に入ります。数時間かかっていたプロジェクトも、Beautiful Soup を使えば数分で済むこともあります。