Scrapy ドキュメント

このドキュメントには、Scrapyについて学ぶべきすべての事柄が書かれています。

ヘルプ

以下のトピックがトラブル解決の手助けとなるでしょう。

最初のステップ

Scrapyの概要
Scrapyとはどんなもので、どのように役に立つかを理解しましょう。
インストールガイド
Scrapyをインストールしましょう。
チュートリアル
最初のScrapyプロジェクトを作成してみましょう。
実例
Scrapyのサンプルプロジェクトを試してみて、理解を深めましょう。

Scrapyの基本コンセプト

コマンドラインツール
Scrapyのコマンドラインツールについて学ぶことができます。
Spider
ウェブサイトをクロールするためのルールを書きます。
セレクタ
XPathを使用してWebページからデータを抽出します。
Scrapy shell
対話的にデータを抽出するコードを試します。
Item
収集するデータを定義します。
Itemローダー
抽出したデータをItemにセットします。
Item Pipeline
収集したデータの後処理をします。
Feed exports
さまざまな形式とストレージを使用して収集したデータを出力します。
Requests and Responses
HTTPリクエストとレスポンスを表すためのクラスを理解します。
Link Extractors
ページに付随するリンクを抽出するための便利なクラスです。
Settings
Scrapyの すべての設定 を確認して、設定方法を学びます。
Exceptions
使用可能な例外の解説です。

組み込みサービス

Logging
Pythonの組み込みログ出力をScrapy上で使う方法について学びます。
Stats Collection
クローラーに対しての統計を取ります。
Sending e-mail
特定のイベントが発生したときに電子メールで通知します。
Telnet Console
組み込みのPythonコンソールを使用して実行中のクローラーを調査します。
Web Service
Webサービスを使用してクローラーを監視および制御します。

問題を解決する

Frequently Asked Questions
よく寄せられる質問への回答です。
Debugging Spiders
Spiderの一般的な問題をデバッグする方法です。
Spiders Contracts
Spiderをテストするためのコントラクトを使用する方法です。
Common Practices
Scrapyの一般的な書き方のパターンを学びます。
Broad Crawls
多くのドメインを並行してクロールするようにScrapyを調整する方法です。
Using your browser's Developer Tools for scraping
Learn how to scrape with your browser's developer tools.
Debugging memory leaks
メモリリークを見つけて取り除く方法を学びます。
Downloading and processing files and images
収集したItemに関連するファイルや画像をダウンロードします。
Deploying Spiders
Spiderをデプロイし、リモートサーバーで実行します。
AutoThrottle extension
負荷に基づいてクロール速度を動的に調整します。
Benchmarking
Scrapyのパフォーマンスをチェックします。
Jobs: pausing and resuming crawls
大規模なSpiderのクロールを一時停止および再開する方法を学びます。

Scrapy拡張

Architecture overview
Scrapyのアーキテクチャを理解します。
Downloader Middleware
ページのリクエストとダウンロードの方法をカスタマイズします。
Spider Middleware
Spiderの入力と出力をカスタマイズします。
Extensions
カスタム機能を使ってScrapyを拡張します。
Core API
拡張機能やミドルウェアで使用できるAPIです。
Signals
利用可能なすべてのシグナルと、それらを操作する方法です。
Item Exporters
収集したItemをファイル(XML、CSVなど)にすばやくエクスポートします。

その他

Release notes
Scrapyのアップデートによる変更点です。
Contributing to Scrapy
Scrapyプロジェクトに貢献する方法です。
Versioning and API Stability
ScrapyのバージョニングとAPIの互換性について理解します。