Scrapy ドキュメント¶
このドキュメントには、Scrapyについて学ぶべきすべての事柄が書かれています。
ヘルプ¶
以下のトピックがトラブル解決の手助けとなるでしょう。
- FAQ をご覧ください。一般的な質問に対する回答があります。
- 特定の情報をお探しですか? 索引 または モジュール索引 をご覧ください。
- scrapyタグを使用して StackOverflow で質問や検索をしてください。
- Scrapy subreddit で質問や検索をしてください。
- scrapy-users メーリングリスト のアーカイブから質問を検索してください。
- #scrapy IRC チャンネル で質問してください。
- Issue tracker でScrapyのバグを報告してください。
最初のステップ¶
Scrapyの基本コンセプト¶
- コマンドラインツール
- Scrapyのコマンドラインツールについて学ぶことができます。
- Spider
- ウェブサイトをクロールするためのルールを書きます。
- セレクタ
- XPathを使用してWebページからデータを抽出します。
- Scrapy shell
- 対話的にデータを抽出するコードを試します。
- Item
- 収集するデータを定義します。
- Itemローダー
- 抽出したデータをItemにセットします。
- Item Pipeline
- 収集したデータの後処理をします。
- Feed exports
- さまざまな形式とストレージを使用して収集したデータを出力します。
- Requests and Responses
- HTTPリクエストとレスポンスを表すためのクラスを理解します。
- Link Extractors
- ページに付随するリンクを抽出するための便利なクラスです。
- Settings
- Scrapyの すべての設定 を確認して、設定方法を学びます。
- Exceptions
- 使用可能な例外の解説です。
組み込みサービス¶
- Logging
- Pythonの組み込みログ出力をScrapy上で使う方法について学びます。
- Stats Collection
- クローラーに対しての統計を取ります。
- Sending e-mail
- 特定のイベントが発生したときに電子メールで通知します。
- Telnet Console
- 組み込みのPythonコンソールを使用して実行中のクローラーを調査します。
- Web Service
- Webサービスを使用してクローラーを監視および制御します。
問題を解決する¶
- Frequently Asked Questions
- よく寄せられる質問への回答です。
- Debugging Spiders
- Spiderの一般的な問題をデバッグする方法です。
- Spiders Contracts
- Spiderをテストするためのコントラクトを使用する方法です。
- Common Practices
- Scrapyの一般的な書き方のパターンを学びます。
- Broad Crawls
- 多くのドメインを並行してクロールするようにScrapyを調整する方法です。
- Using your browser's Developer Tools for scraping
- Learn how to scrape with your browser's developer tools.
- Debugging memory leaks
- メモリリークを見つけて取り除く方法を学びます。
- Downloading and processing files and images
- 収集したItemに関連するファイルや画像をダウンロードします。
- Deploying Spiders
- Spiderをデプロイし、リモートサーバーで実行します。
- AutoThrottle extension
- 負荷に基づいてクロール速度を動的に調整します。
- Benchmarking
- Scrapyのパフォーマンスをチェックします。
- Jobs: pausing and resuming crawls
- 大規模なSpiderのクロールを一時停止および再開する方法を学びます。
Scrapy拡張¶
- Architecture overview
- Scrapyのアーキテクチャを理解します。
- Downloader Middleware
- ページのリクエストとダウンロードの方法をカスタマイズします。
- Spider Middleware
- Spiderの入力と出力をカスタマイズします。
- Extensions
- カスタム機能を使ってScrapyを拡張します。
- Core API
- 拡張機能やミドルウェアで使用できるAPIです。
- Signals
- 利用可能なすべてのシグナルと、それらを操作する方法です。
- Item Exporters
- 収集したItemをファイル(XML、CSVなど)にすばやくエクスポートします。
その他¶
- Release notes
- Scrapyのアップデートによる変更点です。
- Contributing to Scrapy
- Scrapyプロジェクトに貢献する方法です。
- Versioning and API Stability
- ScrapyのバージョニングとAPIの互換性について理解します。