PNGRA Regulations Document Crawler

This tool crawls a web page and downloads linked documents (PDF, DOCX, XLSX, etc.).

Usage (Windows PowerShell):

Create and activate a virtual environment (optional but recommended).
Install requirements.
Run the crawler.

Example:

python -m venv .venv
.venv\Scripts\Activate.ps1
pip install -r requirements.txt
python crawler.py --url https://pngrb.gov.in/eng-web/regulation-t4s.html --out downloads

Options:

--url: Page URL to crawl (required)
--out: Output folder (default: downloads)
--ext: Space-separated list of extensions to download (default includes pdf, docx, xlsx, pptx, zip)
--all-domains: Allow downloads from any domain (default is same domain only)
--delay: Delay seconds between downloads
--max: Maximum number of files to download

Run tests:

pytest -q

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.gitignore		.gitignore
README.md		README.md
crawler.py		crawler.py
requirements.txt		requirements.txt
test_crawler.py		test_crawler.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

PNGRA Regulations Document Crawler

About

Uh oh!

Releases

Packages

Languages

editorialss/Crawler-test

Folders and files

Latest commit

History

Repository files navigation

PNGRA Regulations Document Crawler

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages