الهيكلية — Scraper¶
طبقات¶
flowchart TD
S[Scheduler]-->O[Orchestrator]-->R[Runner]-->F[Fetcher]-->E[Extractor]-->N[Normalizer]-->D[Deduper]-->X[Dispatcher]-->API
مصفوفة المزوّدين¶
| نقل | استخدام | إيجابيات | سلبيات |
|---|---|---|---|
| RSS | تحديثات مستقرة | رخيص | حقول محدودة |
| HTML | بدون RSS/API | مرن | حسّاس لتغيّر المحددات |
| JSON API | واجهات رسمية | بيانات غنيّة | حدود/مصادقة |
| Browser | مواقع ثقيلة JS | دقة عالية | مكلف |
مفاتيح المعرفية¶
sha1(canonical_url|published_at|content_sha1)