📋 Peviitor OpenCode AI Scrapers

Documentație completă pentru proiectul de automatizare scraping job-uri de pe peviitor.ro

Bine ai venit! 👋

Acest proiect conține instrumente de automatizare pentru colectarea și actualizarea datelor despre locuri de muncă de pe platforma peviitor.ro.

Scop: Utilizăm AI (OpenCode) pentru a automatiza procesul de scraping al job-urilor de pe site-urile companiilor și actualizarea acestora în Solr.

🎯 Obiective

Construim un sistem automatizat de colectare a job-urilor pentru companiile IT din România:

1. Scraping Job-uri

Extragem automat locurile de muncă de pe paginile de cariere ale companiilor.

2. Extragere Tag-uri

Identificăm automat nivelul de senioritate (junior/mid/senior/consultant) și domeniul (IT/Data Science/Cloud/Finance/etc.).

3. Indexare Solr

Încărcăm datele structurate în Apache Solr pentru căutare și filtrare rapidă.

4. Prompts Reutilizabile

Creăm fișiere de prompt specifice pentru fiecare companie, reutilizabile pentru actualizări periodice.

Ce face acest proiect?

🤖 Automatizare Browser

Controlăm Chrome prin DevTools Protocol pentru a naviga pe site-uri și a extrage date despre job-uri.

🔍 Scraping Inteligent

AI-ul analizează structura site-urilor companiilor pentru a găsi paginile de cariere și a extrage informațiile corecte.

💾 Stocare Date

Datele sunt trimise către Apache Solr pentru indexare și căutare rapidă.

✅ Testare Automată

Testele Playwright verifică că fluxurile de lucru funcționează corect.

Fluxul de Lucru

1. Găsește compania în websites.md
         ↓
2. Rulează comanda /scrape [nume_companie]
         ↓
3. AI-ul deschide Chrome și navighează pe site
         ↓
4. Extrage job-urile conform Job Schema
         ↓
5. Trimite datele către Solr
         ↓
6. Verifică cu testele Playwright

💻 Arhitectură Cloud + Local

Acest proiect folosește AI în cloud (Big Pickle via OpenCode) pentru coding asistat, împreună cu servicii locale.

Arhitectura:
  • AI Big Pickle - rulează în cloud-ul OpenCode (opencode.ai)
  • Apache Solr - în Docker container local
  • Chrome DevTools - pentru automatizare browser (rulează local)
  • OpenCode - CLI care conectează AI cloud la serviciile locale
Cerințe Hardware:
  • RAM: 8 GB minim (16 GB recomandat)
  • CPU: 2+ core-uri (4+ recomandat)
  • Stocare: 20 GB liberi
  • Vezi detalii complete
🔒 Confidențialitate:
  • Datele de scraping rămân local în Solr
  • Navigarea Chrome este locală
  • Solr rulează doar pe localhost
  • AI-ul procesează în cloud OpenCode

Link-uri Rapide

Documentație Descriere
Structura Proiectului Explorarea folderelor și fișierelor
Comenzi Personalizate Comenziile /scrape, /update-solr, /login-solr
Testare Cum rulează testele Playwright
Schema Date Modelele Job și Company
Setup Ghid de instalare și configurare