Qualcuno ha usato un software di web scraping per Craigslist?

Io personalmente non l'ho fatto, ma non vedo perché no. Ci sono diversi modi di fare web scraping con alcuni metodi che sono più costosi e altri che richiedono più lavoro manuale. Ecco i miei suggerimenti:

  • Codificare un web scraper da soli.
    Questo è probabilmente fattibile solo per persone con una vasta esperienza di codifica soprattutto se il vostro compito richiede lo scraping di grandi quantità di dati da molte landing page. Codificare un web scraper vi richiederà di gestire tutte le sfide che vengono con il web scraping - principalmente ogni sito web che cerca di bloccare qualsiasi attività automatizzata sul proprio sito. Detto questo, non è troppo impegnativo, ma dovrete dedicarci un po' di tempo. Potete guardare Selenium e beautifulSoup per fare questo. E potete trovare molto aiuto su Stackoverflow. (Raccomando di farlo in linguaggio di programmazione Python) Inoltre c'è un mucchio di tutorial per fare questo su youtube.
  • Utilizzando uno dei molti servizi premium in questo campo.
    Questo riduce il carico di fare tutte le cose da soli, ma richiederà un investimento di denaro. Questi servizi forniscono un robusto strumento di web scraping che gestirà il cambio di server proxy e altre caratteristiche anti rilevamento, nonché (questo vale per alcuni servizi, ma non per tutti) un account manager dedicato che di solito può aiutare con qualsiasi problema si possa avere con il servizio o la raccolta dei dati. Per questo metodo puoi controllare oxylabs rtc, octoparse e altri strumenti simili.
  • Terza opzione - web scrapers visuali. Questi web scrapers sono di solito sotto forma di un'estensione del browser. Lo imposti per qualsiasi sito web specifico e di solito ti dà i dati raccolti in formato csv che puoi copiare dove vuoi. Questo è il metodo più economico e che richiede meno abilità, ma è il metodo meno automatizzato di raccolta dati (a parte il copia-incolla a mano). Per questo tipo di web scraper puoi guardare in dataminer e altre estensioni del browser simili.