Normalmente, Craigslist usa i reCAPTCHA per fermare le richieste automatizzate alla loro piattaforma, che ferma i tentativi abusivi di portare danni su scala decente.
Credendo che la vostra intenzione non sia quella di danneggiare gli altri, ma di raccogliere dati pubblici che sono disponibili in Craigslist, di seguito cito alcune raccomandazioni. Si prega di notare che non promuovo nessuno dei servizi o strumenti che menziono qui, si dovrebbe fare una ricerca su Quora o Google per i servizi per avere una visione più ampia.
Raccomandazioni su come iniziare:
- Esegui il tuo software di scraping automatico con le ultime versioni del browser chrome headless. Con Chrome headless e Selenium il tuo scraper diventerebbe più amichevole per i server di Craigslist, quindi ridurrebbe molto la percentuale di colpire un CAPTCHA.
- Fai uso di proxy residenziali. Sì, nei casi di reCAPTCHA, fare richieste tramite altri tipi di proxy non funziona davvero nella maggior parte dei casi. Un proxy residenziale usato con un browser headless ti dà una migliore possibilità di bypassare i blocchi.
- Se stai cercando di raccogliere dati disponibili pubblicamente e non hai esperienza, si consiglia di dare il lavoro a servizi che fanno protezione web scraping per te come per esempio ProxyCrawl.
Di conseguenza, fai uso di browser e reti residenziali, con questa combinazione è probabile che tu possa bypassare i reCAPTCHA, se questo diventa complicato, fai uso di un fornitore di servizi di scraping per la protezione del web.