Tinklalapių grandymas naudojant „Python“ ir „BeautifulSoup“ - „Semalt Advice“

Internete yra daugiau nei pakankamai informacijos apie tai, kaip tinkamai nurašyti svetaines ir tinklaraščius. Mums reikia ne tik prieigos prie tų duomenų, bet ir keičiamų būdų juos rinkti, analizuoti ir tvarkyti. „Python“ ir „BeautifulSoup“ yra dvi nuostabios priemonės svetainėms nugruntuoti ir duomenims išgauti. Žiniatinklio duomenų rinkimo metu duomenis galima lengvai išgauti ir pateikti jums reikalingu formatu. Jei esate aistringas investuotojas, vertinantis savo laiką ir pinigus, būtinai turite pagreitinti žiniatinklio duomenų rinkimo procesą ir padaryti jį kuo geresnį.

Darbo pradžia

Mes naudosime ir „Python“, ir „BeautifulSoup“ kaip pagrindinę grandymo kalbą.

  • 1. „Mac“ vartotojams „Python“ yra iš anksto įdiegtas OS X. Jie tiesiog turi atidaryti terminalą ir įvesti python –versiją . Tokiu būdu jie galės pamatyti „Python 2.7“ versiją.
  • 2. „Windows“ vartotojams mes rekomenduojame įdiegti „Python“ savo oficialioje svetainėje.
  • 3. Tada jūs turite pasiekti „BeautifulSoup“ biblioteką naudodami „pip“. Šis paketo valdymo įrankis buvo sukurtas specialiai „Python“.

Terminale turite įterpti šį kodą:

„easy_install pip“

Pip įdiegti „BeautifulSoup4“

Grandymo taisyklės:

Pagrindinės grandymo taisyklės, kuriomis turėtumėte pasirūpinti, yra:

  • 1. Prieš pradėdami tvarkyti, turite patikrinti svetainės taisykles ir reglamentus. Taigi būkite labai atsargūs!
  • 2. Neturėtumėte reikalauti duomenų iš svetainių per daug agresyviai. Įsitikinkite, kad jūsų naudojamas įrankis elgiasi protingai. Priešingu atveju galite sugadinti svetainę.
  • 3. Vienas prašymas per sekundę yra teisinga praktika.
  • 4. Tinklaraščio ar svetainės išdėstymą galima bet kada pakeisti, ir jums gali prireikti dar kartą apsilankyti šioje svetainėje ir prireikus perrašyti savo kodą.

Apžiūrėkite puslapį

Užveskite žymeklį ant kainos puslapio, kad suprastumėte, ką reikėtų padaryti. Perskaitykite tekstą, susijusį tiek su HTML, tiek su Python, ir iš rezultatų pamatysite kainas HTML žymų viduje.

Eksportuoti į „Excel CSV“

Išskyrus duomenis, kitas žingsnis yra išsaugoti juos neprisijungus. „Excel“ kableliais atskirtas formatas yra geriausias pasirinkimas šiuo atžvilgiu, ir jūs galite lengvai jį atidaryti savo „Excel“ lape. Bet pirmiausia turėtumėte importuoti „Python CSV“ modulius ir datos ir laiko modulius, kad tinkamai įrašytumėte savo duomenis. Šį kodą galima įterpti į importo skyrių:

importuoti csv

nuo dienos laiko importo iki dienos laiko

Pažangios grandymo technologijos

„BeautifulSoup“ yra viena iš paprasčiausių ir išsamiausių žiniatinklio grandymo įrankių. Tačiau jei jums reikia surinkti didelį duomenų kiekį, apsvarstykite keletą kitų alternatyvų:

  • 1. laužas yra galingas ir nuostabus python grandymo pagrindas.
  • 2. Kodą taip pat galite integruoti į viešą API. Jūsų duomenų efektyvumas bus svarbus. Pvz., Galite išbandyti „Facebook Graph API“, kuri padeda paslėpti duomenis ir jų nerodo „Facebook“ puslapiuose.
  • 3. Be to, galite naudoti užpakalines programas, tokias kaip „MySQL“, ir saugoti duomenis dideliu kiekiu labai tiksliai.
  • 4. DRY reiškia „Nekartokite savęs“ ir galite pamėginti automatizuoti įprastas užduotis naudodamiesi šia technika.