Semalt: vietrāžu URL iegūšana no tīmekļa lapām ar skaistu zupu

Skaista zupa ir augsta līmeņa Python pakotne, ko izmanto XML un HTML dokumentu parsēšanai. Skaista zupas Python bibliotēka izveido parsēšanas koku, kas tiek izmantots noderīgas informācijas iegūšanai no hiperteksta iezīmēšanas valodas (HTML). Šī bibliotēka ir pieejama gan Python 2, gan Python 3 versijām.

Vairumā gadījumu jūs atradīsit, ka jūsu mērķa datiem var piekļūt un tos var izmantot tikai kā Web lapas daļu. Tādā gadījumā jums jāizmanto tāda tīmekļa nokasīšanas tehnika, kas var iegūt datus analizējamos formātos. Šajā vietā ienāk skaista zupas bibliotēka.

Prasības

Lai izmantotu bibliotēku Beautiful Soup, jums vajadzīgi pareizi moduļi. Lai sāktu, datorā jāinstalē Python 2.7 programmēšanas valoda. Šajā rakstā jūs uzzināsit, kā nokasīt vietni un izvilkt visus vietrāžus URL, izmantojot pieprasījumus un skaisto zupu 4. HTML parsēšana ir pats darīšanas process, it īpaši ar skaistas zupas tehnisko palīdzību.

Kāpēc lietot skaisto zupu?

Beautiful Soup ir visaugstāk novērtētā Python pakete, kuru kopš 2004. gada izmanto vietņu nokasīšanai un HTML tagu parsēšanai. Nesen Beautiful Soup 4 šajā nozarē aizstāja Beautiful Soup 3. Ņemiet vērā, ka BS4 darbojas abās Python versijās, turpretī BS3 darbojas tikai Python 2.7. Bibliotēkā ir šādas iebūvētās funkcijas:

  • Kodēšanas iespējas - pēc instalēšanas datorā nav nepieciešams paniku par kodējumiem. Bibliotēka ir automatizēta, lai pārveidotu ieejas Unicode un izejas UTF-8.
  • Navigācijas iespējas - skaista zupa piedāvā viegli lietojamas metodes parsēšanas koka navigācijai un modificēšanai.

Kā lietot skaisto zupu bibliotēku?

Pēc skaistas zupas instalēšanas datorā varat sākt izmantot bibliotēku. Lai sāktu, Python koda sākumā importējiet bs4 bibliotēku. Lai izveidotu zupas objektu, nododiet skaisto zupu saturam vai URL. Tomēr bibliotēka pati par sevi neielādē mērķa vietni. Šeit šis uzdevums ir jāizpilda manuāli. Varat arī viegli ielādēt vēlamās tīmekļa lapas, izmantojot Python un Beautiful Soup kombināciju.

Pieprasījuma bibliotēkas lomas

Lai nokasītu lapu, vispirms tā ir jālejupielādē. Web lapas var lejupielādēt, izmantojot pieprasījumu bibliotēku. Pieprasījumu bibliotēka darbojas, tīmekļa serveriem iesniedzot “GET” pieprasījumu, kas savukārt lejupielādēs vēlamās Web lapas HTML saturu.

URL iegūšana no tīmekļa lapām

Tagad jums ir detalizēta informācija par Beautiful Soup bibliotēku. BS4 bibliotēkas un Python kombinācija palīdzēs jums ļoti ātri ielādēt tīmekļa lapu. Lai no mērķa Web lapas iegūtu visus vietrāžus URL, izmantojiet metodi “atrast visu”. Šī metode ļaus jums apkopot elementus ar tagu. No bs4 importējiet gan skaisto zupu, gan pieprasījumus. Palaidiet savu kodu un ievadiet vietni vai Web lapu, no kuras iegūt URL.

mass gmail