Back to Question Center
0

Semalt - Kiel Scrape Retpaĝaj Paĝoj?

1 answers:

Bela Supo estas pythona biblioteko vaste uzita por skrapi retpaĝojn kreante parsebon de XML kaj HTML-dokumentoj. Reteja skrapado, tekniko pri ĉerpado de datumoj de retejoj kaj paĝoj, estas vaste uzata en datuma analizo kaj administraj kampoj. En la plej multaj kazoj, la lingvo de programado de Python estas antaŭprezito en datuma scienco.

Python 3 havas skrapantajn ilojn kaj modulojn, kiujn vi povas apliki al via projekto pri administrado de datumoj. Nuntempe kuranta kiel Bela Supo 4, ĉi tiu modulo estas kongrua kun Python 3 kaj Python 2 - ray ban ray ban ray ban. 7. Bela Supo 4-modulo ankaŭ kapablas krei parsebon por ne-fermita etikedo. En ĉi tiu lernilo, vi lernos kiel skrapi la paĝon kaj skribi la skrapitajn datumojn al CSV-dosiero.

Komenci

Por komenci, starigu servilon aŭ lokan-bazitan Python-kodigan medion en via komputilo. Vi ankaŭ devus instali Beautiful Soup and Requests modulo sur via maŝino. Kono pri laborado kun ambaŭ moduloj estas ankaŭ necesa kondiĉo. Familiareco kun HTML-etikedo kaj strukturo estas ankaŭ aldonita avantaĝo.

Komprenante vian datumon

En ĉi tiu kunteksto, realaj datumoj de la Nacia Galerio de Arto estos uzataj por helpi vin kompreni kiel uzi Belan Soupon 4. Nacia Galerio de Arto konsistas el 120,000 pecoj, kiuj estas faritaj de proksimuma 13,000 artistoj. La Arto estas bazita en Vaŝingtono D. C, Usono.

Reteja eltiraĵo kun Bela Supo ne estas komplika. Ekzemple, se vi fokusigas literon Z, marku kaj notu la unuan nomon en la listo. En ĉi tiu kazo, la unua nomo estas Zabaglia, Nikcola. Por kohereco, indikas la nombron de paĝoj kaj la nomo de la lasta artisto en tiu paĝo.

Kiel importi Petojn kaj Belan Supon-bibliotekon

Por importi bibliotekojn, aktivigi vian Python 3-programadon. Kontrolu por certigi, ke vi estas en la sama dosierujo kun via programada medio. Kuru la sekvantan komandon por komenci. my_env / bin / aktivigi.

Krei novan dosieron kaj komencu importi Belajn Supojn kaj Petojn de bibliotekoj. Petitaj bibliotekoj permesos al vi uzi HTTP ene de viaj programoj de Python en legeblaj formatoj. Bela Supo, aliflanke, funkcias rapide por skrapi paĝojn. Uzu bs4 por importi Belan Supon.

Kiel kolekti kaj redakti retpaĝon

Uzante Petoj kolekti URL de via unua paĝo. URL de la unua paĝo estos atribuita al la variablo paĝo. Konstruu belecon de objekto de Petoj kaj pripensu la objekto de la analizilo de Python.

En ĉi tiu lernilo, la celo estas kolekti ligojn kaj nomojn de artistoj. Ekzemple vi povas kolekti datojn kaj naciojn de artistoj. Por uzantoj de Windows, dekstra klako sur la unua nomo de la artisto. En ĉi tiu kazo, uzu Zabaglia, Nikcola. Por uzantoj de Mac OS, klaku "CTRL" kaj alklaku la nomon. Alklaku la menuon "Inspektu Elekton", kiu kreas popolojn sur via ekrano por aliri la ilojn de programistoj de retejo. Printu la nomojn de la artisto por fari Bela Supo parse arbon rapide.

Forigante la fundajn ligilojn

Por forigi la malsuprajn ligojn en via retpaĝo, inspektu la DOM per dekstra klako de la elemento. Vi identigos, ke la ligoj estas sub HTML-tablo. Uzante Belan Supon, uzu la "malkomponi metodon" por forigi etikedojn de la parseca arbo.

Kiel tiri enhavon de etikedo

Vi ​​ne devas presi la tutan ligan etikedon, uzi Belan Soupon por forigi materialon de etikedo. Vi ankaŭ povas kapti URLojn asociitajn kun la artistoj uzante Beautiful Soup 4.

Kaptante skrapitajn datumojn al CSV-dosiero

CSV-dosiero permesos al vi stoki strukturitajn datumojn en ebena teksto, formato plejparte uzata por datasheets. Oni rekomendas scion pri uzado de tekstaj dosieroj en Python.

Reteja datuma eltiro estas uzata por skrapi paĝojn kaj akiri informojn. Estu konsiderataj de la retejoj, kiujn vi forprenas informojn. Kelkaj dinamikaj retejoj restriktas retpaĝajn datumojn sur iliaj retejoj. Por skrapi paĝon kun Bela Supo kaj Python 3 estas tiel simpla.

December 22, 2017