網頁刮料(粵拼:mong5 jip6 gwaat3 liu2;英文:web scraping)係指由網頁嗰度做數據刮取(攞有用嘅數據)。原則上,網頁刮料呢家嘢可以齋靠人手做,但絕大多數用家都會嫌人手慢得滯;所以喺實際應用上,網頁刮料通常都會用自動化嘅電腦程式做,呢啲程式曉用 HTTP 等嘅方法上網,再郁手由啲網頁度攞數據。
最基本上,一個做網頁刮料嘅程式會有兩大功能:
Fetch
:攞用家指定嘅網頁嚟睇,當中網頁可能係用家指定網址,又或者教部電腦按某啲規則搵拃網頁返嚟;Extract
:由手上嘅網頁度攞數據,簡單嘅可以係睇個網頁入面有乜字符,或者數吓每隻字符出現咗幾多次呀噉;喺廿一世紀初,網頁刮料嘅做法成日俾人攞嚟分析網頁相關嘅問題-例如教程式自動噉由網購網站度攞有關產品嘅資訊(呢啲資訊會由網頁入面有嘅字反映),又或者係攞社交媒體上面啲人嘅留言嚟睇,靠分析呢啲留言理解啲人對唔同嘢嘅觀感。因為網頁刮料咁有用,有唔少電腦科學方面嘅工作者都致力做研究,想知點先可以設計出演算法嚟有效噉做網頁刮料。
This article uses material from the Wikipedia 粵語 article 網頁刮料, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). 呢度嘅所有文字係根據 CC BY-SA 4.0 牌照嘅條款發佈;可能會有附加嘅條款。 Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki 粵語 (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.