網頁刮料

網頁刮料(粵拼:mong5 jip6 gwaat3 liu2;英文:web scraping)係指由網頁嗰度做數據刮取(攞有用嘅數據)。原則上,網頁刮料呢家嘢可以齋靠人手做,但絕大多數用家都會嫌人手慢得滯;所以喺實際應用上,網頁刮料通常都會用自動化嘅電腦程式做,呢啲程式曉用 HTTP 等嘅方法上網,再郁手由啲網頁度攞數據。

網頁刮料
2010 年 9 月 22 日嘅英文維基頭版;包括維基百科在內嘅好多網站都內有豐富嘅數據,有冇辦法教程式自動噉攞啲數據嚟用呢?

最基本上,一個做網頁刮料嘅程式會有兩大功能:

  • Fetch:攞用家指定嘅網頁嚟睇,當中網頁可能係用家指定網址,又或者教部電腦按某啲規則搵拃網頁返嚟;
  • Extract:由手上嘅網頁度攞數據,簡單嘅可以係睇個網頁入面有乜字符,或者數吓每隻字符出現咗幾多次呀噉;

喺廿一世紀初,網頁刮料嘅做法成日俾人攞嚟分析網頁相關嘅問題-例如教程式自動噉由網購網站度攞有關產品嘅資訊(呢啲資訊會由網頁入面有嘅字反映),又或者係攞社交媒體上面啲人嘅留言嚟睇,靠分析呢啲留言理解啲人對唔同嘢嘅觀感。因為網頁刮料咁有用,有唔少電腦科學方面嘅工作者都致力做研究,想知點先可以設計出演算法嚟有效噉做網頁刮料。

基礎

重要技術

對應方法

睇埋

Tags:

網頁刮料 基礎網頁刮料 重要技術網頁刮料 對應方法網頁刮料 睇埋網頁刮料HTTPWikipedia:粵文拼音數據數據刮取用家網頁英文電腦程式

🔥 Trending searches on Wiki 粵語:

鄭伊健羅馬數字李家超羊城通蘇迪曼TOMORROW X TOGETHER蕭薔國家同地區一覽日月魚乾隆Now新聞部主要人員名單Chill Up潘杰玲奧米嘉儀熊貓鍾江海張天穎奢侈品鮮奶咖啡冒號廣州林夢九龍東陳妍希SARD UNDERGROUND鄧達智大唐皇帝一覽老虎機瑪嘉烈與大衛 (網劇)郭曉妍蔡卓妍南乳吳家忻鍾凱琪頂你個肺從化岸谷五朗扑嘢麥詠楠劏房翡翠洋蔥 (歌)鄭芷淇郝龍斌盛勁為葉芷樺浣熊痔瘡LOONG 9404 886流量密碼戴月金像玩家最佳拍檔拳交廣州地鐵王梓軒王嘉盈李賢 (香港)阿冗天主經深圳寶安國際機場李修平Abominate藤原紀香九品芝麻官 (電影)E (數學常數)林作惠英紅蝠鼠譚詠麟香港商場一覽C三體 (小說)倉頡輸入法🡆 More