وب اسکرپینگ، گردآوری از وب، برداشت وب یا استخراج دادههای وب، فرآیندی است که در آن اطلاعات از صفحات وب به صورت خودکار استخراج میشود.
برای تأییدپذیری کامل این مقاله به منابع بیشتری نیاز است. (ژوئن ۲۰۱۷) |
این کار با استفاده از برنامههای کامپیوتری انجام میشود که میتوانند کد HTML صفحات وب را تجزیه و تحلیل کرده و اطلاعات مورد نظر را استخراج کنند. در حالی که گردآوری از وب را میتوان به صورت دستی توسط یک کاربر نرمافزار انجام داد، این اصطلاح معمولاً به فرآیندهای خودکار اجرا شده با استفاده از یک ربات یا خزنده وب اشاره دارد. این نوعی کپی است که در آن دادههای خاصی از وب جمعآوری و کپی میشوند، معمولاً در یک پایگاه داده یا صفحه گسترده محلی مرکزی، برای بازیابی یا تجزیه و تحلیل بعدی.
اسکرپینگ یک صفحه وب شامل واکشی آن و استخراج از آن است. واکشی بارگیری یک صفحه است (کاری که مرورگر زمانی که کاربر یک صفحه را مشاهده میکند انجام میدهد). بنابراین، خزیدن وب یکی از مؤلفههای اصلی گردآوری از وب برای واکشی صفحات برای پردازش بعدی است. پس از واکشی، استخراج میتواند انجام شود. محتوای یک صفحه ممکن است تجزیه، جستجو و قالب بندی مجدد شود و دادههای آن در یک صفحه گسترده کپی شده یا در پایگاه داده بارگذاری شود. اسکراپرهای وب معمولاً چیزی را از یک صفحه خارج میکنند تا از آن برای هدف دیگری در جای دیگری استفاده کنند. یک مثال میتواند یافتن و کپی کردن نامها و شماره تلفنها، شرکتها و آدرسهای اینترنتی آنها، یا آدرسهای پست الکترونیکی در یک لیست (خراش دادن مخاطبین) باشد.
و همچنین تحلیل تماس، وب اسکرپینگ به عنوان جزئی از برنامههای کاربردی مورد استفاده برای نمایه سازی وب، وب کاوی و داده کاوی، نظارت بر تغییر قیمت آنلاین و مقایسه قیمت، خراش بررسی محصول (برای تماشای رقابت)، جمعآوری لیست املاک، آب و هوا استفاده میشود. نظارت بر دادهها، تشخیص تغییر وب سایت، تحقیق، ردیابی حضور و شهرت آنلاین، آمیختگی وب و یکپارچه سازی دادههای وب.
صفحات وب با استفاده از زبانهای نشانهگذاری مبتنی بر متن (HTML و XHTML) ساخته میشوند و اغلب حاوی دادههای مفید فراوانی در قالب متن هستند. با این حال، بیشتر صفحات وب برای کاربران نهایی انسانی طراحی شدهاند و نه برای سهولت استفاده خودکار. در نتیجه ابزارها و نرمافزارهای تخصصی برای تسهیل خراش دادن صفحات وب ایجاد شدهاست.
اشکال جدیدتر گردآوری از وب شامل نظارت بر فیدهای داده از سرورهای وب است. به عنوان مثال، جیسان معمولاً به عنوان مکانیزم ذخیرهسازی انتقال بین مشتری و وب سرور استفاده میشود.
روشهایی وجود دارد که برخی از وب سایتها از آنها برای جلوگیری از خراش وب استفاده میکنند، مانند شناسایی و ممنوع کردن رباتها از خزیدن (مشاهده) صفحات خود. در پاسخ، سیستمهای اسکرپینگ وب وجود دارند که بر استفاده از تکنیکهایی در تجزیه DOM، بینایی رایانه و پردازش زبان طبیعی برای شبیهسازی مرور انسان برای فعال کردن جمعآوری محتوای صفحه وب برای تجزیه آفلاین متکی هستند.
تاریخچه وب اسکرپینگ تقریباً به زمانی برمی گردد که وب جهانی متولد شد.
خراش وب فرایند استخراج خودکار دادهها یا جمعآوری اطلاعات از شبکه جهانی وب است. این حوزه ای با پیشرفتهای فعال است که هدف مشترکی با چشمانداز وب معنایی دارد، یک ابتکار بلندپروازانه که هنوز به پیشرفتهایی در پردازش متن، درک معنایی، هوش مصنوعی و تعامل انسان و رایانه نیاز دارد.
سادهترین شکل وب اسکرپینگ، کپی و چسباندن دستی دادهها از یک صفحه وب در یک فایل متنی یا صفحه گستردهاست. گاهی حتی بهترین فناوری گردآوری از وب نمیتواند جایگزین معاینه دستی انسان و کپی و چسباندن شود، و گاهی ممکن است این تنها راه حل قابل اجرا باشد زمانی که وبسایتهای خراش دادن به صراحت موانعی را برای جلوگیری از اتوماسیون ماشین ایجاد میکنند.
یک رویکرد ساده و در عین حال قدرتمند برای استخراج اطلاعات از صفحات وب میتواند بر اساس دستور grep یونیکس یا امکانات تطبیق بیان منظم زبانهای برنامهنویسی (مثلاً پرل یا پایتون) باشد.
صفحات وب استاتیک و پویا را میتوان با ارسال درخواستهای HTTP به وب سرور راه دور با استفاده از برنامهنویسی سوکت بازیابی کرد.
بسیاری از وب سایتها دارای مجموعههای بزرگی از صفحات هستند که به صورت پویا از یک منبع ساختار یافته مانند پایگاه داده تولید میشوند. دادههای یک دسته معمولاً توسط یک اسکریپت یا قالب مشترک در صفحات مشابه کدگذاری میشوند. در داده کاوی، برنامه ای که چنین قالبهایی را در یک منبع اطلاعاتی خاص شناسایی میکند، محتوای آن را استخراج میکند و آن را به شکل رابطه ای ترجمه میکند، wrapper نامیده میشود. الگوریتمهای تولید Wrapper فرض میکنند که صفحات ورودی یک سیستم القایی wrapper با یک الگوی رایج مطابقت دارند و میتوان آنها را به راحتی از نظر یک طرح URL مشترک شناسایی کرد. علاوه بر این، برخی از زبانهای پرس و جوی داده نیمه ساختاریافته، مانند XQuery و HTQL، میتوانند برای تجزیه صفحات HTML و برای بازیابی و تبدیل محتوای صفحه استفاده شوند.
با تعبیه یک مرورگر وب کامل، مانند اینترنت اکسپلورر یا کنترل مرورگر موزیلا، برنامهها میتوانند محتوای پویا تولید شده توسط اسکریپتهای سمت سرویس گیرنده را بازیابی کنند. این کنترلهای مرورگر همچنین صفحات وب را به یک درخت DOM تجزیه میکنند، که بر اساس آن برنامهها میتوانند بخشهایی از صفحات را بازیابی کنند. از زبانهایی مانند Xpath میتوان برای تجزیه درخت DOM حاصل استفاده کرد.
چندین شرکت وجود دارند که سکوهای برداشت عمودی خاص را توسعه دادهاند. این پلتفرمها تعداد زیادی «ربات» را برای عمودهای خاص بدون «مرد در حلقه» (بدون دخالت مستقیم انسان)، و هیچ کار مرتبط با یک سایت هدف خاص ایجاد و نظارت میکنند. آمادهسازی شامل ایجاد پایگاه دانش برای کل عمودی است و سپس پلت فرم بهطور خودکار رباتها را ایجاد میکند. استحکام پلتفرم با کیفیت اطلاعاتی که بازیابی میکند (معمولاً تعداد فیلدها) و مقیاسپذیری آن (چقدر سریع میتواند به صدها یا هزاران سایت برسد) اندازهگیری میشود. این مقیاسپذیری بیشتر برای هدف قرار دادن Long Tail از سایتهایی استفاده میشود که جمعآوریکنندههای معمولی آنها را پیچیده یا بسیار سخت برای برداشت محتوا میدانند.
صفحاتی که خراشیده میشوند ممکن است دارای متادیتا یا نشانه گذاریهای معنایی و حاشیه نویسی باشند که میتوانند برای مکانیابی تکههای داده خاص استفاده شوند. اگر حاشیهنویسیها در صفحات جاسازی شوند، همانطور که Microformat انجام میدهد، این تکنیک را میتوان به عنوان یک مورد خاص از تجزیه DOM مشاهده کرد. در موردی دیگر، حاشیه نویسیها که در یک لایه معنایی سازماندهی شدهاند، بهطور جداگانه از صفحات وب ذخیره و مدیریت میشوند، بنابراین اسکراپرها میتوانند طرح دادهها و دستورالعملها را قبل از خراش دادن صفحات از این لایه بازیابی کنند.
تلاشهایی با استفاده از یادگیری ماشین و بینایی رایانهای وجود دارد که تلاش میکند با تفسیر بصری صفحات مانند یک انسان، اطلاعات را از صفحات وب شناسایی و استخراج کند.
ابزارهای نرمافزاری زیادی وجود دارد که میتوان از آنها برای سفارشی کردن راه حلهای خراش وب استفاده کرد. این نرمافزار ممکن است سعی کند ساختار دادههای یک صفحه را بهطور خودکار تشخیص دهد یا یک رابط ضبط ارائه کند که نیاز به نوشتن دستی کدهای اسکرپینگ یا برخی از توابع اسکریپتنویسی را که میتوانند برای استخراج و تبدیل محتوا مورد استفاده قرار گیرند، و رابطهای پایگاهدادهای که میتوانند ذخیره کنند را برطرف کند. دادههای خراشیده شده در پایگاههای داده محلی برخی از نرمافزارهای scraping وب نیز میتوانند برای استخراج مستقیم دادهها از یک API استفاده شوند.
مثالها و چشماندازهای موجود در این section در درجهٔ اول نوع نگرش به موضوع یا شیوهٔ عملکردن به آن در ایالات متحده آمریکا را بیان میکنند و بازتابدهندهٔ دیدگاهی جهانشمول از موضوع نیستند. |
قانونی بودن اسکرپینگ وب در سراسر جهان متفاوت است. بهطور کلی، گردآوری از وب ممکن است بر خلاف شرایط استفاده برخی از وب سایتها باشد، اما قابل اجرا بودن این شرایط نامشخص است.
در ایالات متحده، صاحبان وبسایتها میتوانند از سه ادعای حقوقی اصلی برای جلوگیری از حذف ناخواسته وب استفاده کنند: (۱) نقض حق چاپ (تدوین)، (۲) نقض قانون تقلب و سوء استفاده رایانهای ("CFAA") و (۳) تجاوز چرت زدن. با این حال، اثربخشی این ادعاها متکی بر رعایت معیارهای مختلف است و رویه قضایی هنوز در حال تحول است. به عنوان مثال، با توجه به حق چاپ، در حالی که تکرار آشکار عبارت اصلی در بسیاری از موارد غیرقانونی است، در ایالات متحده دادگاهها در انتشارات Feist v. خدمات تلفن روستایی که تکرار حقایق مجاز است.
دادگاههای ایالات متحده اذعان کردهاند که کاربران «خراشندهها» یا «رباتها» ممکن است در قبال ارتکاب تجاوز به خانهها مسئول شناخته شوند، که شامل خود یک سیستم رایانهای به عنوان دارایی شخصی تلقی میشود که کاربر خراشدهنده به آن تجاوز میکند. شناخته شدهترین این موارد، eBay v. Bidder's Edge منجر به دستوری شد که به Bidder's Edge دستور داد دسترسی، جمعآوری و نمایهسازی مزایدهها را از وبسایت eBay متوقف کند. این مورد شامل ارائه خودکار پیشنهادهای، معروف به حراج sniping بود. با این حال، برای موفقیت در ادعای تجاوز به اموال، شاکی باید نشان دهد که مدعی علیه عمداً و بدون مجوز با منافع مالکانه شاکی در سیستم رایانه ای تداخل کرده و استفاده غیرمجاز متهم باعث خسارت به شاکی شدهاست. همه پروندههای عنکبوت وب که در دادگاهها مطرح شدهاند، تجاوز به مالکان تلقی نشدهاند.
یکی از اولین آزمایشهای مهم تراشیدن صفحه، خطوط هوایی آمریکا (AA) و شرکتی به نام FareChase بود. AA با موفقیت دستوری را از یک دادگاه محاکمه تگزاس دریافت کرد و FareChase را از فروش نرمافزاری که به کاربران امکان میدهد در صورتی که نرمافزار وب سایت AA را جستجو کند، قیمتهای آنلاین را مقایسه کنند، متوقف کرد. این شرکت هواپیمایی استدلال میکند که نرمافزار جستجوی وب FareChase هنگام جمعآوری دادههای در دسترس عموم، به سرورهای AA نفوذ کردهاست. FareChase در مارس ۲۰۰۳ درخواست تجدید نظر داد. تا ژوئن، FareChase و AA موافقت کردند که به توافق برسند و درخواست تجدید نظر لغو شد.
خطوط هوایی ساوت وست نیز شیوههای خراش دادن صفحه نمایش را به چالش کشیدهاست و هم FareChase و هم شرکت دیگری به نام Outtask را درگیر یک ادعای حقوقی کردهاست. شرکت هواپیمایی ساوت وست، خراش دادن صفحه را غیرقانونی دانستهاست زیرا نمونه ای از «تقلب و سوء استفاده رایانه ای» است و منجر به «آسیب و ضرر» و «دسترسی غیرمجاز» به سایت Southwest شدهاست. همچنین شامل «تداخل در روابط تجاری»، «تجاوز» و «دسترسی مضر توسط رایانه» است. آنها همچنین ادعا کردند که خراش دادن صفحه نمایش چیزی است که از نظر قانونی به عنوان «اختلاس و غنی سازی ناعادلانه» شناخته میشود، و همچنین نقض توافق کاربر وب سایت است. Outtask همه این ادعاها را رد کرد و ادعا کرد که قانون حاکم، در این مورد، باید قانون حق نسخه برداری ایالات متحده باشد و طبق حق چاپ، قطعات اطلاعاتی که خراشیده میشوند مشمول حمایت حق نسخه برداری نمیشوند. اگرچه این پروندهها هرگز در دادگاه عالی ایالات متحده حل نشد، اما FareChase در نهایت توسط شرکت مادر یاهو بسته شد! و Outtask توسط شرکت هزینه سفر Concur خریداری شد. در سال ۲۰۱۲، استارتاپی به نام 3Taps تبلیغات طبقهبندی شده مسکن را از Craigslist حذف کرد. Craigslist نامه ای برای 3Taps ارسال کرد و آدرسهای IP آنها را مسدود کرد و بعداً در Craigslist v. 3Taps شکایت کرد. دادگاه اعلام کرد که نامه توقف و توقف و مسدود کردن IP برای Craigslist کافی است تا به درستی ادعا کند که 3Taps قانون کلاهبرداری و سوء استفاده رایانه ای را نقض کردهاست.
اگرچه اینها تصمیمات اولیه حذف هستند و تئوریهای مسئولیت یکسان نیستند، اما نادیده گرفتن الگویی که دادگاهها آمادگی دارند از محتوای اختصاصی سایتهای تجاری در برابر استفادههایی که برای صاحبان چنین سایتهایی نامطلوب است محافظت کنند دشوار است. با این حال، میزان حفاظت از چنین محتوایی مشخص نیست و به نوع دسترسی ایجاد شده توسط اسکراپر، میزان دسترسی و کپی کردن اطلاعات، میزان تأثیر نامطلوب دسترسی بر سیستم مالک سایت و انواع و نحوه آن بستگی دارد. ممنوعیت چنین رفتاری
در حالی که قانون در این زمینه ثابتتر میشود، نهادهایی که در نظر دارند از برنامههای خراش دادن برای دسترسی به یک وبسایت عمومی استفاده کنند، باید با بررسی شرایط استفاده و سایر شرایط یا اعلامیههای ارسال شده در سایت یا در دسترس قرار گرفتن از طریق این سایت، در نظر بگیرند که آیا چنین اقدامی مجاز است یا خیر. در حکمی در سال ۲۰۱۰ در Cvent, Inc. ایونتبرایت در دادگاه منطقه ای ایالات متحده برای ناحیه شرقی ویرجینیا، دادگاه حکم داد که شرایط استفاده باید در معرض توجه کاربران قرار گیرد تا قرارداد بستهبندی مرور یا مجوز اجرا شود. در یک پرونده در سال ۲۰۱۴، که در دادگاه منطقه ای ایالات متحده برای ناحیه شرقی پنسیلوانیا ثبت شد، سایت تجارت الکترونیک QVC به «خراش دادن سایت QVC برای دادههای قیمت لحظه ای» توسط گردآورنده خرید مشابه Pinterest اعتراض کرد. QVC ادعا میکند که در نتیجه سایت خرده فروشی QVC را «بیش از حد خزیده» کردهاست (به ادعای ارسال ۲۰۰–۳۰۰ درخواست جستجو به وب سایت QVC در دقیقه، گاهی تا ۳۶۰۰۰ درخواست در دقیقه) که باعث از کار افتادن سایت QVC برای دو روز و در نتیجه از دست رفتن فروش QVC میشود. . شکایت QVC مدعی است که متهم خزنده وب خود را پنهان کرده تا آدرس IP منبع خود را پنهان کند و بنابراین از تعمیر سریع مشکل QVC جلوگیری کردهاست. این یک مورد خراش دادن به خصوص جالب است زیرا QVC به دنبال خسارت به دلیل در دسترس نبودن وب سایت خود است که QVC ادعا میکند توسط Resultly ایجاد شدهاست.
در وب سایت شاکی در طول مدت این محاکمه، لینک شرایط استفاده از بین تمامی لینکهای سایت، در پایین صفحه به عنوان اکثر سایتهای موجود در اینترنت نمایش داده میشود. این حکم با حکم ایرلندی که در زیر توضیح داده شدهاست در تضاد است. دادگاه همچنین استدلال شاکی را رد کرد که محدودیتهای مرور بستهبندی با توجه به تصویب قانون یکنواخت تراکنشهای اطلاعات رایانهای (UCITA) توسط ویرجینیا قابل اجرا بودند - قانونی یکسان که بسیاری معتقد بودند به نفع روشهای قراردادی مرسوم مرور بستهبندی است.
در Facebook, Inc. v. Power Ventures, Inc.، یک دادگاه منطقه ای در سال ۲۰۱۲ حکم داد که Power Ventures نمیتواند صفحات فیس بوک را از طرف یک کاربر فیس بوک خراش دهد. این پرونده در حال تجدید نظر است و بنیاد مرز الکترونیکی در سال ۲۰۱۵ یک گزارش مختصر ارائه کرد و خواستار لغو آن شد. در Associated Press v. Meltwater US Holdings, Inc.، دادگاهی در ایالات متحده، Meltwater را مسئول خراش دادن و بازنشر اطلاعات خبری از آسوشیتدپرس دانست، اما دادگاهی در بریتانیا به نفع Meltwater حکم داد.
بایگانی اینترنت تعداد قابل توجهی از صفحات وب در دسترس عموم را جمعآوری و توزیع میکند بدون اینکه در نظر گرفته شود که قوانین کپی رایت را نقض میکنند.
در فوریه ۲۰۰۶، دادگاه تجاری و دریایی دانمارک (کپنهاگ) حکم داد که خزیدن سیستماتیک، نمایه سازی و پیوند عمیق توسط سایت پورتال ofir.dk سایت املاک Home.dk با قوانین دانمارک یا دستورالعمل پایگاه داده اتحادیه اروپا در تضاد نیست.
دادگاه عالی ایرلند در یک پرونده فوریه ۲۰۱۰ که به دلیل مسائل صلاحیتی پیچیده بود، حکمی صادر کرد که وضعیت نامطلوب در حال توسعه رویه قضایی را نشان میدهد. در پرونده Ryanair Ltd v Billigfluege.de GmbH، دادگاه عالی ایرلند موافقتنامه " کلیک-لپ " Ryanair را از نظر قانونی الزامآور اعلام کرد. برخلاف یافتههای دادگاه منطقهای ایالات متحده در ناحیه شرقی ویرجینیا و یافتههای دادگاه دریایی و تجاری دانمارک، قاضی مایکل هانا حکم داد که لینک فوق به شرایط و ضوابط Ryanair به وضوح قابل مشاهده است و این مسئولیت را بر عهده کاربر گذاشتهاست که موافقت با شرایط و ضوابط به منظور دسترسی به خدمات آنلاین برای تشکیل یک رابطه قراردادی کافی است. این تصمیم در دادگاه عالی ایرلند قابل تجدید نظر است.
در ۳۰ آوریل ۲۰۲۰، سازمان حفاظت از دادههای فرانسه (CNIL) دستورالعملهای جدیدی را در مورد وب اسکرپینگ منتشر کرد. دستورالعملهای CNIL به وضوح نشان میدهد که دادههای در دسترس عموم هنوز هم دادههای شخصی هستند و بدون اطلاع شخصی که آن دادهها به او تعلق دارد، قابل استفاده مجدد نیستند.
در استرالیا، قانون هرزنامه ۲۰۰۳ برخی از اشکال برداشت وب را غیرقانونی میکند، اگرچه این فقط برای آدرسهای ایمیل اعمال میشود.
با باقی گذاشتن چند پرونده مربوط به نقض حقوق مالکیت معنوی، دادگاههای هند صریحاً در مورد قانونی بودن گردآوری از وب رای ندادهاند. با این حال، از آنجایی که همه اشکال رایج قراردادهای الکترونیکی در هند قابل اجرا هستند، نقض شرایط استفاده که حذف دادهها را ممنوع میکند، نقض قانون قرارداد خواهد بود. همچنین قانون فناوری اطلاعات ۲۰۰۰ را که دسترسی غیرمجاز به یک منبع رایانه یا استخراج داده از یک منبع رایانه را جریمه میکند، نقض میکند.
مدیر یک وب سایت میتواند از اقدامات مختلفی برای متوقف کردن یا کند کردن ربات استفاده کند. برخی از تکنیکها عبارتند از:
This article uses material from the Wikipedia فارسی article وب اسکرپینگ, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). محتوا تحت CC BY-SA 4.0 در دسترس است مگر خلافش ذکر شده باشد. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki فارسی (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.