توضیحات
در دنیای امروز، دیتا و اطلاعات حرف اول را میزند، با توجه به رشد و توسعه روز افزون علوم هوش مصنوعی، در دست داشتن اطلاعات و دیتا یکی از آیتم هایی است که میتواند شرکت یا افراد را برای پیشرفت سریعتر حمایت کند، هنگامی که شما با یک وب سایت پر از اطلاعات مواجه میشوید و احساس میکنید که برای ساخت الگو ها یا حتی مقایسه برخی آمار ها به اعداد ارقام و اطلاعات آن نیاز دارید، دو راه پیش روی شماست، راه اول اینکه تمام آن اطلاعات را به صورت دستی استخراج کنید و راه دوم اینکه از وب اسکرپینگ با پایتون یا هر زبان دیگری برای استخراج داده ها کمک بگیرید.
web scraping چیست؟
وب اسکرپینگ یا Web scraping یک فرآیندی خودکار و با استفاده از برنامه نویس و ربات ها میباشد که به کمک آن میتوانید اطلاعات موجود در وبسایت های مختلف را به دست آورده و با فرمتی که میخواهید برای خود ذخیره سازی کنید، این کار را میتوانید به صورت دستی نیز انجام دهید اما از آنجایی که انجام آن به صورت دستی هزینه و زمان نسبتا بالایی را برای شما در بر خواهد داشت عموم مردم ترجیح میدهند تا این کار را به صورت خودکار انجام دهند.
این امر، یک امر غیر قانونی به حساب نمیآید چرا که شما به همان اطلاعاتی دسترسی دارید که همه افراد میتوانند آنها را مشاهده کنند، اما اگر از این اطلاعات در راه غلطی استفاده کنید دیگر از امر مجاز و قانون بودن خارج شده و جرم به شمار میآید.
در دوره آموزش وب اسکرپینگ با پایتون چه یاد میگیریم ؟
در این دوره قرار است تا با استفاده از زبان پایتون و برخی از کتابخانه ها به استخراج دیتا از وبسایت های مختلف بپردازیم و آنها را طبقه بندی کنیم، برای انجام استخراج دیتا با استفاده از زبان پایتون کتابخانه های بسیار زیادی وجود دارد اما ما در این دوره فقط به اصلی ترین کتابخانه های مورد نیاز اشاره میکنیم و سعی میکنیم تا آن ها را به طور کامل برای شما شرح کنیم تا بتوانید به راحتی از هر وبسایتی که دوست دارید اطلاعات را استخراج نمایید.
کتابخانه Requests
Requests یک کتابخانه ساده و در عین حال قدرتمند جهت اجرا وب اسکرپینگ با پایتون به حساب میآید، از این کتابخانه برای ارسال درخواست به صفحات وب استفاده میکنیم و یاد میگیریم که چطور با استفاده از آن درخواستی را ارسال کنیم و از نتایجی که برای ما به عنوان پاسخ ارسال میگردد چطور استفاده نماییم، در نتیجه در وهله اول یادگیری کتابخانه ریکوئست یک امر ضروری و در عین حال ناگزیر است.
کتابخانه Re
یکی دیگر از کتابخانه هایی که به کمک آن کار های زیادی را میتواینم انجام دهیم re یا کتابخانه مربوط به نگارش دستورات ریجکس است، ابتدا برای کار با این کتابخانه باید بتوانیم که دستورات ریجکس را نگارش کرده و آن ها را متوجه شویم و در مرحله بعدی میتوانیم از آنها به هنگام استخراج دیتا نیز کمک بگیریم.
کتابخانه BeautifulSoup
BeautifulSoup یک کتابخانه پایتون است که برای تجزیه دادهها، یعنی استخراج دادهها از اسناد HTML یا XML طراحی شده است. این کتابخانه را میتوان به عنوان مکمل کتابخانه ریکوئست به شمار آورد، چرا که BeautifulSoup تنها توانایی تجزیه کردن دیتا را دارد و نمیتوان به طور مستقیم و با استفاده از آن به اطلاعات یک صفحه وب دسترسی پیدا کرد، اما این کتابخانه را نیز میتوان به عنوان یکی از مهم ترین آیتم هایی که باید آن را بیاموزید نامگذاری کرد.
در دوره آموزش وب اسکرپنیگ با پایتون ما به توضیح نسبتا جامعی در باره BeautifulSoup خواهیم پرداخت.
فریمورک Scrapy
Scrapy یک کتابخانه و فریمورک قدرتمند است که میتواند به صورت همزمان چندین درخواست را به طور موازی برای شما اجرا کند و باعث شود تا در زمان خود صرفه جویی کنید، این کتابخانه قدرتمند را میتوان به عنوان یکی از غول های مرحله آخر برای استخراج دیتا به شمار آورد، در این دوره ما تلاش میکنیم تا بیشترین اطلاعاتی را که میتوانیم در مورد این کتابخانه در اختیار شما قرار دهیم تا بتوانید از آن بهره لازم را ببرید.
آیا دوره آموزش وب اسکرپینگ با پایتون پیش نیاز دارد؟
از آنجایی که قرار است از پایتون برای استخراج اطلاعات استفاده کنیم پس منطقی است که ابتدا پایتون بلد باشیم. در نتیجه اگر هنوز زبان پایتون را به خوبی نیاموخته اید توصیه میکنیم که با دوره آموزش صفر تا صد پایتون به صورت پروژه محور کار خود را آغاز کنید تا در مسیر یادگیری وب اسکرپینگ با مشکل مواجه نشوید.
- web scraping
سرفصل های دوره
تاکنون 0 دیدگاه ثبت شده است!
ارسال نظر شما
ارسال نظر فقط برای دانشجویان دوره مجاز میباشد
1,500,000 -
950,000
تومان
- در دنیای امروز اطلاعات حرف اول را میزند و اگر شما میخواهید که اطلاعات یک وبسایت را در دست خود داشته باشید میتوانید با استفاده وب اسکرپینگ با پایتون این کار را انجام دهید.
ویژگی های دوره
- شرکت کنندگان:0 نفر
- تعداد فصل ها:1
- تعداد قسمت ها:1
- مدت دوره:15 دقیقه
- سطح دوره:مبتدی تا پیشرفته
- وضعیت دوره:دوره در حال ضبط می باشد