{"id":2859,"date":"2024-02-18T15:29:24","date_gmt":"2024-02-18T15:29:24","guid":{"rendered":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/"},"modified":"2024-02-18T15:29:24","modified_gmt":"2024-02-18T15:29:24","slug":"efficient-website-data-scraping-for-improved-data-management","status":"publish","type":"resource","link":"https:\/\/esisoc.com\/de\/resource\/effizientes-scraping-von-website-daten-fur-ein-besseres-datenmanagement\/","title":{"rendered":"Effizientes Website-Data-Scraping f\u00fcr ein verbessertes Datenmanagement"},"content":{"rendered":"<h2 style=\"text-align: center;\">Wichtige Details<\/h2>\n<p>Zugriff auf mehrere Datenquellen mit Data Scraping.<\/p>\n<div>\n<ul>\n<li>\n<div>Herausforderung<\/div>\n<div>Schnelles und genaues Scraping von Daten aus mehreren Quellen<\/div>\n<\/li>\n<li>\n<div>L\u00f6sung<\/div>\n<div>Bew\u00e4hrte Verfahren f\u00fcr robustes und widerstandsf\u00e4higes Web Scraping<\/div>\n<\/li>\n<li>\n<div>Technologien und Werkzeuge<\/div>\n<div>Microsoft Azure Cloud Services f\u00fcr Infrastruktur-Hosting, Tuning und Verwaltung. Python-Sprache mit den erforderlichen Bibliotheken und Frameworks (Azure-sdk, Scrapy, Selenium usw.) f\u00fcr das Scraping und Crawling von Websites<\/div>\n<\/li>\n<\/ul>\n<\/div>\n<h2 style=\"text-align: center;\">Kunde<\/h2>\n<p>Der Kunde ist eine nichtkommerzielle Organisation, die afroamerikanische Kleinunternehmen und Unternehmer unterst\u00fctzt. Sie sind stolz darauf, Dienstleistungen anzubieten, die afroamerikanischen Unternehmern helfen, Zusch\u00fcsse zu erhalten und bei Wettbewerben erfolgreich zu sein.<\/p>\n<h2 style=\"text-align: center;\">Herausforderung: schnelles und genaues Scraping von Daten aus verschiedenen Quellen<\/h2>\n<p>Der Kunde hat regelm\u00e4\u00dfig mit riesigen Datenmengen zu tun, die aus verschiedenen Quellen stammen. Daher ist die Datenverwaltung f\u00fcr ihn zu einem Problem geworden.<\/p>\n<p>Sie wollten Jobangebote, Mentoren und Netzwerkm\u00f6glichkeiten f\u00fcr talentierte afroamerikanische Unternehmer von verschiedenen Websites zusammensuchen und auf ihrer eigenen Plattform ver\u00f6ffentlichen. So k\u00f6nnen Unternehmer auf einfache Weise Unternehmen im Besitz von Afroamerikanern entdecken und sie unterst\u00fctzen oder ihr eigenes Unternehmen gr\u00fcnden.<\/p>\n<p>ESSID Solutions wurde mit der Aufgabe konfrontiert, eine leistungsstarke L\u00f6sung f\u00fcr das Scraping von Daten f\u00fcr den Markt des Kunden zu entwickeln.<\/p>\n<h2 style=\"text-align: center;\">L\u00f6sung: bew\u00e4hrte Verfahren f\u00fcr robustes und widerstandsf\u00e4higes Web Scraping<\/h2>\n<p>Unser Team von Ingenieuren hat sein Fachwissen im Bereich Data Scraping eingesetzt, um eine effektive Datenerfassung aus verschiedenen Quellen zu erm\u00f6glichen.<\/p>\n<p><a href=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme.png\" rel=\"noopener\" target=\"_blank\"><img alt=\"Website Data Scraping L\u00f6sungsschema\" decoding=\"async\" height=\"1716\" loading=\"lazy\" sizes=\"(max-width: 1200px) 100vw, 1200px\" src=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme.png\" srcset=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme.png 1200w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-210x300.png 210w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-716x1024.png 716w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-768x1098.png 768w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-1074x1536.png 1074w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-519x742.png 519w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-448x640.png 448w\" width=\"1200\"\/><\/a><\/p>\n<p>Das Team von ESSID Solutions sollte die Infrastruktur und den Codefluss f\u00fcr den Kunden einrichten:<\/p>\n<ol>\n<li>\n<h3>Git und CI\/CD Teil<\/h3>\n<p>F\u00fcr die Code-Verwaltung wurde das AzureDevOps-Repository mit einem solchen Pipeline-Setup verwendet, das es unserem Team erm\u00f6glichte, mithilfe eines parallelen Job-Agenten Docker-Images zu erstellen und in die Registry zu \u00fcbertragen.<\/li>\n<li>\n<h3>Registry und Logic App Teil<\/h3>\n<p>Als n\u00e4chstes haben wir Azure Docker Container Registry auf <a href=\"http:\/\/localhost\/essidsolutions\/service\/azure-data-analytics-services\">Azurblau<\/a> Portal, um unsere Docker-Images zu speichern.<\/p>\n<p>Dann mussten wir Docker-Instanzen aus Images erstellen, indem wir Azure Logic App verwendeten, um den Scraper-Code parallel und separat auszuf\u00fchren.<\/li>\n<li>\n<h3>Teil des Abstreifers<\/h3>\n<p>In dieser Phase erstellte das ESSID Solutions-Team Container-Instanzen mit Logic-Apps. Dann mussten wir jedem Container Zugriff auf Azure-Ressourcen und sensible Daten wie Kennw\u00f6rter, Verbindungszeichenfolgen usw. geben, die in Azure KeyVault gespeichert waren.<\/p>\n<p><img alt=\"Abstreifer Teilprojekt\" decoding=\"async\" height=\"301\" loading=\"lazy\" sizes=\"(max-width: 871px) 100vw, 871px\" src=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write.png\" srcset=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write.png 871w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write-300x104.png 300w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write-768x265.png 768w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write-742x256.png 742w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write-640x221.png 640w\" width=\"871\"\/><\/p>\n<p>Um die Ergebnisse der Scraper zu speichern, beschloss unser Team, ein Speicherkonto einzurichten, das wie ein Cloud-Ordner zum Speichern der gescrapten Daten fungieren sollte. Danach waren wir in der Lage, unsere Scraper manuell zu starten, aber wir ben\u00f6tigten eine gewisse Orchestrierung, Automatisierung und Nachbearbeitung.<\/li>\n<li>\n<h3>Data Factory und Orchestrierungsteil<\/h3>\n<p>Unsere Ingenieure haben alle unsere Scraper mit Time-Trigger und in einer einzigen Pipeline mit Azure Data Factory ausgef\u00fchrt.<\/p>\n<p>Die Hauptpipeline sollte alle Container mit Anfragen \u00fcber die Azure-API starten, dann die <a href=\"http:\/\/localhost\/essidsolutions\/service\/databricks-managed-services\">DataBricks<\/a> Notebooks zur Verarbeitung der gesammelten Daten.<\/p>\n<p><img alt=\"Inszenierung Teilprojekt\" decoding=\"async\" height=\"305\" loading=\"lazy\" sizes=\"(max-width: 757px) 100vw, 757px\" src=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run.png\" srcset=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run.png 757w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run-300x121.png 300w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run-742x299.png 742w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run-640x258.png 640w\" width=\"757\"\/><\/li>\n<li>\n<h3>DataBricks<\/h3>\n<p>In dieser Phase haben wir alle Daten von den Websites gel\u00f6scht (da das inkrementelle Laden von Daten von Websites nicht m\u00f6glich oder schwierig ist) und die Daten vollst\u00e4ndig in der Datenbank verarbeitet\/gespeichert. Bevor wir neue Daten in die Datenbank geladen haben, haben wir die vorhandenen Daten gel\u00f6scht.<\/p>\n<p>Als Ergebnis hat der Kunde eine robuste Data-Scraping-L\u00f6sung, die Daten von mehreren Websites und Unternehmensverzeichnissen ausliest und Informationen \u00fcber von Afroamerikanern gegr\u00fcndete Unternehmen sammelt, die f\u00fcr die Abonnenten der Plattform des Kunden n\u00fctzlich sind.<\/li>\n<\/ol>\n<h2 style=\"text-align: center;\">Ergebnis: Optimierung des Data Scraping f\u00fcr k\u00fcrzere Bearbeitungszeiten<\/h2>\n<p>Unser Team aus Datenwissenschaftlern und -ingenieuren griff auf mehrere Quellen zur\u00fcck, um die Anforderungen des Kunden an die Datenauswertung zu erf\u00fcllen.<\/p>\n<p>Unsere L\u00f6sung hat den Kunden auf folgende Weise unterst\u00fctzt:<\/p>\n<ul>\n<li><a href=\"https:\/\/essidsolutions.com\/data-extraction\">Datenextraktion in gro\u00dfem Ma\u00dfstab<\/a><\/li>\n<li>Strukturierte Daten geliefert<\/li>\n<li>Wartungsarm und schnell<\/li>\n<li>Leicht umsetzbar<\/li>\n<li>Automatisierung.<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>Wichtige Details Zugriff auf mehrere Datenquellen mit Data Scraping. Herausforderung Schnelles und genaues Data Scraping aus mehreren Quellen L\u00f6sung Best Practices f\u00fcr robustes und widerstandsf\u00e4higes Web Scraping Technologien und Tools Microsoft Azure Cloud Services f\u00fcr Infrastruktur-Hosting, Tuning und Administration. Python-Sprache mit den erforderlichen Bibliotheken und Frameworks (Azure-sdk, Scrapy, Selenium usw.) f\u00fcr das Scraping von Websites ... Weiterlesen ... <a title=\"Effizientes Website-Data-Scraping f\u00fcr ein verbessertes Datenmanagement\" class=\"read-more\" href=\"https:\/\/esisoc.com\/de\/resource\/effizientes-scraping-von-website-daten-fur-ein-besseres-datenmanagement\/\" aria-label=\"Mehr Informationen \u00fcber Efficient Website Data Scraping for Improved Data Management\">Weiterlesen &#8230;<\/a><\/p>","protected":false},"featured_media":2860,"template":"","industry":[77,70],"expertise":[74,65,78,72,58],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v21.9 (Yoast SEO v21.9.1) - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Efficient Website Data Scraping for Improved Data Management - ESISOC | ESSID Solutions<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/esisoc.com\/de\/resource\/effizientes-scraping-von-website-daten-fur-ein-besseres-datenmanagement\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Efficient Website Data Scraping for Improved Data Management\" \/>\n<meta property=\"og:description\" content=\"Key Details Accessing multiple data sources with data scraping. Challenge Fast and accurate data scraping from multiple sources Solution Best practices for robust &amp; resilient web scraping Technologies and tools Microsoft Azure Cloud Services for infrastructure hosting, tuning and administration. Python language with required libraries and frameworks (Azure-sdk, Scrapy, Selenium, etc.) for web sites scraping ... Weiterlesen ...\" \/>\n<meta property=\"og:url\" content=\"https:\/\/esisoc.com\/de\/resource\/effizientes-scraping-von-website-daten-fur-ein-besseres-datenmanagement\/\" \/>\n<meta property=\"og:site_name\" content=\"ESISOC | ESSID Solutions\" \/>\n<meta property=\"og:image\" content=\"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/83ede7fb50b04acc8e2536d6b92b7761.webp\" \/>\n\t<meta property=\"og:image:width\" content=\"839\" \/>\n\t<meta property=\"og:image:height\" content=\"514\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/webp\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data1\" content=\"3\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/\",\"url\":\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/\",\"name\":\"Efficient Website Data Scraping for Improved Data Management - ESISOC | ESSID Solutions\",\"isPartOf\":{\"@id\":\"https:\/\/esisoc.com\/#website\"},\"datePublished\":\"2024-02-18T15:29:24+00:00\",\"dateModified\":\"2024-02-18T15:29:24+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/esisoc.com\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Efficient Website Data Scraping for Improved Data Management\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/esisoc.com\/#website\",\"url\":\"https:\/\/esisoc.com\/\",\"name\":\"ESISOC | ESSID Solutions\",\"description\":\"Data Science Consulting and AI | Online Books, Videos, Courses and more\",\"publisher\":{\"@id\":\"https:\/\/esisoc.com\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/esisoc.com\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"de\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/esisoc.com\/#organization\",\"name\":\"ESISOC | ESSID Solutions\",\"url\":\"https:\/\/esisoc.com\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\/\/esisoc.com\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/logo-esisoc.png\",\"contentUrl\":\"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/logo-esisoc.png\",\"width\":350,\"height\":63,\"caption\":\"ESISOC | ESSID Solutions\"},\"image\":{\"@id\":\"https:\/\/esisoc.com\/#\/schema\/logo\/image\/\"}}]}<\/script>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"Efficient Website Data Scraping for Improved Data Management - ESISOC | ESSID Solutions","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/esisoc.com\/de\/resource\/effizientes-scraping-von-website-daten-fur-ein-besseres-datenmanagement\/","og_locale":"de_DE","og_type":"article","og_title":"Efficient Website Data Scraping for Improved Data Management","og_description":"Key Details Accessing multiple data sources with data scraping. Challenge Fast and accurate data scraping from multiple sources Solution Best practices for robust &amp; resilient web scraping Technologies and tools Microsoft Azure Cloud Services for infrastructure hosting, tuning and administration. Python language with required libraries and frameworks (Azure-sdk, Scrapy, Selenium, etc.) for web sites scraping ... Weiterlesen ...","og_url":"https:\/\/esisoc.com\/de\/resource\/effizientes-scraping-von-website-daten-fur-ein-besseres-datenmanagement\/","og_site_name":"ESISOC | ESSID Solutions","og_image":[{"width":839,"height":514,"url":"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/83ede7fb50b04acc8e2536d6b92b7761.webp","type":"image\/webp"}],"twitter_card":"summary_large_image","twitter_misc":{"Gesch\u00e4tzte Lesezeit":"3\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/","url":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/","name":"Efficient Website Data Scraping for Improved Data Management - ESISOC | ESSID Solutions","isPartOf":{"@id":"https:\/\/esisoc.com\/#website"},"datePublished":"2024-02-18T15:29:24+00:00","dateModified":"2024-02-18T15:29:24+00:00","breadcrumb":{"@id":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/esisoc.com\/"},{"@type":"ListItem","position":2,"name":"Efficient Website Data Scraping for Improved Data Management"}]},{"@type":"WebSite","@id":"https:\/\/esisoc.com\/#website","url":"https:\/\/esisoc.com\/","name":"ESISOC | ESSID Solutions","description":"Data Science Consulting and AI | Online Books, Videos, Courses and more","publisher":{"@id":"https:\/\/esisoc.com\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/esisoc.com\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"de"},{"@type":"Organization","@id":"https:\/\/esisoc.com\/#organization","name":"ESISOC | ESSID Solutions","url":"https:\/\/esisoc.com\/","logo":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/esisoc.com\/#\/schema\/logo\/image\/","url":"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/logo-esisoc.png","contentUrl":"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/logo-esisoc.png","width":350,"height":63,"caption":"ESISOC | ESSID Solutions"},"image":{"@id":"https:\/\/esisoc.com\/#\/schema\/logo\/image\/"}}]}},"_links":{"self":[{"href":"https:\/\/esisoc.com\/de\/wp-json\/wp\/v2\/resource\/2859"}],"collection":[{"href":"https:\/\/esisoc.com\/de\/wp-json\/wp\/v2\/resource"}],"about":[{"href":"https:\/\/esisoc.com\/de\/wp-json\/wp\/v2\/types\/resource"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/esisoc.com\/de\/wp-json\/wp\/v2\/media\/2860"}],"wp:attachment":[{"href":"https:\/\/esisoc.com\/de\/wp-json\/wp\/v2\/media?parent=2859"}],"wp:term":[{"taxonomy":"industry","embeddable":true,"href":"https:\/\/esisoc.com\/de\/wp-json\/wp\/v2\/industry?post=2859"},{"taxonomy":"expertise","embeddable":true,"href":"https:\/\/esisoc.com\/de\/wp-json\/wp\/v2\/expertise?post=2859"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}