{"id":2859,"date":"2024-02-18T15:29:24","date_gmt":"2024-02-18T15:29:24","guid":{"rendered":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/"},"modified":"2024-02-18T15:29:24","modified_gmt":"2024-02-18T15:29:24","slug":"efficient-website-data-scraping-for-improved-data-management","status":"publish","type":"resource","link":"https:\/\/esisoc.com\/es\/resource\/raspado-eficaz-de-datos-de-sitios-web-para-mejorar-la-gestion-de-datos\/","title":{"rendered":"Extracci\u00f3n eficaz de datos de sitios web para mejorar la gesti\u00f3n de datos"},"content":{"rendered":"<h2 style=\"text-align: center;\">Detalles clave<\/h2>\n<p>Acceso a m\u00faltiples fuentes de datos con data scraping.<\/p>\n<div>\n<ul>\n<li>\n<div>Desaf\u00edo<\/div>\n<div>Extracci\u00f3n r\u00e1pida y precisa de datos de m\u00faltiples fuentes<\/div>\n<\/li>\n<li>\n<div>Soluci\u00f3n<\/div>\n<div>Pr\u00e1cticas recomendadas para un raspado web robusto y resistente<\/div>\n<\/li>\n<li>\n<div>Tecnolog\u00edas y herramientas<\/div>\n<div>Microsoft Azure Cloud Services para el alojamiento, ajuste y administraci\u00f3n de la infraestructura. Lenguaje Python con las librer\u00edas y frameworks necesarios (Azure-sdk, Scrapy, Selenium, etc.) para el proceso de scraping y crawling de sitios web.<\/div>\n<\/li>\n<\/ul>\n<\/div>\n<h2 style=\"text-align: center;\">Cliente<\/h2>\n<p>El cliente es una organizaci\u00f3n no comercial que presta apoyo a peque\u00f1as empresas y empresarios afroamericanos. Est\u00e1n orgullosos de prestar servicios que ayudan a los empresarios afroamericanos a conseguir subvenciones y alcanzar el \u00e9xito en los concursos.<\/p>\n<h2 style=\"text-align: center;\">Reto: obtenci\u00f3n r\u00e1pida y precisa de datos de m\u00faltiples fuentes<\/h2>\n<p>El cliente maneja regularmente enormes cantidades de datos procedentes de diversas fuentes. As\u00ed que la gesti\u00f3n de datos se ha convertido en una preocupaci\u00f3n para ellos.<\/p>\n<p>Quer\u00edan recopilar ofertas de trabajo, tutor\u00eda y oportunidades de establecer redes para empresarios afroamericanos con talento de varios sitios web y publicarlas en su propia plataforma. As\u00ed, los empresarios pueden descubrir f\u00e1cilmente empresas de afroamericanos e ir a apoyarlas o localizar la suya propia.<\/p>\n<p>ESSID Solutions se enfrent\u00f3 al reto de desarrollar una s\u00f3lida soluci\u00f3n de raspado de datos para el mercado del cliente.<\/p>\n<h2 style=\"text-align: center;\">Soluci\u00f3n: mejores pr\u00e1cticas para un raspado web robusto y resistente<\/h2>\n<p>Nuestro equipo de ingenieros ha aplicado su experiencia en el raspado de datos para permitir la recopilaci\u00f3n eficaz de datos de diversas fuentes.<\/p>\n<p><a href=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme.png\" rel=\"noopener\" target=\"_blank\"><img alt=\"Esquema de la soluci\u00f3n de raspado de datos de sitios web\" decoding=\"async\" height=\"1716\" loading=\"lazy\" sizes=\"(max-width: 1200px) 100vw, 1200px\" src=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme.png\" srcset=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme.png 1200w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-210x300.png 210w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-716x1024.png 716w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-768x1098.png 768w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-1074x1536.png 1074w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-519x742.png 519w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-scheme-448x640.png 448w\" width=\"1200\"\/><\/a><\/p>\n<p>El equipo de ESSID Solutions deb\u00eda configurar la infraestructura y el flujo de c\u00f3digo para el cliente:<\/p>\n<ol>\n<li>\n<h3>Parte de Git y CI\/CD<\/h3>\n<p>Para la gesti\u00f3n del c\u00f3digo se utiliz\u00f3 el repositorio AzureDevOps con una configuraci\u00f3n de canalizaci\u00f3n que permiti\u00f3 a nuestro equipo crear y enviar im\u00e1genes Docker al registro mediante un agente de trabajo paralelo.<\/li>\n<li>\n<h3>Registro y aplicaci\u00f3n l\u00f3gica<\/h3>\n<p>A continuaci\u00f3n, creamos Azure Docker Container Registry en <a href=\"http:\/\/localhost\/essidsolutions\/service\/azure-data-analytics-services\">Azure<\/a> para almacenar nuestras im\u00e1genes Docker.<\/p>\n<p>A continuaci\u00f3n, necesit\u00e1bamos crear instancias Docker a partir de im\u00e1genes utilizando Azure Logic App para ejecutar el c\u00f3digo de scraper en paralelo y por separado.<\/li>\n<li>\n<h3>Pieza rascadora<\/h3>\n<p>Durante esta etapa, el equipo de ESSID Solutions cre\u00f3 instancias de contenedor con aplicaciones Logic. A continuaci\u00f3n, necesit\u00e1bamos dar acceso a cada contenedor a los recursos de Azure y a los datos confidenciales, como contrase\u00f1as, cadenas de conexi\u00f3n, etc., que se almacenaban en Azure KeyVault.<\/p>\n<p><img alt=\"rascador parte proyecto\" decoding=\"async\" height=\"301\" loading=\"lazy\" sizes=\"(max-width: 871px) 100vw, 871px\" src=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write.png\" srcset=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write.png 871w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write-300x104.png 300w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write-768x265.png 768w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write-742x256.png 742w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-write-640x221.png 640w\" width=\"871\"\/><\/p>\n<p>Para almacenar los resultados de los raspadores, nuestro equipo decidi\u00f3 crear una cuenta de almacenamiento que ser\u00eda como una carpeta en la nube para guardar los datos raspados. Despu\u00e9s pudimos iniciar nuestros scrapers de forma manual, pero necesit\u00e1bamos algo de orquestaci\u00f3n, automatizaci\u00f3n y postprocesamiento.<\/li>\n<li>\n<h3>Data Factory y parte de orquestaci\u00f3n<\/h3>\n<p>Nuestros ingenieros ejecutaron todos nuestros scrapers con time-trigger y en una \u00fanica ejecuci\u00f3n de pipeline con Azure Data Factory.<\/p>\n<p>La tuber\u00eda principal se supon\u00eda que iniciar todos los contenedores con las solicitudes a trav\u00e9s de azure API, a continuaci\u00f3n, ejecute <a href=\"http:\/\/localhost\/essidsolutions\/service\/databricks-managed-services\">DataBricks<\/a> Cuadernos para procesar los datos recogidos.<\/p>\n<p><img alt=\"orquestaci\u00f3n parte proyecto\" decoding=\"async\" height=\"305\" loading=\"lazy\" sizes=\"(max-width: 757px) 100vw, 757px\" src=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run.png\" srcset=\"https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run.png 757w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run-300x121.png 300w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run-742x299.png 742w, https:\/\/essidsolutions.com\/wp-content\/uploads\/2023\/02\/case-data-scraping-solution-run-640x258.png 640w\" width=\"757\"\/><\/li>\n<li>\n<h3>DataBricks<\/h3>\n<p>En esta fase, eliminamos todos los datos de los sitios web (ya que la carga incremental de datos de sitios web no es posible o dif\u00edcil) y procesamos\/guardamos todos los datos en la base de datos. Antes de cargar nuevos datos en la base de datos, borramos los existentes.<\/p>\n<p>Como resultado, el cliente ha obtenido una soluci\u00f3n de raspado de datos robusta que raspa datos de m\u00faltiples sitios y listados de negocios y recopila informaci\u00f3n sobre negocios fundados por afroamericanos que son \u00fatiles para los suscriptores de la plataforma del cliente.<\/li>\n<\/ol>\n<h2 style=\"text-align: center;\">Resultado: optimizaci\u00f3n de la extracci\u00f3n de datos para reducir el tiempo de procesamiento<\/h2>\n<p>Nuestro equipo de cient\u00edficos e ingenieros de datos recurri\u00f3 a m\u00faltiples fuentes para satisfacer las necesidades de raspado de datos del cliente.<\/p>\n<p>Nuestra soluci\u00f3n ha capacitado al cliente de las siguientes maneras:<\/p>\n<ul>\n<li><a href=\"https:\/\/essidsolutions.com\/data-extraction\">Extracci\u00f3n de datos a escala<\/a><\/li>\n<li>Entrega de datos estructurados<\/li>\n<li>Poco mantenimiento y rapidez<\/li>\n<li>F\u00e1cil de aplicar<\/li>\n<li>Automatizaci\u00f3n.<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>Detalles clave Acceso a m\u00faltiples fuentes de datos con el scraping de datos. Reto Raspado r\u00e1pido y preciso de datos de m\u00faltiples fuentes Soluci\u00f3n Pr\u00e1cticas recomendadas para un raspado web s\u00f3lido y resistente Tecnolog\u00edas y herramientas Servicios en la nube de Microsoft Azure para el alojamiento, el ajuste y la administraci\u00f3n de la infraestructura. Lenguaje Python con las librer\u00edas y frameworks necesarios (Azure-sdk, Scrapy, Selenium, etc.) para el scraping de sitios web ... Leer m\u00e1s <a title=\"Extracci\u00f3n eficaz de datos de sitios web para mejorar la gesti\u00f3n de datos\" class=\"read-more\" href=\"https:\/\/esisoc.com\/es\/resource\/raspado-eficaz-de-datos-de-sitios-web-para-mejorar-la-gestion-de-datos\/\" aria-label=\"Leer m\u00e1s sobre Efficient Website Data Scraping for Improved Data Management\">Leer m\u00e1s<\/a><\/p>","protected":false},"featured_media":2860,"template":"","industry":[77,70],"expertise":[74,65,78,72,58],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v21.9 (Yoast SEO v21.9.1) - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Efficient Website Data Scraping for Improved Data Management - ESISOC | ESSID Solutions<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/esisoc.com\/es\/resource\/raspado-eficaz-de-datos-de-sitios-web-para-mejorar-la-gestion-de-datos\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Efficient Website Data Scraping for Improved Data Management\" \/>\n<meta property=\"og:description\" content=\"Key Details Accessing multiple data sources with data scraping. Challenge Fast and accurate data scraping from multiple sources Solution Best practices for robust &amp; resilient web scraping Technologies and tools Microsoft Azure Cloud Services for infrastructure hosting, tuning and administration. Python language with required libraries and frameworks (Azure-sdk, Scrapy, Selenium, etc.) for web sites scraping ... Leer m\u00e1s\" \/>\n<meta property=\"og:url\" content=\"https:\/\/esisoc.com\/es\/resource\/raspado-eficaz-de-datos-de-sitios-web-para-mejorar-la-gestion-de-datos\/\" \/>\n<meta property=\"og:site_name\" content=\"ESISOC | ESSID Solutions\" \/>\n<meta property=\"og:image\" content=\"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/83ede7fb50b04acc8e2536d6b92b7761.webp\" \/>\n\t<meta property=\"og:image:width\" content=\"839\" \/>\n\t<meta property=\"og:image:height\" content=\"514\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/webp\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data1\" content=\"3 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/\",\"url\":\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/\",\"name\":\"Efficient Website Data Scraping for Improved Data Management - ESISOC | ESSID Solutions\",\"isPartOf\":{\"@id\":\"https:\/\/esisoc.com\/#website\"},\"datePublished\":\"2024-02-18T15:29:24+00:00\",\"dateModified\":\"2024-02-18T15:29:24+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/esisoc.com\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Efficient Website Data Scraping for Improved Data Management\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/esisoc.com\/#website\",\"url\":\"https:\/\/esisoc.com\/\",\"name\":\"ESISOC | ESSID Solutions\",\"description\":\"Data Science Consulting and AI | Online Books, Videos, Courses and more\",\"publisher\":{\"@id\":\"https:\/\/esisoc.com\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/esisoc.com\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/esisoc.com\/#organization\",\"name\":\"ESISOC | ESSID Solutions\",\"url\":\"https:\/\/esisoc.com\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/esisoc.com\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/logo-esisoc.png\",\"contentUrl\":\"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/logo-esisoc.png\",\"width\":350,\"height\":63,\"caption\":\"ESISOC | ESSID Solutions\"},\"image\":{\"@id\":\"https:\/\/esisoc.com\/#\/schema\/logo\/image\/\"}}]}<\/script>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"Efficient Website Data Scraping for Improved Data Management - ESISOC | ESSID Solutions","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/esisoc.com\/es\/resource\/raspado-eficaz-de-datos-de-sitios-web-para-mejorar-la-gestion-de-datos\/","og_locale":"es_ES","og_type":"article","og_title":"Efficient Website Data Scraping for Improved Data Management","og_description":"Key Details Accessing multiple data sources with data scraping. Challenge Fast and accurate data scraping from multiple sources Solution Best practices for robust &amp; resilient web scraping Technologies and tools Microsoft Azure Cloud Services for infrastructure hosting, tuning and administration. Python language with required libraries and frameworks (Azure-sdk, Scrapy, Selenium, etc.) for web sites scraping ... Leer m\u00e1s","og_url":"https:\/\/esisoc.com\/es\/resource\/raspado-eficaz-de-datos-de-sitios-web-para-mejorar-la-gestion-de-datos\/","og_site_name":"ESISOC | ESSID Solutions","og_image":[{"width":839,"height":514,"url":"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/83ede7fb50b04acc8e2536d6b92b7761.webp","type":"image\/webp"}],"twitter_card":"summary_large_image","twitter_misc":{"Tiempo de lectura":"3 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/","url":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/","name":"Efficient Website Data Scraping for Improved Data Management - ESISOC | ESSID Solutions","isPartOf":{"@id":"https:\/\/esisoc.com\/#website"},"datePublished":"2024-02-18T15:29:24+00:00","dateModified":"2024-02-18T15:29:24+00:00","breadcrumb":{"@id":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/esisoc.com\/resource\/efficient-website-data-scraping-for-improved-data-management\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/esisoc.com\/"},{"@type":"ListItem","position":2,"name":"Efficient Website Data Scraping for Improved Data Management"}]},{"@type":"WebSite","@id":"https:\/\/esisoc.com\/#website","url":"https:\/\/esisoc.com\/","name":"ESISOC | ESSID Solutions","description":"Data Science Consulting and AI | Online Books, Videos, Courses and more","publisher":{"@id":"https:\/\/esisoc.com\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/esisoc.com\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/esisoc.com\/#organization","name":"ESISOC | ESSID Solutions","url":"https:\/\/esisoc.com\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/esisoc.com\/#\/schema\/logo\/image\/","url":"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/logo-esisoc.png","contentUrl":"https:\/\/esisoc.com\/wp-content\/uploads\/2024\/02\/logo-esisoc.png","width":350,"height":63,"caption":"ESISOC | ESSID Solutions"},"image":{"@id":"https:\/\/esisoc.com\/#\/schema\/logo\/image\/"}}]}},"_links":{"self":[{"href":"https:\/\/esisoc.com\/es\/wp-json\/wp\/v2\/resource\/2859"}],"collection":[{"href":"https:\/\/esisoc.com\/es\/wp-json\/wp\/v2\/resource"}],"about":[{"href":"https:\/\/esisoc.com\/es\/wp-json\/wp\/v2\/types\/resource"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/esisoc.com\/es\/wp-json\/wp\/v2\/media\/2860"}],"wp:attachment":[{"href":"https:\/\/esisoc.com\/es\/wp-json\/wp\/v2\/media?parent=2859"}],"wp:term":[{"taxonomy":"industry","embeddable":true,"href":"https:\/\/esisoc.com\/es\/wp-json\/wp\/v2\/industry?post=2859"},{"taxonomy":"expertise","embeddable":true,"href":"https:\/\/esisoc.com\/es\/wp-json\/wp\/v2\/expertise?post=2859"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}