JobKorea 등 구직사이트 데이터 수집! 전 과정 자동, 무료 스크래핑!
인터넷에서 여러 가지의 채용정보는 양도 많고 내용도 복잡합니다. 이런 채용정보를 어떻게 수집하는 것은 많은 구직자들의 고민이 되었습니다. 오늘은 채용 관련 웹사이트에서 다양한 정보를 빠르게 수집하는 방법을 알려드리겠습니다. ScrapeStorm이라는 무료 웹 데이터 자동 수집 프로그램을 이용해 국내 인기 구직사이트 JobKorea를 스크랩합니다. ScrapeStorm은 다양한 유형의 웹 페이지 수집을 지원하며 리스트 유형의 웹 페이지뿐만 아니라 상세 페이지도 심층적으로 수집할 수 있습니다. 이번 튜토리얼에서는 리스트 페이지 + 상세 페이지를 스크랩하는 방법에 대해 구체적으로 안내해 드릴 예정이니 관심있으시면 함께 살펴보시기 바랍니다~ 1. 태스크 만들기 수집할 웹 페이지 링크를 입력 상자에 복사하고 오른쪽에 있는 '스마트 모드' 버튼을 클릭하면 ScrapeStorm이 스마트 모드 태스크를 자동으로 설정하고 페이지에 있는 데이터를 자동으로 인식합니다. 2. 리스트 페이지 스크래핑 리스트 유형의 웹 페이지는 동일한 요소를 가진 콘텐츠 페이지가 일정한 선형 순서로 배열되어 분포된 웹 페이지이며 여기에 표시된 각 채용 회사의 요약 정보 배열 웹 페이지는 리스트 유형의 웹 페이지입니다. 여기서 소프트웨어는 현제 페이지의 제목, 제목 링크 등 정보를 이미 자동으로 인식했습니다. 필요에 따라 필드를 설정할 수 있습니다. 3. 상세페이지 스크래핑 상세 페이지는 일반적으로 상품의 상세 정보 또는 기사의 내용입니다. 여기서 제목을 클릭하고 들어가는 채용회사 상세 소개 페이지가 바로 상세페이지입니다. 심층 스크래핑 기능을 사용하여 상세페이지의 데이터를 수집할 수 있습니다. 먼저 제목 링크를 선택하고 ‘심층 스크래핑’버튼을 클릭하여 상세페이지에 자동으로 들어갈 수 있습니다. 주의: 시스템은 기본적으로 리스트의 첫 번째 상세 페이지로 자동으로 이동합니다. 상세 페이지에서 필요한 필드를 수동으로 추가할 수 있습니다. 먼저, ‘필드 추가’버튼을 클릭하고 페이지에서 필요한 데이터를 선택하면 됩니다. 주의: 리스트 중 하나의 상세 페이지에 대한 처리는 다른 모든 상세 페이지에 적용됩니다. 하나의 상세 페이지에서 필드를 수집하면 리스트의 다른 모든 상세 페이지에서 동일한 위치에 있는 필드도 수집됩니다. 4. 스크래핑 시작 모든 데이터가 정리되면 스크래핑 시작 버튼을 클릭하면 구체적인 스크래핑 조건을 설정할 수 있습니다. 스케쥴러, 스마트 정책, 자동 추출, 파일 다운로드 등 다양한 기능 설정을 포함합니다. 설정이 완료되면 시작 버튼을 클릭하여 실행을 시작할 수 있으며 실행 페이지에서 상세한 스크래핑 상활을 볼 수 있습니다. 5. 데이터 내보내기 모든 데이터가 수집되면 소프트웨어가 자동으로 힌트를 보내므로 데이터를 바로 내보내거나 나중에 내보내도록 선택할 수 있습니다. 내보내기 유형에는 Excel, CSV, TXT, HTML 및 데이터베이스 MySQL, SQL Server, PostgreSQL, MongoDB가 포함되며 필요에 따라 적절한 데이터 내보내기 유형을 선택하시면 됩니다. 아래의 사진은 Excel로 내보낸 데이터 스크래핑 결과물입니다~ ScrapeStorm이라는 스크래핑 도구를 사용한 후 간단한 5단계만으로 전체 웹페이지의 채용정보를 얻을 수 있어 조작이 간단할 뿐만 아니라 전 과정이 무료이니 어서 본 튜토리얼을 따라 체험해보세요~