반응형
python을 이용하여 웹 크롤링을 하는 것을 실습해 보았는데 생각보다 간단해서 깜짝놀랐다.
request 와 BeatifulSoup이라는 라이브러리를 통해 실습해 보았는데
request 라이브러리를 통해서 웹에있는 정보를 가져온후
BeautifulSoup라이브러리를 통해서 html을 파싱하고
soup 명령어를 통해 제목을 가져오는 실습 이였다.

Requests:
http요청을 통해서 html소스를 가져오는 용도로 사용.
BeautifulSoup:
request가져온 html코드를 ptyhon이 이해하는 구조로 바꿔주는 라이브러리
ect) selenium,urllib

p라는 태그와 , p태그의 텍스트를 가져오는 문단이고
마지막은 html 구조를 이쁘게 찍어주는 prettify 메서드이다.
다음은 java로 웹 크롤링을하고, 엑셀에 저장하는 형식을 도전해볼 예정이다.
그리고 python으로 데이터 분석도 해볼 예정이다.
반응형