Python/웹 크롤링

태태개발일지(크롤링)

태태코 2023. 10. 10. 11:38
반응형

python을 이용하여 웹 크롤링을 하는 것을 실습해 보았는데 생각보다 간단해서 깜짝놀랐다.

request 와 BeatifulSoup이라는 라이브러리를 통해 실습해 보았는데

request 라이브러리를 통해서 웹에있는 정보를 가져온후 

BeautifulSoup라이브러리를 통해서 html을 파싱하고

soup 명령어를 통해 제목을 가져오는 실습 이였다.

Requests:

     http요청을 통해서 html소스를 가져오는 용도로 사용.

 

BeautifulSoup:

     request가져온 html코드를 ptyhon이 이해하는 구조로 바꿔주는 라이브러리

 

ect) selenium,urllib

 

p라는 태그와 , p태그의 텍스트를 가져오는 문단이고

마지막은 html 구조를 이쁘게 찍어주는 prettify 메서드이다.

 

다음은 java로 웹 크롤링을하고, 엑셀에 저장하는 형식을 도전해볼 예정이다.

그리고 python으로 데이터 분석도 해볼 예정이다.

반응형