태태개발일지(크롤링)

Python/웹 크롤링

태태코 2023. 10. 10. 11:38

python을 이용하여 웹 크롤링을 하는 것을 실습해 보았는데 생각보다 간단해서 깜짝놀랐다.

request 와 BeatifulSoup이라는 라이브러리를 통해 실습해 보았는데

request 라이브러리를 통해서 웹에있는 정보를 가져온후

BeautifulSoup라이브러리를 통해서 html을 파싱하고

soup 명령어를 통해 제목을 가져오는 실습 이였다.

Requests:

http요청을 통해서 html소스를 가져오는 용도로 사용.

BeautifulSoup:

request가져온 html코드를 ptyhon이 이해하는 구조로 바꿔주는 라이브러리

ect) selenium,urllib

p라는 태그와 , p태그의 텍스트를 가져오는 문단이고

마지막은 html 구조를 이쁘게 찍어주는 prettify 메서드이다.

다음은 java로 웹 크롤링을하고, 엑셀에 저장하는 형식을 도전해볼 예정이다.

그리고 python으로 데이터 분석도 해볼 예정이다.

김영한, 직장인영어, 태태코딩, 태태개발일지, 주식, 타일러, 스누피, coding, 회고, java, 직장인영어공부, 티스토리챌린지, 경제기초, spring, jpa, 오블완, 리얼클래스, 경제공부, daily, AI,

태태코딩