[Python] Python 크롤링 학습

Notice

Recent Posts

Tags more

Archives

관리 메뉴

J 의 기록

개발

Luctor 2020. 4. 8. 15:46

이번에 친구랑 우연히 기회가 되어서 학습을 목적으로 머신러닝 프로젝트를 진행하려 하는데, 그 기반이 될 데이터가 필요해 파이썬을 이용해 웹 크롤링(crawling)으로 데이터를 가져오는 프로그램을 공부하게 되었다.

먼저, mac 은 python이 기본적으로 깔려있었으나 pip 가 되지않아

sudo easy_install pip

를 실행하여 pip를 설치하였다.

이후에

pip install bs4
pip install requests
pip install pandas

html을 쉽게 파싱하기 위해 BeautifulSoup가 포함된 패키지 bs4를 받아주고,

웹사이트에 http request 를 날리기 위해 request 모듈도 설치하였다.

pandas 라이브러리는 추출한 결과를 DataFrame 자료구조에 담기 위해서 사용한다.

자 그럼 이제 프로젝트를 생성해보자.

필자는 원래 IntelliJ IDEA 유료 라이센스를 쓰고있었으나,

pyCharm 이 아래와 같은 차이가 있기도 하고.. 파이썬을 공부하는김에 pyCharm을 써보는게 맞다고 판단하여 pyCharm을 설치하였다.

pyCharm 에서 기본적으로 프로젝트를 생성하고 webcrawl.py 를 만들었다.

그럼 이제 코드를 살펴보자

[Spark] RDD, Dataset, DataFrame의 차이 (0)	2020.05.20
[ES] Elastic Search - spark (1) (0)	2020.04.08
[Docker] 도커 컨테이너 (0)	2020.03.09
[Kubernetes] 쿠버네티스와 도커 (0)	2020.03.06
VNC 설치 (0)	2020.03.06

'개발' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`