Notice
Recent Posts
Recent Comments
Link
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

J 의 기록

[Python] Python 크롤링 학습 - 1 본문

개발

[Python] Python 크롤링 학습 - 1

Luctor 2020. 4. 8. 15:46

이번에 친구랑 우연히 기회가 되어서 학습을 목적으로 머신러닝 프로젝트를 진행하려 하는데, 그 기반이 될 데이터가 필요해 파이썬을 이용해 웹 크롤링(crawling)으로 데이터를 가져오는 프로그램을 공부하게 되었다.

 

먼저, mac 은 python이 기본적으로 깔려있었으나 pip 가 되지않아

sudo easy_install pip

를 실행하여 pip를 설치하였다.

 

이후에 

pip install bs4
pip install requests
pip install pandas

html을 쉽게 파싱하기 위해 BeautifulSoup가 포함된 패키지 bs4를 받아주고,

웹사이트에 http request 를 날리기 위해 request 모듈도 설치하였다.

pandas 라이브러리는 추출한 결과를 DataFrame 자료구조에 담기 위해서 사용한다.

 

자 그럼 이제 프로젝트를 생성해보자.

필자는 원래 IntelliJ IDEA 유료 라이센스를 쓰고있었으나,

pyCharm 이 아래와 같은 차이가 있기도 하고.. 파이썬을 공부하는김에 pyCharm을 써보는게 맞다고 판단하여 pyCharm을 설치하였다.

 

pyCharm 에서 기본적으로 프로젝트를 생성하고 webcrawl.py 를 만들었다.

그럼 이제 코드를 살펴보자

 

'개발' 카테고리의 다른 글

[Spark] RDD, Dataset, DataFrame의 차이  (0) 2020.05.20
[ES] Elastic Search - spark (1)  (0) 2020.04.08
[Docker] 도커 컨테이너  (0) 2020.03.09
[Kubernetes] 쿠버네티스와 도커  (0) 2020.03.06
VNC 설치  (0) 2020.03.06