Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- Java
- microservice
- web crawl
- REST
- 도커
- 파이썬
- docker
- spark
- RDD
- Prototype
- dataset
- kubernetes
- dataframe
- Python
- 컨테이너
- container
- 크롤링
- 스파크
- okhttp3
- Data Lineage
- MariaDB
- 테이블정의서
- MSA
- replaceAll
- atlas
- 정규식
- CRAWL
- 쿠버네티스
- oracle
- OkHttpClient
Archives
- Today
- Total
J 의 기록
[Python] Python 크롤링 학습 - 1 본문
이번에 친구랑 우연히 기회가 되어서 학습을 목적으로 머신러닝 프로젝트를 진행하려 하는데, 그 기반이 될 데이터가 필요해 파이썬을 이용해 웹 크롤링(crawling)으로 데이터를 가져오는 프로그램을 공부하게 되었다.
먼저, mac 은 python이 기본적으로 깔려있었으나 pip 가 되지않아
sudo easy_install pip
를 실행하여 pip를 설치하였다.
이후에
pip install bs4
pip install requests
pip install pandas
html을 쉽게 파싱하기 위해 BeautifulSoup가 포함된 패키지 bs4를 받아주고,
웹사이트에 http request 를 날리기 위해 request 모듈도 설치하였다.
pandas 라이브러리는 추출한 결과를 DataFrame 자료구조에 담기 위해서 사용한다.
자 그럼 이제 프로젝트를 생성해보자.
필자는 원래 IntelliJ IDEA 유료 라이센스를 쓰고있었으나,
pyCharm 이 아래와 같은 차이가 있기도 하고.. 파이썬을 공부하는김에 pyCharm을 써보는게 맞다고 판단하여 pyCharm을 설치하였다.
pyCharm 에서 기본적으로 프로젝트를 생성하고 webcrawl.py 를 만들었다.
그럼 이제 코드를 살펴보자
'개발' 카테고리의 다른 글
[Spark] RDD, Dataset, DataFrame의 차이 (0) | 2020.05.20 |
---|---|
[ES] Elastic Search - spark (1) (0) | 2020.04.08 |
[Docker] 도커 컨테이너 (0) | 2020.03.09 |
[Kubernetes] 쿠버네티스와 도커 (0) | 2020.03.06 |
VNC 설치 (0) | 2020.03.06 |