Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- microservice
- REST
- Java
- dataframe
- 파이썬
- 컨테이너
- OkHttpClient
- 도커
- spark
- docker
- 정규식
- MariaDB
- RDD
- 테이블정의서
- atlas
- Python
- Data Lineage
- kubernetes
- CRAWL
- 쿠버네티스
- replaceAll
- web crawl
- Prototype
- dataset
- oracle
- 크롤링
- okhttp3
- 스파크
- container
- MSA
Archives
- Today
- Total
J 의 기록
[Python] Python 크롤링 학습 - 1 본문
이번에 친구랑 우연히 기회가 되어서 학습을 목적으로 머신러닝 프로젝트를 진행하려 하는데, 그 기반이 될 데이터가 필요해 파이썬을 이용해 웹 크롤링(crawling)으로 데이터를 가져오는 프로그램을 공부하게 되었다.
먼저, mac 은 python이 기본적으로 깔려있었으나 pip 가 되지않아
sudo easy_install pip
를 실행하여 pip를 설치하였다.
이후에
pip install bs4
pip install requests
pip install pandas
html을 쉽게 파싱하기 위해 BeautifulSoup가 포함된 패키지 bs4를 받아주고,
웹사이트에 http request 를 날리기 위해 request 모듈도 설치하였다.
pandas 라이브러리는 추출한 결과를 DataFrame 자료구조에 담기 위해서 사용한다.
자 그럼 이제 프로젝트를 생성해보자.
필자는 원래 IntelliJ IDEA 유료 라이센스를 쓰고있었으나,
pyCharm 이 아래와 같은 차이가 있기도 하고.. 파이썬을 공부하는김에 pyCharm을 써보는게 맞다고 판단하여 pyCharm을 설치하였다.

pyCharm 에서 기본적으로 프로젝트를 생성하고 webcrawl.py 를 만들었다.

그럼 이제 코드를 살펴보자
'개발' 카테고리의 다른 글
| [Spark] RDD, Dataset, DataFrame의 차이 (0) | 2020.05.20 |
|---|---|
| [ES] Elastic Search - spark (1) (0) | 2020.04.08 |
| [Docker] 도커 컨테이너 (0) | 2020.03.09 |
| [Kubernetes] 쿠버네티스와 도커 (0) | 2020.03.06 |
| VNC 설치 (0) | 2020.03.06 |