Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- OkHttpClient
- 파이썬
- 크롤링
- oracle
- Java
- 컨테이너
- 쿠버네티스
- spark
- dataset
- 테이블정의서
- MSA
- web crawl
- Data Lineage
- Prototype
- 스파크
- RDD
- REST
- dataframe
- atlas
- MariaDB
- container
- Python
- docker
- okhttp3
- kubernetes
- 도커
- CRAWL
- microservice
- replaceAll
- 정규식
Archives
- Today
- Total
목록web crawl (1)
J 의 기록
[Python] Python 크롤링 학습 - 1
이번에 친구랑 우연히 기회가 되어서 학습을 목적으로 머신러닝 프로젝트를 진행하려 하는데, 그 기반이 될 데이터가 필요해 파이썬을 이용해 웹 크롤링(crawling)으로 데이터를 가져오는 프로그램을 공부하게 되었다. 먼저, mac 은 python이 기본적으로 깔려있었으나 pip 가 되지않아 sudo easy_install pip 를 실행하여 pip를 설치하였다. 이후에 pip install bs4 pip install requests pip install pandas html을 쉽게 파싱하기 위해 BeautifulSoup가 포함된 패키지 bs4를 받아주고, 웹사이트에 http request 를 날리기 위해 request 모듈도 설치하였다. pandas 라이브러리는 추출한 결과를 DataFrame 자료구조에..
개발
2020. 4. 8. 15:46