Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- spark
- Data Lineage
- dataframe
- RDD
- replaceAll
- REST
- Java
- kubernetes
- MSA
- microservice
- Prototype
- docker
- okhttp3
- 테이블정의서
- 쿠버네티스
- Python
- dataset
- oracle
- 스파크
- OkHttpClient
- 컨테이너
- 도커
- 파이썬
- atlas
- MariaDB
- container
- web crawl
- 정규식
- 크롤링
- CRAWL
Archives
- Today
- Total
목록파이썬 (1)
J 의 기록
[Python] Python 크롤링 학습 - 1
이번에 친구랑 우연히 기회가 되어서 학습을 목적으로 머신러닝 프로젝트를 진행하려 하는데, 그 기반이 될 데이터가 필요해 파이썬을 이용해 웹 크롤링(crawling)으로 데이터를 가져오는 프로그램을 공부하게 되었다. 먼저, mac 은 python이 기본적으로 깔려있었으나 pip 가 되지않아 sudo easy_install pip 를 실행하여 pip를 설치하였다. 이후에 pip install bs4 pip install requests pip install pandas html을 쉽게 파싱하기 위해 BeautifulSoup가 포함된 패키지 bs4를 받아주고, 웹사이트에 http request 를 날리기 위해 request 모듈도 설치하였다. pandas 라이브러리는 추출한 결과를 DataFrame 자료구조에..
개발
2020. 4. 8. 15:46