티스토리 뷰

요즘 '파이썬으로 웹크롤러 만들기' 라는 책을 보고있다. 파이썬은 생전 처음쓰는 언어라 간단한것도 꽤나 시간을 소모하며 진행하고있는데, https 사이트를 파싱하는 예제가있다.


정확히말하면 예제에는 http로 나와있는데 그 사이에 이 사이트가 https를 적용한건지.. 지금은 https다. 별 생각없이 https 경로를 적어주면 '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed' 이런 메세지와 함께 정상적으로 작동하지않는다.


이럴땐 아래처럼 의존성을 추가해주면 된다.


import ssl

context = ssl._create_unverified_context()


뭐 어차피 별거없는 풀 예제코드는 이렇다.


from urllib.request import urlopen
from bs4 import BeautifulSoup
import ssl

context = ssl._create_unverified_context()
result = urlopen("https://en.wikipedia.org/wiki/Kevin_Bacon", context=context)
bsObj = BeautifulSoup(result.read(), "html.parser")

for tag in bsObj.findAll("a"):
if "href" in tag.attrs:
print(tag.attrs["href"])


'python' 카테고리의 다른 글

pip로 python3 의존성 설치하기  (0) 2018.02.18
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함