티스토리 뷰

요즘 '파이썬으로 웹크롤러 만들기' 라는 책을 보고있다. 파이썬은 생전 처음쓰는 언어라 간단한것도 꽤나 시간을 소모하며 진행하고있는데, https 사이트를 파싱하는 예제가있다.


정확히말하면 예제에는 http로 나와있는데 그 사이에 이 사이트가 https를 적용한건지.. 지금은 https다. 별 생각없이 https 경로를 적어주면 '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed' 이런 메세지와 함께 정상적으로 작동하지않는다.


이럴땐 아래처럼 의존성을 추가해주면 된다.


import ssl

context = ssl._create_unverified_context()


뭐 어차피 별거없는 풀 예제코드는 이렇다.


from urllib.request import urlopen
from bs4 import BeautifulSoup
import ssl

context = ssl._create_unverified_context()
result = urlopen("https://en.wikipedia.org/wiki/Kevin_Bacon", context=context)
bsObj = BeautifulSoup(result.read(), "html.parser")

for tag in bsObj.findAll("a"):
if "href" in tag.attrs:
print(tag.attrs["href"])


댓글
댓글쓰기 폼