Ошибка Python 3.4 urllib.request (http 403)

17

Я пытаюсь открыть и проанализировать html-страницу. В python 2.7.8 у меня нет проблем:

import urllib
url = "https://ipdb.at/ip/66.196.116.112"
html = urllib.urlopen(url).read()

и все в порядке. Однако я хочу перейти на python 3.4, и там я получаю HTTP-ошибку 403 (Forbidden). Мой код:

import urllib.request
html = urllib.request.urlopen(url) # same URL as before

File "C:\Python34\lib\urllib\request.py", line 153, in urlopen
return opener.open(url, data, timeout)
File "C:\Python34\lib\urllib\request.py", line 461, in open
response = meth(req, response)
File "C:\Python34\lib\urllib\request.py", line 574, in http_response
'http', request, response, code, msg, hdrs)
File "C:\Python34\lib\urllib\request.py", line 499, in error
return self._call_chain(*args)
File "C:\Python34\lib\urllib\request.py", line 433, in _call_chain
result = func(*args)
File "C:\Python34\lib\urllib\request.py", line 582, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden

Он работает для других URL-адресов, которые не используют https.

url = 'http://www.stopforumspam.com/ipcheck/212.91.188.166'

нормально.

    
задан Belial 08.02.2015 в 16:57
источник
  • См. также stackoverflow.com/questions/3336549/... –  Trilarion 10.12.2017 в 21:48

2 ответа

28

Кажется, сайту не нравится пользовательский агент Python 3.x.

Задание User-Agent решит вашу проблему:

import urllib.request
req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
html = urllib.request.urlopen(req).read()

ПРИМЕЧАНИЕ Версия python 2.x urllib также получает статус 403, но в отличие от Python 2.x urllib2 и Python 3.x urllib, это не вызывает исключения.

Вы можете подтвердить это следующим кодом:

print(urllib.urlopen(url).getcode())  # => 403
    
ответ дан falsetru 08.02.2015 в 17:34
источник
  • Спасибо. Это сработало! –  Belial 08.02.2015 в 17:49
  • спасибо! тоже работал на меня –  DenisFLASH 27.08.2015 в 12:20
  • не работает .. все еще запрещено –  Martian2049 11.05.2017 в 17:39
  • @ Matian2049, Вам нужна дополнительная информация, не могли бы вы разместить отдельный вопрос более подробно. –  falsetru 11.05.2017 в 17:49
  • извините, я заставил его работать. он, кажется, потерпел неудачу из-за того, что я использовал VPN. –  Martian2049 12.05.2017 в 05:58
0

Вот некоторые заметки, которые я собрал в urllib , когда я изучал python-3:
Я сохранил их на случай, если они могут пригодиться или помочь кому-то другому.

Как импортировать urllib.request и urllib.parse :

import urllib.request as urlRequest
import urllib.parse as urlParse

Как сделать запрос GET:

url = "http://www.example.net"
# open the url
x = urlRequest.urlopen(url)
# get the source code
sourceCode = x.read()

Как сделать запрос POST:

url = "https://www.example.com"
values = {"q": "python if"}
# encode values for the url
values = urlParse.urlencode(values)
# encode the values in UTF-8 format
values = values.encode("UTF-8")
# create the url
targetUrl = urlRequest.Request(url, values)
# open the url
x  = urlRequest.urlopen(targetUrl)
# get the source code
sourceCode = x.read()

Как сделать запрос POST ( 403 forbidden ответов):

url = "https://www.example.com"
values = {"q": "python urllib"}
# pretend to be a chrome 47 browser on a windows 10 machine
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"}
# encode values for the url
values = urlParse.urlencode(values)
# encode the values in UTF-8 format
values = values.encode("UTF-8")
# create the url
targetUrl = urlRequest.Request(url = url, data = values, headers = headers)
# open the url
x  = urlRequest.urlopen(targetUrl)
# get the source code
sourceCode = x.read()

Как сделать запрос GET ( 403 forbidden ответов):

url = "https://www.example.com"
# pretend to be a chrome 47 browser on a windows 10 machine
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"}
req = urlRequest.Request(url, headers = headers)
# open the url
x = urlRequest.urlopen(req)
# get the source code
sourceCode = x.read()
    
ответ дан user5870134 10.04.2016 в 19:18
источник
  • Приносим извинения за ошибки в моем старом ответе, я провел некоторые исследования и исправил их. Эти ошибки побудили меня вернуться и проверить, все ли мои заметки правильны: D –  10.04.2016 в 19:19
  • Почему он работает во второй ссылке без каких-либо проблем? –  Sudheer1990 17.10.2016 в 13:03