Deutsch
Germany.ruФорумы → Архив Досок→ Компьютер & Co

Как настроить PyCharm?

526  
Lil_D гость19.04.21 18:53
19.04.21 18:53 

Уважаемые специалисты!

Хочу парсить этот форум. Уже два дня читаю про unicode и uft-8.

В заголовке стоит

# -*- coding: utf-8 -*-


Global Encoding, Project Enkoding стоят на utf-8.

Вот, что я вижу уже два дня!


[{'datum': '12.01.21', 'message': 'https://foren.germany.ru/showmessage.pl?Number=36556333&Bo...'}, {'datum': '12.01.21', 'message': 'Ñ\x81овеÑ\x80Ñ\x88енно не Ñ\x80азделÑ\x8fÑ\x8e мнениÑ\x8f, но лÑ\x8eбой Ñ\x81Ñ\x86енаÑ\x80ий возможен. Ð\x92Ñ\x80емÑ\x8f покажеÑ\x82 :) '}, {'datum': '12.01.21', 'message': 'могÑ\x83


Не судите строго, я толъко учусь!

Я уж думаю, может в Windows дело, у меня ж нет никаких поддержек русского на нем.

#1 
Lil_D гость21.04.21 00:37
NEW 21.04.21 00:37 
в ответ Lil_D 19.04.21 18:53

Проблема решена, всем спасибо!

#2 
Corvus_Black коренной житель21.04.21 07:05
NEW 21.04.21 07:05 
в ответ Lil_D 21.04.21 00:37

Решение проблемы в студию? А то мало ли... :)

#3 
Lil_D гость21.04.21 13:20
NEW 21.04.21 13:20 
в ответ Corvus_Black 21.04.21 07:05

Ну, проблема была не в PyCharm, а в request. Beautifulsoup уже получал кракозябры. И очень болъшая проблема в том, что очень много людей переписывают программы, без понимания, что они делают, ну и я в том же числе :). Все-таки заставила себя прочитать документацию.

После того как получим ответ or request нужно сделать

res.encoding = 'utf-8'

Самое интересное, что другие форумы обрабатывались без проблем и этa проблема вылезла у меня только при парсинге этого форума.

#4 
Corvus_Black коренной житель21.04.21 15:26
NEW 21.04.21 15:26 
в ответ Lil_D 21.04.21 13:20

Хорошо, когда есть документация, а если её нет? Задокументировала момент прям над куском кода, чтоб потомки не искали? :)

#5 
NightWatch коренной житель22.04.21 12:26
NightWatch
NEW 22.04.21 12:26 
в ответ Lil_D 21.04.21 13:20, Последний раз изменено 22.04.21 12:37 (NightWatch)
Самое интересное, что другие форумы обрабатывались без проблем и этa проблема вылезла у меня только при парсинге этого форума.

Ничего интересного. Сервер germany.ru не указывает charset в хидере Content-Type:

как это делают другие:

Поэтому в response.encoding стоит, скорее всего, либо дефолтное значение ISO-8859-1, либо вообще ничего.

Content-Type-хидер - не единственный способ сообщить об используемой кодировке. На страницах germany.ru кодировка указана в html:

Но читать кодировку из документа - задача не http-клиента.



#6 
Lil_D гость23.04.21 00:43
NEW 23.04.21 00:43 
в ответ NightWatch 22.04.21 12:26

Вы меня, конечно, извините, но ваш очень умный коментарий не помог бы мне решить мою проблему. Я не слепая и видела это ваше, но на других форумах тоже это стоит ( думаете, я это не смотрела????). Так что я не усмортела никакой разницы. Как я и сказала, другой форум парсился, а этот нет. Ваш очень информативный комментарий абсолютно не сообщает мне, где я должна была поставить encode. Мотто: " Я знаю, а ты найди сама!"
И почему вы не написали свое веское " Я знаю и могу" хотя бы на второй день моего вопроса? Я ждала помощи. А после драки очень удобно махать руками.
И какое мне дело до какого-то ХТТП-Клиента, если я кракозябры вижу.
Тема закрыта, помогайте другим. Форум запарсила, бот написала. Все чудесно. Дальше буду продвигаться сама, как, впрочем, и всегда и в этот раз!

#7