UTF8 vs windows-1251

Автор KapaBG, 28 февраля 2008, 15:06:22

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

KapaBG

мене считает шо при создание новово форума есть резон выбрать utf8 чем 1251.

потомушто utf8 или уникод является родным и по умолчание для разново рода xml-схем, документов и сетевых сервисах в международных (интерноцеональных) приложениях.

гуголь тоже любит utf8 и хорошо ие разбирает по-русски

ajax (система жабоскриптов для быстрово обновление инфы в браузере без перегрузке страниц) ваще не признает ничево окромя utf8. тама зашитоvar AJAX_OBJECT = new Array("Msxml2.XMLHTTP", "Microsoft.XMLHTTP"); и xmlHttpRequest возвращает данные именно в utf-8

Шаннар

Ну дык!..

Какие вообще плюсы у cp1251, кроме того, что она занимает места в два раза меньше?..

KapaBG

йа нащетал два
1. виндовый блокнот не пишет в начало текстов 1251 два гацких символа
2. Mavn любит ие больше :)

Jerry

Но у UTF8 куча плюсов. А то, что она занимает много места, для БД например - не проблема,
т.к. последняя версия MySQL и так всехранит в UTF8, а уж ПРИ ВЫДАЧЕ инфы может на лету менять кодировку.
Больше станут только файлы, бэкап которых уже не так важен и не так часто делается.
А почему Mavn любит больше cp1251?

Avdenago

ну пункт н.2 - спорный..  вы ж Mavn через плечо не заглядывали, что он там любит.


Я сам давно уже пересел полностью на utf8 - по упомянутой причине большей совместимости с различными сторонними скриптами.


Mavn

убедите меня что UTF8 это круто. :)

1. У меня используется только smf и ничего более
2. Исключительно русский язык
3. Если у меня большой проект только на русском языке нафиг мне UTF8 если у меня трафа будет намного больше уходить база будет весить больше, на русском языке не все так гладко в smf с данной кодировкой (есть мелкие косяки).

И какие плюсы от UTF8 в таком раскладе? Никаких!

Перед тем как выбирать кодировку проекта нужно сначала поставить минимальные задачи:
а.) нужна ли мультиязычная поддержка. Это я не об интерфейсе говорю а о сообщениях на форуме.
б.) что еще помимо форума будет использоваться(какое программное обеспечение)

если пункт а. и б. будет работать нормально с win1251 то смысл мне ставить UTF8???
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Jerry

Цитировать3. Если у меня большой проект только на русском языке нафиг мне UTF8 если у меня трафа будет намного больше уходить база будет весить больше, на русском языке не все так гладко в smf с данной кодировкой (есть мелкие косяки).

Цитировать3. последнии версии MySQL и так всехранит в UTF8, а уж ПРИ ВЫДАЧЕ инфы может на лету менять кодировку..

Ну так БД не уменьшает размер от win1251, т.к. хранит всеравно в utf8. Хотя файлы php больше станут от utf8.
А с остальным согласен. Не понимаю, зачем я выбрал UTF8?

Avdenago

Не знаю. Mavn, все верно.  Если смотреть твои первые пункты - да. утф не нужен.

Но. 1. Редко где встретишь просто форум - все чаще минимум требуемый cms+forum - и это в минимальном раскладе.

2. Я тоже юзал изначально в виндовс кодировке. Поставил коппермейн - прикрутил на win1251 -  хотя вроде бы по умолчанию он идет на утф.

Потом пришлось поставить WordPress - тот только в утф. Можно конечно приучить и к win1251 -  но очень проблемно.

Вот и пришлось потом все переделывать. Конвертить базы, переставлять форум...  
Если бы делал сразу в утф - таких бы проблем не было.

ПС. я вот только не пойму каким образом утф скажется на конечном пользователе - все равно то выдается сгенерированная страница - так что общий вес php файлов не играет роли.

Jerry

Вес PHP файлов мешает делать бэкапы и пользователю ТОЖЕ ВЫДАЕТСЯ В УТФ.
Попробуй на форуме utf8 поставить в браузере cp1251. Все исковеркается. Т.е. выдаваемый текст тоже имеет кодировку.
Можно иероглифы корректно выводить! :)

KapaBG

есле реч идет об интеграцие с другиме сервисаме, мостами и прочее ut8 предпочтительнее. однозначно.
Цитата: Mavn от 28 февраля 2008, 21:02:28
(есть мелкие косяки).
один пока знаю - в  Последнее сообщение: может выдать херовинку с неоконченым символом. и такой же в тинипортале-статьях. решенье конешноже есть, но это дополнительно требует пляски с модификациеми. это менус.
Mavn, выкладывай ищё, не стесняйсе

libert

Всем привет:)
Я новичек,первый раз загрузил этот Форум и когда начал писать название категорий на русском ю меня показывает только вопросительные знаки...не заню как с этим бороться:(((
Помогите советом..
спасибо!!!

Mavn

Пользуйся поиском!!!
Данный вопрос не по теме хоть изредка читайте куда сообщения кидаете
http://www.simplemachines.ru/index.php/topic,791.0.html
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Denis

#12
Цитата: AvdenagoПС. я вот только не пойму каким образом утф скажется на конечном пользователе - все равно то выдается сгенерированная страница - так что общий вес php файлов не играет роли.
:)
Это, что же получается. У себя ты хранишь всё в ЮТФ, а затем как сделать вывод пользователю так ты будешь конвертить в 1251 и выдавать в 1251?
Смешно блин. Тогда вопрос. На кой здесь 1251, если можно хранить всё в 1251 и выдавать в 1251 минуя декодирование и соответственно лишнюю нагрузку?
Ессно и хранишь в ютф и выдаёшь пользователю также в ютф, а дальше уже браузер самостоятельно разбирается с тем, что дали..

AJAX - единственный вразумительный здесь аргумент в пользу ЮТФ.


С другой стороны.. ну хостинги же не заставишь перейти на ютф, потому что тебе удобно..

Avdenago

Нет. Меня кажется неправильно поняли. Я хотел сказать, что для конечного пользователя разница в трафике при использовании утф8 незаметна.

А зачем хостеров заставлять перейти на утф?  Я не думаю что дело в хостерах.

Mavn

Цитата: Denis от 11 марта 2008, 01:28:04
С другой стороны.. ну хостинги же не заставишь перейти на ютф, потому что тебе удобно..
Хм у нормального хостера ты сам в праве выбирать с какой кодировкой работать!
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Denis

Avdenago
Честно говоря, не сравнивал будет ли заметна разница для трафика пользователя.. Но по идее данные отдаваемых страниц должны быть побольше объёмом в utf, нежели в 1251.. Другое дело насколько больше. Может и не намного.

А как же дело не в хостерах? (я не работал с ютф, кроме как с AJAX'ом, поэтому могу ошибаться). Просто подумал как же оно так будет, если у хостера системная кодировка 1251, а у тебя все скрипты и т.д. в utf'е...

Mavn, что-то действительно я не понимаю. Это всмысле как так, выбирать?
Честно говоря, пока что не сталкивался с такими предлагающими выбор..

Jerry

Цитата: Denis от 11 марта 2008, 01:28:04
:)
Это, что же получается. У себя ты хранишь всё в ЮТФ, а затем как сделать вывод пользователю так ты будешь конвертить в 1251 и выдавать в 1251?
Смешно блин. Тогда вопрос. На кой здесь 1251, если можно хранить всё в 1251 и выдавать в 1251 минуя декодирование и соответственно лишнюю нагрузку?
Ессно и хранишь в ютф и выдаёшь пользователю также в ютф, а дальше уже браузер самостоятельно разбирается с тем, что дали..


Неет... нельзя хранить в cp1251. Все базы MySQL (за исключением СТАРЫХ версий) хранят всё всегда в UTF8,
независимо от кодировки выдачи. Всегда идет изменение прямо на выдаче! В настройках мускула выбирается
не кодировка хранения, а "сравнение". И изменяется кодировка "на лету".

Цитата: Denis от 11 марта 2008, 12:07:49
Avdenago
Честно говоря, не сравнивал будет ли заметна разница для трафика пользователя.. Но по идее данные отдаваемых страниц должны быть побольше объёмом в utf, нежели в 1251.. Другое дело насколько больше. Может и не намного.
Разница есть, до 3-х раз, в зависимости от используемых символов. Кодировка UTF8 хранит данные, используя от 1 до 3-х байт на символ. По этому, при одинаковом количестве символов, текст с иероглифами или кириллицой будет больше, чем текст с преобладанием латиницы.
Это можно померить, просто сохраняя разные символы в обычном блокноте, сохраняя файл в UTF8.
Но так как пользователю в бОльшем количестве выдается html код на латинице, чем текст с кириллицой или иероглифовами, увеличение трафика не сможет дойти до 3-х раз (если хоть 1 символ написан на латинице, то УЖЕ разница будет немного меньше 3-х раз).

Denis

Sikes, а Вы преверженец какой кодировки? cp1251 не имеет права на жизнь и должна быть заменена ютф'ом?

Я сравнивал размеры, в принципе нормально. Даже в 2 раза дамп MySQL не разбухает (где достаточно много русского текста).
Исходный размер базы: 1.9мб в 1251, в ютфе 2.9мб.

digger®

Цитата: Sikes от 13 марта 2008, 21:49:28

Неет... нельзя хранить в cp1251. Все базы MySQL (за исключением СТАРЫХ версий) хранят всё всегда в UTF8,
независимо от кодировки выдачи. Всегда идет изменение прямо на выдаче! В настройках мускула выбирается
не кодировка хранения, а "сравнение". И изменяется кодировка "на лету".

Никакого "всё всегда в UTF8" в MySQL нету.
Есть кодировка хранения, кодировка сравнения и кодировка в которой клиент желает получать данные из таблицы.

Jerry

Ну в старых версиях да. А почитайте любую литературу по MySQL 5.

Denis

Да, я тоже слышал о том, что MySQL 5* хранит данные всегда в UTF и потом налету переворачивает в нужную кодировку (при необходимости).
Мир движется в сторону ютф :)


KapaBG

про редакторы с utf-8 знаю. но мене надо чтобы Far ее просматривал и редактировал. ткнулсе в сайт где евошные плагины - тама чорт ногу сломит, и не нашел простово казалосьбы плагина. может не по глазам, у кого в фаре пашет это дело - ткните плиз.

Denis

А Вы представляете себе, что будет с обычным виндозным пользователем когда он получит файл в котором сплошные кривульки? :) Потом учить ещё декодировать его в 1251..

Jerry

Какие "кривульки"? UTF8 работает и в IE, в html на странице указывается кодировка для выбора по умолчанию. Если речь о редактировании, то можно либо выбрать другой редактор, либо кодировку cp1251, но скорее всего "обычному виндозному пользователю" это не понадобится.

Denis

Работает, работает.. Я имел ввиду текстовый txt файл.
Установить доп. софт можно конечно.

KapaBG

разобралсе. плагин UWizard пашет токо фаром с беты 4. тоисть нужон был свежий фар. на лету он конешно не хавает UTF8 но в командной строке пишеш например UTF8:Settings.russian-utf8.php жмеш Enter и дальше уже все кракозябры волшебным образом превращаютсо в осмысленый текст

Serifa

А кто просил эту "архаику" в настройки форума загонять? Делали бы форум сразу под UTF 8. А я получила в таком виде, какой есть. А это, оказывается, уже не модно. Ну что ж поделать, будет ходить в том, что имеем.
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
В телеге срочно нужны читатели!

Mavn

Цитата: His Divine Shadow от 25 апреля 2008, 19:20:16
А кто просил эту "архаику" в настройки форума загонять? Делали бы форум сразу под UTF 8. А я получила в таком виде, какой есть. А это, оказывается, уже не модно. Ну что ж поделать, будет ходить в том, что имеем.
Хех дело не в моде а в потребностях :)!
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.