当客户端发送GET数据时,utf-8字符编码在urlencode方面存在一个小问题。
考虑一下“º”字符。
一些客户端可能会发送(例如)
foo.php?myvar=%BA
而其他客户端发送
foo.php?myvar=%C2%BA(正确的URL编码)
在这种情况下,您将值赋给变量$x
<?php
$x = $_GET['myvar'];
?>
$x存储:在第一种情况下为“�”(错误),在第二种情况下为“º”(正确)
要解决这个问题,您可以使用此函数
<?php
function to_utf8( $string ) {
// 来自 http://w3.org/International/questions/qa-forms-utf-8.html
if ( preg_match('%^(?:
[\x09\x0A\x0D\x20-\x7E] # ASCII
| [\xC2-\xDF][\x80-\xBF] # non-overlong 2-byte
| \xE0[\xA0-\xBF][\x80-\xBF] # excluding overlongs
| [\xE1-\xEC\xEE\xEF][\x80-\xBF]{2} # straight 3-byte
| \xED[\x80-\x9F][\x80-\xBF] # excluding surrogates
| \xF0[\x90-\xBF][\x80-\xBF]{2} # planes 1-3
| [\xF1-\xF3][\x80-\xBF]{3} # planes 4-15
| \xF4[\x80-\x8F][\x80-\xBF]{2} # plane 16
)*$%xs', $string) ) {
return $string;
} else {
return iconv( 'CP1252', 'UTF-8', $string);
}
}
?>
并以此方式赋值
<?php
$x = to_utf8( $_GET['myvar'] );
?>
$x存储:在第一种情况下为“º”(正确),在第二种情况下为“º”(正确)
解决了大量的i18n问题。
请在下一个PHP版本中修复$_GET变量的自动urldecode。
再见。
Alejandro Salamanca