请注意,目前似乎 mb_decode_numericentity() 仅适用于十进制实体,而不适用于十六进制实体。这个事实本可以为我节省调试时一个小时的时间。
对于那些需要转换十六进制实体的人,请首先尝试使用 preg_replace() 和 hexdec() 函数的组合将所有实体转换为十进制实体。
(PHP 4 >= 4.0.6, PHP 5, PHP 7, PHP 8)
mb_decode_numericentity — 将 HTML 数字字符串引用解码为字符
将指定块中的 string string
的数字字符串引用转换为字符。
转换后的 string。
版本 | 描述 |
---|---|
8.0.0 |
encoding 现在可以为空。 |
示例 #1 map
示例
<?php
$convmap = array (
int start_code1, int end_code1, int offset1, int mask1,
int start_code2, int end_code2, int offset2, int mask2,
........
int start_codeN, int end_codeN, int offsetN, int maskN );
// 指定 start_codeN 和 end_codeN 的 Unicode 值
// 向值添加 offsetN 并与 maskN 进行按位 'AND' 操作,
// 然后将值转换为数字字符串引用。
?>
示例 #2 map
示例转义 JavaScript 字符串
<?php
function escape_javascript_string($str) {
$map = [
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,0,0, // 49
0,0,0,0,0,0,0,0,1,1,
1,1,1,1,1,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,
0,1,1,1,1,1,1,0,0,0, // 99
0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,
0,0,0,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1, // 149
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1, // 199
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1, // 249
1,1,1,1,1,1,1, // 255
];
// Char encoding is UTF-8
$mblen = mb_strlen($str, 'UTF-8');
$utf32 = bin2hex(mb_convert_encoding($str, 'UTF-32', 'UTF-8'));
for ($i=0, $encoded=''; $i < $mblen; $i++) {
$u = substr($utf32, $i*8, 8);
$v = base_convert($u, 16, 10);
if ($v < 256 && $map[$v]) {
$encoded .= '\\x'.substr($u, 6,2);
} else if ($v == 2028) {
$encoded .= '\\u2028';
} else if ($v == 2029) {
$encoded .= '\\u2029';
} else {
$encoded .= mb_convert_encoding(hex2bin($u), 'UTF-8', 'UTF-32');
}
}
return $encoded;
}
// Test data
$convmap = [ 0x0, 0xffff, 0, 0xffff ];
$msg = '';
for ($i=0; $i < 1000; $i++) {
// chr() cannot generate correct UTF-8 data larger value than 128, use mb_decode_numericentity().
$msg .= mb_decode_numericentity('&#'.$i.';', $convmap, 'UTF-8');
}
// var_dump($msg);
var_dump(escape_javascript_string($msg));
请注意,目前似乎 mb_decode_numericentity() 仅适用于十进制实体,而不适用于十六进制实体。这个事实本可以为我节省调试时一个小时的时间。
对于那些需要转换十六进制实体的人,请首先尝试使用 preg_replace() 和 hexdec() 函数的组合将所有实体转换为十进制实体。
<?php
// 以下文档依赖于对 php mbr 代码源的理解
// 首先,为了优化 php 的工作
// 字符串必须包含 "&",否则 php 不会尝试进行解码。
// 对于映射:int start_codeN、int end_codeN、int offsetN、int maskN
// 实体必须在范围 [start_codeN, end_codeN] 内,如果实体大于或小于
// mb_decode_numericentity 将忽略解码过程并按原样返回 $string。
// 在 php 的后期版本中,$map:"必须具有 4 个元素的倍数"
$map = [ 0x0, 0xFFFF, 0, 0];
echo mb_decode_numericentity('m', $map ); // 结果 "m"
// 如果 offsetN = 1 结果 "l";您增加的十进制数越多,它使用的 OR 运算符就越多。
$map_2 = [ 0x0, 0xFFFF, 60, 0];
echo mb_decode_numericentity('m', $map_2 ); // 解码 (1 ) 结果:"1"
// 实体引用以检查结果:https://cs.stanford.edu/people/miles/iso8859.html#ISO
?>
仅供日常使用,两个很棒的函数
/* 将所有 HTML 实体转换为字符 */
function my_numeric2character($t)
{
$convmap = array(0x0, 0x2FFFF, 0, 0xFFFF);
return mb_decode_numericentity($t, $convmap, 'UTF-8');
}
/* 将所有字符转换为 HTML 实体 */
function my_character2numeric($t)
{
$convmap = array(0x0, 0x2FFFF, 0, 0xFFFF);
return mb_encode_numericentity($t, $convmap, 'UTF-8');
}
print my_numeric2character('’ ἀ â');
print my_character2numeric(' ? ? ');
小心!
除了将数字实体转换为指定目标编码的字符外,此函数还会将输入字符串中的每个字符编码为指定的目标编码,即使这些字符超出了转换映射定义的范围。