mb_decode_numericentity

(PHP 4 >= 4.0.6, PHP 5, PHP 7, PHP 8)

mb_decode_numericentity将 HTML 数字字符串引用解码为字符

描述

mb_decode_numericentity(string $string, array $map, ?string $encoding = null): string

将指定块中的 string string 的数字字符串引用转换为字符。

参数

string

要解码的 string

map

map 是一个 array,用于指定要转换的代码区域。

encoding

encoding 参数是字符编码。如果省略或为 null,将使用内部字符编码值。

is_hex

此参数未使用。

返回值

转换后的 string

变更日志

版本 描述
8.0.0 encoding 现在可以为空。

示例

示例 #1 map 示例

<?php
$convmap
= array (
int start_code1, int end_code1, int offset1, int mask1,
int start_code2, int end_code2, int offset2, int mask2,
........
int start_codeN, int end_codeN, int offsetN, int maskN );
// 指定 start_codeN 和 end_codeN 的 Unicode 值
// 向值添加 offsetN 并与 maskN 进行按位 'AND' 操作,
// 然后将值转换为数字字符串引用。
?>

示例 #2 map 示例转义 JavaScript 字符串

<?php
function escape_javascript_string($str) {
$map = [
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,0,0, // 49
0,0,0,0,0,0,0,0,1,1,
1,1,1,1,1,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,
0,1,1,1,1,1,1,0,0,0, // 99
0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,
0,0,0,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1, // 149
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1, // 199
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1, // 249
1,1,1,1,1,1,1, // 255
];
// Char encoding is UTF-8
$mblen = mb_strlen($str, 'UTF-8');
$utf32 = bin2hex(mb_convert_encoding($str, 'UTF-32', 'UTF-8'));
for (
$i=0, $encoded=''; $i < $mblen; $i++) {
$u = substr($utf32, $i*8, 8);
$v = base_convert($u, 16, 10);
if (
$v < 256 && $map[$v]) {
$encoded .= '\\x'.substr($u, 6,2);
} else if (
$v == 2028) {
$encoded .= '\\u2028';
} else if (
$v == 2029) {
$encoded .= '\\u2029';
} else {
$encoded .= mb_convert_encoding(hex2bin($u), 'UTF-8', 'UTF-32');
}
}
return
$encoded;
}

// Test data
$convmap = [ 0x0, 0xffff, 0, 0xffff ];
$msg = '';
for (
$i=0; $i < 1000; $i++) {
// chr() cannot generate correct UTF-8 data larger value than 128, use mb_decode_numericentity().
$msg .= mb_decode_numericentity('&#'.$i.';', $convmap, 'UTF-8');
}

// var_dump($msg);
var_dump(escape_javascript_string($msg));

参见

添加笔记

用户贡献的笔记 4 笔记

donovan at conduit it
18 年前
请注意,目前似乎 mb_decode_numericentity() 仅适用于十进制实体,而不适用于十六进制实体。这个事实本可以为我节省调试时一个小时的时间。

对于那些需要转换十六进制实体的人,请首先尝试使用 preg_replace() 和 hexdec() 函数的组合将所有实体转换为十进制实体。
abderrahmanekaddour dot aissat at gmail dot com
1 年前
<?php

// 以下文档依赖于对 php mbr 代码源的理解
// 首先,为了优化 php 的工作
// 字符串必须包含 "&",否则 php 不会尝试进行解码。
// 对于映射:int start_codeN、int end_codeN、int offsetN、int maskN
// 实体必须在范围 [start_codeN, end_codeN] 内,如果实体大于或小于
// mb_decode_numericentity 将忽略解码过程并按原样返回 $string。
// 在 php 的后期版本中,$map:"必须具有 4 个元素的倍数"

$map = [ 0x0, 0xFFFF, 0, 0];
echo
mb_decode_numericentity('&#109;', $map ); // 结果 "m"
// 如果 offsetN = 1 结果 "l";您增加的十进制数越多,它使用的 OR 运算符就越多。
$map_2 = [ 0x0, 0xFFFF, 60, 0];
echo
mb_decode_numericentity('&#109;', $map_2 ); // 解码 (&#49; ) 结果:"1"

// 实体引用以检查结果:https://cs.stanford.edu/people/miles/iso8859.html#ISO

?>
dev at glossword info
20 年前
仅供日常使用,两个很棒的函数

/* 将所有 HTML 实体转换为字符 */
function my_numeric2character($t)
{
$convmap = array(0x0, 0x2FFFF, 0, 0xFFFF);
return mb_decode_numericentity($t, $convmap, 'UTF-8');
}
/* 将所有字符转换为 HTML 实体 */
function my_character2numeric($t)
{
$convmap = array(0x0, 0x2FFFF, 0, 0xFFFF);
return mb_encode_numericentity($t, $convmap, 'UTF-8');
}
print my_numeric2character('&#8217; &#7936; &#226;');
print my_character2numeric(' ? ? ');
fernandosilveira at yahoo dot com dot br
4 年前
小心!
除了将数字实体转换为指定目标编码的字符外,此函数还会将输入字符串中的每个字符编码为指定的目标编码,即使这些字符超出了转换映射定义的范围。
To Top