虽然有很多语言中每个必要的字符都可以通过一对一的映射到 8 位值来表示,但也有一些语言需要非常多的字符来进行书面交流,以至于它们无法包含在单个字节可以编码的范围内(字节由八位组成。每个位只能包含两个不同的值,0 或 1。因此,字节只能表示 256 个唯一值(二的八次方)。多字节字符编码方案被开发出来,以便在常规的字节编码系统中表达超过 256 个字符。
当你操作(修剪、拆分、拼接等)以多字节编码编码的字符串时,你需要使用特殊的函数,因为在这种编码方案中,两个或多个连续字节可能代表一个字符。否则,如果你将一个不识别多字节的字符串函数应用于字符串,它可能会无法检测到多字节字符的开始或结束,从而导致一个损坏的垃圾字符串,该字符串很可能丢失其原始含义。
mbstring
提供了多字节特定的字符串函数,帮助你在 PHP 中处理多字节编码。此外,mbstring
处理可能的编码对之间的字符编码转换。 mbstring
被设计用来处理基于 Unicode 的编码,如 UTF-8 和 UCS-2,以及为了方便而使用的许多单字节编码(列在 支持的字符编码 中)。