PHP Conference Japan 2024

Collator 类

(PHP 5 >= 5.3.0,PHP 7,PHP 8,PECL intl >= 1.0.0)

简介

提供字符串比较功能,并支持相应的区域设置敏感排序。

类概要

class Collator {
/* 常量 */
public const int DEFAULT_VALUE;
public const int PRIMARY;
public const int SECONDARY;
public const int TERTIARY;
public const int DEFAULT_STRENGTH;
public const int QUATERNARY;
public const int IDENTICAL;
public const int OFF;
public const int ON;
public const int SHIFTED;
public const int NON_IGNORABLE;
public const int LOWER_FIRST;
public const int UPPER_FIRST;
public const int FRENCH_COLLATION;
public const int ALTERNATE_HANDLING;
public const int CASE_FIRST;
public const int CASE_LEVEL;
public const int NORMALIZATION_MODE;
public const int STRENGTH;
public const int NUMERIC_COLLATION;
public const int SORT_REGULAR;
public const int SORT_STRING;
public const int SORT_NUMERIC;
/* 方法 */
public __construct(string $locale)
public asort(array &$array, int $flags = Collator::SORT_REGULAR): bool
public compare(string $string1, string $string2): int|false
public static create(string $locale): ?Collator
public getAttribute(int $attribute): int|false
public getLocale(int $type): string|false
public getSortKey(string $string): string|false
public getStrength(): int
public setAttribute(int $attribute, int $value): bool
public setStrength(int $strength): true
public sort(array &$array, int $flags = Collator::SORT_REGULAR): bool
public sortWithSortKeys(array &$array): bool
}

预定义常量

Collator::FRENCH_COLLATION int

按字符串末尾的不同重音符号对字符串进行排序。此属性会自动为法语语言环境和其他一些语言环境设置为开启。用户通常不需要显式设置此属性。设置为开启时,字符串比较性能会有一定的开销,但排序键长度不受影响。可能的值为

示例 #1 FRENCH_COLLATION 规则

  • F=OFF cote < coté < côte < côté
  • F=ON cote < côte < coté < côté

Collator::ALTERNATE_HANDLING

Alternate 属性用于控制 UCA 中所谓的可变字符的处理方式:空格、标点符号和符号。如果 Alternate 设置为非忽略 (N),则这些字符之间的差异与字母之间的差异同等重要。如果 Alternate 设置为移位 (S),则这些字符仅具有次要重要性。移位值通常与设置为四级的强度结合使用。在这种情况下,在比较字符串时会考虑空格、标点符号和符号,但前提是字符串的其他所有方面(基本字母、重音符号和大小写)都相同。如果 Alternate 未设置为移位,则强度为 3 和强度为 4 之间没有区别。有关更多信息和示例,请参阅 » UCA 中的 Variable_Weighting。Alternate 值不是简单地设置为开启关闭的原因是将来可能会添加其他 Alternate 值。UCA 选项 Blanked 通过将强度设置为 3 以及 Alternate 设置为移位来表示。大多数语言环境的默认值为非忽略。如果选择移位,如果有很多字符串除了标点符号外都相同,则可能会变慢;除非强度级别也提高,否则排序键长度不会受到影响。

可能的值为

示例 #2 ALTERNATE_HANDLING 规则

  • S=3, A=N di Silva < Di Silva < diSilva < U.S.A. < USA
  • S=3, A=S di Silva = diSilva < Di Silva < U.S.A. = USA
  • S=4, A=S di Silva < diSilva < Di Silva < U.S.A. < USA

Collator::CASE_FIRST int

Case_First 属性用于控制在字符串没有其他差异的情况下,大写字母是否排在小写字母之前或反之亦然。可能的值为大写优先 (U) 和小写优先 (L),以及标准的默认值关闭。从结果来看,关闭和小写优先选项几乎没有区别,因此用户通常不会使用小写优先:仅使用关闭或大写优先。(对 X 和 L 之间细微差异感兴趣的人员应查阅Collation Customization)。指定 L 或 U 不会影响字符串比较性能,但会影响排序键长度。

可能的值为

示例 #3 CASE_FIRST 规则

  • C=X 或 C=L "china" < "China" < "denmark" < "Denmark"
  • C=U "China" < "china" < "Denmark" < "denmark"

Collator::CASE_LEVEL int

在忽略重音符号但不忽略大小写的情况下使用 Case_Level 属性。在这种情况下,将强度设置为主级,并将 Case_Level 设置为开启。在大多数语言环境中,此设置默认为关闭。如果此属性设置为开启,则字符串比较性能和排序键会略有影响。

可能的值为

示例 #4 CASE_LEVEL 规则

  • S=1, E=X role = Role = rôle
  • S=1, E=O role = rôle < Role

Collator::NORMALIZATION_MODE int

Normalization 设置确定在比较中是否彻底规范化文本。即使设置关闭(这是许多语言环境的默认设置),以常用方式表示的文本也会正确比较(有关详细信息,请参阅 UTN #5)。只有当重音标记的顺序不规范时,才会出现问题。如果设置开启,则可以保证对所有可能的文本输入获得最佳结果。如果此属性开启,则字符串比较性能会有一定的开销,具体取决于需要规范化的序列的频率。对排序键长度没有显着影响。如果已知输入文本采用 NFD 或 NFKD 规范化形式,则无需启用此 Normalization 选项。

可能的值为

Collator::STRENGTH int

ICU 排序服务支持许多级别的比较(称为“级别”,但也称为“强度”)。拥有这些类别使 ICU 能够根据本地约定精确地对字符串进行排序。但是,通过允许选择性地使用这些级别,可以使用各种匹配条件在文本中搜索字符串。有关更多详细信息,请参阅collator_set_strength() 章节。

可能的值为

Collator::HIRAGANA_QUATERNARY_MODE int

与 JIS x 4061 的兼容性要求引入一个额外的级别来区分平假名和片假名字符。如果需要与该标准兼容,则应将此属性设置为开启,并将强度设置为四级。这将影响排序键长度和字符串比较性能。

可能的值为

Collator::NUMERIC_COLLATION int

启用此属性后,它会为数字子字符串的数值生成排序键。这是一种使“100”在排序时排在“2”之后的方法。

可能的值为

Collator::DEFAULT_VALUE int
Collator::PRIMARY int
Collator::SECONDARY int
Collator::TERTIARY int
Collator::DEFAULT_STRENGTH int
Collator::QUATERNARY int
Collator::IDENTICAL int
Collator::OFF int
Collator::ON int
Collator::SHIFTED int
Collator::NON_IGNORABLE int
Collator::LOWER_FIRST int
Collator::UPPER_FIRST int
Collator::SORT_REGULAR int

Collator::SORT_STRING int

Collator::SORT_NUMERIC int

变更日志

版本 描述
8.4.0 类常量现在已进行类型化。

内容目录

添加注释

用户贡献的注释

此页面没有用户贡献的注释。
To Top