php utf-8转unicode的函数第1/2页

5年以前  |  阅读数:1045 次  |  编程语言:PHP 

UTF编码
UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:
UCS-2编码(16进制)
UTF-8 字节流(二进制)
0000 - 007F
0xxxxxxx
0080 - 07FF
110xxxxx 10xxxxxx
0800 - FFFF
1110xxxx 10xxxxxx 10xxxxxx
  例如"汉"字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
终于将unicode和utf8互转搞定。
如果utf-8编码的字符ch是3个字节。xx yy zz
将xx和1F AND 操作得到 a
将yy和7F AND 操作得到 b
将zz和7F AND 操作得到 c
(64a+b)*64+c = ch(unicode编码)
echo.php没什么。就是几个函数。
");
//写入unicode文件
$ucs2data = utf8ToUnicode($data,"little");
$endian = chr(0xFE).chr(0xFF);
$endian = chr(0xFF).chr(0xFE);
$rt = file_put_contents ( "ucs2.txt", $endian.$ucs2data);
//19:32,utf8toUnicode函数ok.
//20:09。发现little endian 和big endian问题。并解决。
//big endian 方式存入的unicode字符串,ue和editplus均不能
//识别。只有notepad正常识别。
$rt = file_put_contents ( "usc2ys_data.txt", $ucs2_ysdata);
//写入utf8文件
$utf8data = unicodeToUtf8($ucs2data); // 20:52. 将字串转回utf8码ok.
$rt = file_put_contents ( "utf8.txt", $utf8data);
echo(urlencode($utf8data));echo("");
$esc = utf8Escape($data);
echot($esc);
$esc = phpEscape($data);
echot($esc);
$unesc = phpUnescape($esc);
echot($unesc);
/**

  • 此函数将utf8编码字串转为unicode编码字符串
  • 参数 str ,utf8编码的字符串。
  • 参数 order,存放数据格式,是big endian还是little endian,默认的unicode存放次序是little.
  • 如:"大"的unicode码是 5927。little方式存放即为:27 59 。big方式则顺序不变:59 27.
  • little 存放格式文件的开头均需有FF FE。big 存放方式的文件开头为 FE FF。否则。将会产生严重混乱。
  • 本函数只转换字符,不负责增加头部。
  • iconv转换过来的字符串是 big endian存放的。
  • 返回 ucs2string , 转换过的字符串。
  • 感谢唠叨(xuzuning)
    */
    function utf8ToUnicode($str,$order="little")
    {
    $ucs2string ="";
    $n=strlen($str);
    for ($i=0;$i0x80) { //110xxxxx 10xxxxxx
    $a = (ord($str[$i]) & 0x3F )0x80 && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx
    $a = (ord($str[$i]) & 0x1F)转为utf8编码字符串
  • 参数 str ,unicode编码的字符串。
  • 参数 order ,unicode字串的存放次序,为big endian还是little endian.
  • 返回 utf8string , 转换过的字符串。
  • */
    function unicodeToUtf8($str,$order="little")
    {
    $utf8string ="";
    $n=strlen($str);
    for ($i=0;$i转回来。
    $i++; //两个字节表示一个unicode字符。
    $c = "";
    if($val utf8string .= $c;
    }
    return $utf8string;
    } // end func

/*

  • 将utf8编码的字符串编码为unicode 码型,等同escape
  • 之所以只接受utf8码,因为只有utf8码和unicode之间有公式转换,其他的编码都得查码表来转换。
  • 不知道查找utf8码的正则是否完全正确。迷茫ing
  • 虽然调用utf2ucs对每个字符进行码值计算。效率过低。然而,代码清晰,要是把那个计算过程嵌入。
  • 代码就不太容易阅读了。
    */
    function utf8Escape($str) {
    preg_match_all("/[\xC0-\xE0].|[\xE0-\xF0]..|[\x01-\x7f]+/",$str,$r);
    //prt($r);
    $ar = $r[0];
    foreach($ar as $k=>$v) {
    $ord = ord($v[0]);
    if( $ordutf8码
    $ar[$k] = "%u".utf2ucs($v);
    }
    elseif ($ordutf8码
    $ar[$k] = "%u".utf2ucs($v);
    }
    }//foreach
    return join("",$ar);
    }
    /**
  • 把utf8编码字符转为ucs-2编码
  • 参数 utf8编码的字符。
  • 返回 该字符的unicode码值。知道了码值,你就能使用chr将字符弄出来了。
  • 原理:unicode转为utf-8码的算法是。头部固定位或。
    该过程的逆向算法就是这个函数了,头部固定位反位和。
    /
    function utf2ucs($str){
    $n=strlen($str);
    if ($n=3) {
    $highCode = ord($str[0]);
    $midCode = ord($str[1]);
    $lowCode = ord($str[2]);
    $a = 0x1F & $highCode;
    $b = 0x7F & $midCode;
    $c = 0x7F & $lowCode;
    $ucsCode = (64
    $a + $b)64 + $c;
    }
    elseif ($n==2) {
    $highCode = ord($str[0]);
    $lowCode = ord($str[1]);
    $a = 0x3F & $highCode; //0x3F是0xC0的补数
    $b = 0x7F & $lowCode; //0x7F是0x80的补数
    $ucsCode = 64
    $a + $b;
    }
    elseif($n==1) {
    $ucscode = ord($str);
    }
    return dechex($ucsCode);
    }

/*

  • 用处 :此函数用来逆转javascript的escape函数编码后的字符。
  • 关键的正则查找我不知道有没有问题.
  • 参数:javascript编码过的字符串。
  • 如:unicodeToUtf8("%u5927")= 大
  • 2005-12-10
  • */
    function phpUnescape($escstr){
    preg_matchall("/%u[0-9A-Za-z]{4}|%.{2}|[0-9a-zA-Z.+-]+/",$escstr,$matches); //prt($matches);
    $ar = &$matches[0];
    $c = "";
    foreach($ar as $val){
    if (substr($val,0,1)!="%") { //如果是字母数字+-.的ascii码
    $c .=$val;
    }
    elseif (substr($val,1,1)!="u") { //如果是非字母数字+-
    .的ascii码
    $x = hexdec(substr($val,1,2));
    $c .=chr($x);
    }
    else { //如果是大于0xFF的码
    $val = intval(substr($val,2),16);
    if($val %u".bin2hex( iconv( 'gbk' ,"UCS-2",$chars[$i].$chars[$i+1] ) );
    $i++;
    }
    }//foreach
    return $ar;
    }
    ?>

当前1/2页 12下一页阅读全文

 相关文章:
PHP分页显示制作详细讲解
SSH 登录失败:Host key verification failed
获取IMSI
将二进制数据转为16进制以便显示
获取IMEI
文件下载
贪吃蛇
双位运算符
PHP自定义函数获取搜索引擎来源关键字的方法
Java生成UUID
发送邮件
年的日历图
提取后缀名
在Zeus Web Server中安装PHP语言支持
让你成为最历害的git提交人
Yii2汉字转拼音类的实例代码
再谈PHP中单双引号的区别详解
指定应用ID以获取对应的应用名称
Python 2与Python 3版本和编码的对比
php封装的page分页类完整实例