[译]JavaScript中Base64编码字符串的细节

奇舞精选发表于 1年以前 | 总阅读数：1441 次

本文作者为 360 奇舞团前端开发工程师

原文标题：The nuances of base64 encoding strings in JavaScript

原文作者：Matt Joseph

原文链接：https://web.dev/articles/base64-encoding

Base64编码和解码是一种常见的将二进制内容转换为适合Web的文本的形式。它通常用于data URLs，比如内嵌图片。

当你在JavaScript中对字符串应用base64编码和解码时会发生什么？这篇文章探讨了这些细节和需要避免的常见陷阱。

btoa() 和 atob() 函数

JavaScript中进行base64编码和解码的核心函数是btoa()和atob()。btoa()用于将字符串转换为base64编码的字符串，而atob()则用于解码。

下面是一个快速示例：

// 一个非常简单的字符串，仅包含低于128的代码点。
const asciiString = 'hello';

// 这将会成功，它将打印：
// 编码后的字符串: [aGVsbG8=]
const asciiStringEncoded = btoa(asciiString);
console.log(`Encoded string: [${asciiStringEncoded}]`);

// 这也将会成功，它将打印：
// 解码后的字符串: [hello]
const asciiStringDecoded = atob(asciiStringEncoded);
console.log(`Decoded string: [${asciiStringDecoded}]`);

不幸的是，正如MDN文档所指出的，这只适用于包含ASCII字符的字符串，即可以用单个字节表示的字符。换句话说，这对于Unicode来说不起作用。

要理解发生了什么，请尝试以下代码：

// 示例字符串表示了小、中、大代码点的组合。
// 这个示例字符串是有效的UTF-16。
// 'hello' 的代码点都低于128。
// '⛳' 是一个16位代码单元。
// '❤️' 是两个16位代码单元，U+2764 和 U+FE0F（一个心形和一个变体）。
// '' 是一个32位代码点（U+1F9C0），也可以表示为两个16位代码单元的替代对 '\ud83e\uddc0'。
const validUTF16String = 'hello⛳❤️';

// 这将不会成功。它将打印：
// DOMException: Failed to execute 'btoa' on 'Window': The string to be encoded contains characters outside of the Latin1 range.
try {
  const validUTF16StringEncoded = btoa(validUTF16String);
  console.log(`Encoded string: [${validUTF16StringEncoded}]`);
} catch (error) {
  console.log(error);
}

字符串中的任何一个表情符号都会导致错误。为什么Unicode会引起这个问题？

为了理解，让我们先退后一步，深入了解计算机科学和JavaScript中的字符串。

Unicode和JavaScript中的字符串

Unicode是当前的全球字符编码标准，它是将数字分配给特定字符的实践，以便在计算机系统中使用。有关Unicode的更深入了解，请访问W3C的文章。

h - 104
ñ - 241
❤ - 2764
❤️ - 2764 带有一个隐藏的修改编号65039
⛳ - 9971
- 129472

表示每个字符的数字被称为“代码点”。您可以将“代码点”视为每个字符的地址。在红心表情符号中，实际上有两个代码点：一个用于心形，另一个用于“变化”颜色并使其始终为红色。

深入了解变体选择器的概念。

Unicode有两种常见的方法将这些代码点转换为计算机可以一致解释的字节序列：UTF-8和UTF-16。

一个过于简化的视角是：

在UTF-8中，一个代码点可以使用一到四个字节（每个字节8位）。
在UTF-16中，一个代码点始终是两个字节（16位）。

重要的是，JavaScript处理字符串时使用的是UTF-16。这破坏了像btoa()这样的函数，这些函数实际上是基于这样一个假设：字符串中的每个字符映射到一个单字节。MDN上明确说明了这一点：

The btoa() method creates a Base64-encoded ASCII string from a binary string (i.e., a string in which each character in the string is treated as a byte of binary data).

现在您知道JavaScript中的字符通常需要不止一个字节，下一部分将演示如何处理这种情况下的base64编码和解码。

btoa()和atob()与Unicode

正如您现在所知，抛出的错误是由于我们的字符串包含位于单个字节之外的UTF-16字符。

幸运的是，MDN关于base64的文章包含了一些有用的示例代码来解决这个“Unicode问题”。您可以修改这些代码以适应前面的示例：

// 来自https://developer.mozilla.org/en-US/docs/Glossary/Base64#the_unicode_problem。
function base64ToBytes(base64) {
  const binString = atob(base64);
  return Uint8Array.from(binString, (m) => m.codePointAt(0));
}

// 来自https://developer.mozilla.org/en-US/docs/Glossary/Base64#the_unicode_problem。
function bytesToBase64(bytes) {
  const binString = String.fromCodePoint(...bytes);
  return btoa(binString);
}

// 示例字符串表示了小、中、大代码点的组合。
// 这个示例字符串是有效的UTF-16。
// 'hello' 的代码点都低于128。
// '⛳' 是一个16位代码单元。
// '❤️' 是两个16位代码单元，U+2764 和 U+FE0F（一个心形和一个变体）。
// '' 是一个32位代码点（U+1F9C0），也可以表示为两个16位代码单元的替代对 '\ud83e\uddc0'。
const validUTF16String = 'hello⛳❤️';

// 这将会成功。它将打印：
// 编码后的字符串: [aGVsbG/im7PinaTvuI/wn6eA]
const validUTF16StringEncoded = bytesToBase64(new TextEncoder().encode(validUTF16String));
console.log(`Encoded string: [${validUTF16StringEncoded}]`);

// 这将会成功。它将打印：
// 解码后的字符串: [hello⛳❤️]
const validUTF16StringDecoded = new TextDecoder().decode(base64ToBytes(validUTF16StringEncoded));
console.log(`Decoded string: [${validUTF16StringDecoded}]`);The following steps explain what this code does to encode the string:

使用TextEncoder接口将UTF-16编码的JavaScript字符串转换为UTF-8编码的字节流，可通过TextEncoder.encode()实现。
这将返回一个Uint8Array，这是JavaScript中较少使用的数据类型，是TypedArray的子类。
将这个Uint8Array提供给bytesToBase64()函数，该函数使用String.fromCodePoint()将Uint8Array中的每个字节作为代码点处理，并从中创建一个字符串，其结果为一个可以全部用单个字节表示的代码点的字符串。
使用btoa()对该字符串进行base64编码。

解码过程与此相同，但顺序相反。

这有效的原因是，Uint8Array和字符串之间的步骤保证了虽然JavaScript中的字符串是以UTF-16的两字节编码表示的，但每两个字节代表的代码点始终小于128。

这段代码在大多数情况下都工作良好，但在其他情况下会悄悄地失败。

静默失败的案例

使用相同的代码，但使用不同的字符串：

// 来自https://developer.mozilla.org/en-US/docs/Glossary/Base64#the_unicode_problem。
function base64ToBytes(base64) {
  const binString = atob(base64);
  return Uint8Array.from(binString, (m) => m.codePointAt(0));
}

//  来自https://developer.mozilla.org/en-US/docs/Glossary/Base64#the_unicode_problem。
function bytesToBase64(bytes) {
  const binString = String.fromCodePoint(...bytes);
  return btoa(binString);
}

// 示例字符串表示了小、中、大代码点的组合。
// 这个示例字符串是无效的UTF-16。
// 'hello' 的代码点都低于128。
// '⛳' 是一个16位代码单元。
// '❤️' 是两个16位代码单元，U+2764 和 U+FE0F（一个心形和一个变体）。
// '' 是一个32位代码点（U+1F9C0），也可以表示为两个16位代码单元的替代对 '\ud83e\uddc0'。
// '\uDE75' 是代理对中的一半。
const partiallyInvalidUTF16String = 'hello⛳❤️\uDE75';

// 这将会成功。它将打印：
// 编码后的字符串: [aGVsbG/im7PinaTvuI/wn6eA77+9]
const partiallyInvalidUTF16StringEncoded = bytesToBase64(new TextEncoder().encode(partiallyInvalidUTF16String));
console.log(`Encoded string: [${partiallyInvalidUTF16StringEncoded}]`);

// 这也将会成功。它将打印:
// 解码后的字符串: [hello⛳❤️�]
const partiallyInvalidUTF16StringDecoded = new TextDecoder().decode(base64ToBytes(partiallyInvalidUTF16StringEncoded));
console.log(`Decoded string: [${partiallyInvalidUTF16StringDecoded}]`);

如果您查看解码后的最后一个字符（�）的十六进制值，您会发现它是\uFFFD而不是原来的\uDE75。它没有失败或抛出错误，但输入和输出数据已经悄悄地改变了。为什么会这样？

JavaScript API中的字符串变化

如前所述，JavaScript将字符串处理为UTF-16。但是UTF-16字符串有一个独特的属性。

以奶酪表情为例。这个表情()的Unicode代码点是129472。不幸的是，16位数的最大值是65535！那么UTF-16是如何表示这个更高的数字的呢？

UTF-16有一个称为代理对的概念。您可以这样想：

对中的第一个数字指定要搜索的“书籍”。这被称为 "surrogate"。
对中的第二个数字是“书籍”中的条目。

您可以想象，有时仅拥有代表书籍的数字而没有实际书籍中的条目可能是有问题的。在UTF-16中，这被称为 lone surrogate。

这在JavaScript中尤其具有挑战性，因为一些API尽管存在单独代理也能工作，而其他API则会失败。

在前面的例子中，您在从base64解码回来时使用了TextDecoder。特别是，TextDecoder的默认设置指定了以下内容：

它默认为false，这意味着解码器用替代字符替换格式错误的数据。

您之前观察到的那个�字符，用十六进制表示为\uFFFD，就是那个替代字符。在UTF-16中，带有单独代理的字符串被视为“格式错误的”或“不规范的”。

有各种Web标准（示例1, 2, 3, 4）准确指定了格式错误的字符串何时影响API行为，但值得注意的是TextDecoder是这些API之一。在进行文本处理之前确保字符串格式规范是一个好习惯

检查格式良好的字符串

最近版本的浏览器现在具有用于此目的的函数：isWellFormed().

浏览器支持: isWellFormed().

您可以通过使用encodeURIComponent()来实现类似的结果，如果字符串包含单独代理，则会抛出URIError错误。

以下函数在可用时使用isWellFormed()，如果不可用则使用encodeURIComponent()。类似的代码可用于创建isWellFormed()的polyfill。

// 由于旧版浏览器不支持isWellFormed()，可以快速创建polyfill。
// encodeURIComponent()对于单独代理会抛出错误，这本质上是相同的。
function isWellFormed(str) {
  if (typeof(str.isWellFormed)!="undefined") {
    // 使用更新的isWellFormed()功能。
    return str.isWellFormed();
  } else {
    // 使用较老的encodeURIComponent()。
    try {
      encodeURIComponent(str);
      return true;
    } catch (error) {
      return false;
    }
  }
}

将所有内容整合在一起

现在您已经知道如何处理Unicode和单独代理，您可以将所有内容整合在一起，创建能够处理所有情况并且不会进行静默文本替换的代码。

// 来自https://developer.mozilla.org/en-US/docs/Glossary/Base64#the_unicode_problem.
function base64ToBytes(base64) {
  const binString = atob(base64);
  return Uint8Array.from(binString, (m) => m.codePointAt(0));
}

// 来自https://developer.mozilla.org/en-US/docs/Glossary/Base64#the_unicode_problem.
function bytesToBase64(bytes) {
  const binString = String.fromCodePoint(...bytes);
  return btoa(binString);
}

// 由于旧版浏览器不支持isWellFormed()，可以快速创建polyfill。
// encodeURIComponent()对于单独代理会抛出错误，这本质上是相同的。
function isWellFormed(str) {
  if (typeof(str.isWellFormed)!="undefined") {
    // Use the newer isWellFormed() feature.
    return str.isWellFormed();
  } else {
    // Use the older encodeURIComponent().
    try {
      encodeURIComponent(str);
      return true;
    } catch (error) {
      return false;
    }
  }
}

const validUTF16String = 'hello⛳❤️';
const partiallyInvalidUTF16String = 'hello⛳❤️\uDE75';

if (isWellFormed(validUTF16String)) {
  // 这将会成功。它将打印：
  // 编码后的字符串: [aGVsbG/im7PinaTvuI/wn6eA]
const validUTF16StringEncoded = bytesToBase64(new TextEncoder().encode(validUTF16String));
console.log(`Encoded string: [${validUTF16StringEncoded}]`);

  // 这将会成功。它将打印：
  // 解码后的字符串: [hello⛳❤️]
  const validUTF16StringDecoded = new TextDecoder().decode(base64ToBytes(validUTF16StringEncoded));
  console.log(`Decoded string: [${validUTF16StringDecoded}]`);
} else {
  // 忽略
}

if (isWellFormed(partiallyInvalidUTF16String)) {
  // 忽略
} else {
  // 这不是一个格式良好的字符串，因此我们要处理这种情况。
  console.log(`Cannot process a string with lone surrogates: [${partiallyInvalidUTF16String}]`);
}

这段代码可以进行许多优化，比如将其泛化为一个polyfill，将TextDecoder的参数更改为在单独代理处抛出而不是默默替换，以及其他。有了这些知识和代码，您还可以明确决定如何处理格式不正确的字符串，比如拒绝数据或明确启用数据替换，或者为以后分析而抛出错误。

除了作为base64编码和解码的一个有价值的例子外，本文还提供了一个例子，说明仔细处理文本数据尤其重要，特别是当文本数据来自用户生成或外部来源时。

本文由微信公众号奇舞精选原创，哈喽比特收录。
文章来源：https://mp.weixin.qq.com/s/qxi_28ozTZqjLeJNlpR6rA

刘强东夫妇：“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而，京东官方通过微博发言人发布的消息澄清了这些传言，称这些言论纯属虚假信息和蓄意捏造。

发布于：2年以前 | 808次阅读 | 详细内容 »

博主曝三大运营商，将集体采购百万台华为Mate60系列

日前，据博主“@超能数码君老周”爆料，国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于：2年以前 | 770次阅读 | 详细内容 »

ASML CEO警告：出口管制不是可行做法，不要“逼迫中国大陆创新”

据报道，荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦（ASML）CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于：2年以前 | 756次阅读 | 详细内容 »

抖音中长视频App青桃更名抖音精选，字节再发力对抗B站

今年早些时候，抖音悄然上线了一款名为“青桃”的 App，Slogan 为“看见你的热爱”，根据应用介绍可知，“青桃”是一个属于年轻人的兴趣知识视频平台，由抖音官方出品的中长视频关联版本，整体风格有些类似B站。

发布于：2年以前 | 648次阅读 | 详细内容 »

威马CDO：中国每百户家庭仅17户有车

日前，威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”，同时，他发文表示：中国汽车普及率低于非洲国家尼日利亚，每百户家庭仅17户有车。意大利世界排名第一，每十户中九户有车。

发布于：2年以前 | 589次阅读 | 详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日，一项新的研究发现，维生素 C 和 E 等抗氧化剂会激活一种机制，刺激癌症肿瘤中新血管的生长，帮助它们生长和扩散。

发布于：2年以前 | 449次阅读 | 详细内容 »

苹果据称正引入3D打印技术，用以生产智能手表的钢质底盘

据媒体援引消息人士报道，苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后，3D系统一度大涨超10%，不过截至周三收盘，该股涨幅回落至2%以内。

发布于：2年以前 | 446次阅读 | 详细内容 »

千万级抖音网红秀才账号被封禁

9月2日，坐拥千万粉丝的网红主播“秀才”账号被封禁，在社交媒体平台上引发热议。平台相关负责人表示，“秀才”账号违反平台相关规定，已封禁。据知情人士透露，秀才近期被举报存在违法行为，这可能是他被封禁的部分原因。据悉，“秀才”年龄39岁，是安徽省亳州市蒙城县人，抖音网红，粉丝数量超1200万。他曾被称为“中老年...

发布于：2年以前 | 445次阅读 | 详细内容 »