腾讯文档AI助手技术实践

腾讯技术工程 发表于 7月以前  | 总阅读数:605 次

本文从技术应用架构以及AI大模型赋能角度介绍腾讯文档AI智能助手的探索和实践之路。作为一款集多功能为一体的AI产品,腾讯文档全品类与AI进行了深度融合,全面提升用户生活和办公中的效率。通过腾讯文档AI,你脑海中灵光一现的Idea可以快速转化为详细的内容,在各种类型的文档中同源流转。同时,面对纷繁复杂的信息,腾讯文档AI也可以加以分析处理,帮助你从海量的信息中提炼出有价值的内容,从而将他们转化为属于你的认知。

第一章:大模型给效率工具带来的挑战

随着ChatGPT的发布和火爆,全世界的目光仿佛都聚焦在了大语言模型上;其强大的语言理解能力和生成能力、上下文记忆、学习纠错、思维链推理等关键能力的涌现,都标志着”AIGC“的发展到达了技术拐点。全世界的开发者手握一个如此威力巨大的雷神之锤,恨不得把所有的钉子都锤一遍,所以大模型火热的开始阶段,有了这样的一个言论:”世界上所有的app都可以结合大模型重做一遍“。话语虽经不起推敲,但大模型在一些领域确实可以提高惊人的效率,尤其是效率工具领域,从以下几个宏观角度分析,确实给效率工具带来了极大的机会。

技术上:文本生成领域技术发展相对成熟

大模型落地最开始的应用,就是用于文本生成,同时在文本生成技术上发展也是最快最成熟的,承载用户创作的效率工具是天然落地的有利场景,可以极大提高用户创作环节的门槛和效率。

用户上:关注热度极高

用户关注度是大家极容易忽视的一个分析角度,当新技术、新概念问世后,无论新技术有多厉害,最终是要落地成为产品服务用户的。叫好不叫座的技术/产品,并不是真正的好技术/产品。

从百度关键词搜索指数,可以看出ChatGPT问世以来,所覆盖的用户面足够广、用户接受度和对其感兴趣程度极高,搜索指数峰值达85W,可算是今年的“互联网春晚”。过查询历史数据对比,可更加具象化的了解本次搜索热度:

上一个爆火的元宇宙概念, 搜索峰值指数不过10W,不及本次ChatGPT的1/8。

22年除夕当天,春晚关键词搜索指数150W,本次ChatGPT的关注度峰值已达春晚的一半。

发展规律:工具始终在率先变革

历史不会重复,但会押韵。从过往历代新技术变革到现在,每次工具都会率先的进行变革,一代人有一代人的生产力工具。

同样从全球/全国的竞品数据表现来看,完全也印证这件事:用户对文档类工具与AI的结合接受度高,需求旺盛,是本次大模型爆发后重点落地的优势领域。

全球访问量前100的AI产品中,共有12个文档类工具竞品上榜;全国访问量前100的AI产品中,共有26个文档类工具竞品上榜。

是新机遇但也确实是新挑战,对传统效率的革新并非一蹴而就,无论是用户认知教育、产品能力建设落地及差异化竞争、商业化模式都是新的挑战。本文会重点聚焦于 AI技术在产品落地环节及模型部分,其余部分不在此长篇幅展开,埋坑后续更新~

第二章:文档AI技术思维及架构

本章从技术角度介绍整个腾讯文档AI技术工程的具体实践架构,以及自身对AI应用落地的技术思考。

2.1 AI应用技术思维

在实际应用思维模式可以总结为:

1. 对人困难的,对AI也困难

2. 能让程序做的,就不要让AI做

举个可能不完全契合的例子:

人捕鱼这件事:人思考决策使用渔网(工具)进行捕鱼。普通人不会实际制作渔网,普通人制作渔网需要有人教授相关技能,过程费时费力,成效低,见效慢。

AI起到的是授人的作用;工具起到是渔的作用

在文档实际案例中,AI协助用户美化PPT这件事:AI理解用户需要美化PPT,AI决策使用PPT美化工具进行美化。AI不会实际美化PPT,AI美化PPT需要有人教授AI相关技能(海量的高质量的PPT美化相关数据进行模型训练),过程费时费力,成效低,见效慢。

"将整个PPT的字体调整为宋体" 任务

AI: 用于解决对话中理解用户调整字体的意图和具体的字体类别

工具:文档PPT调整字体工具进行实际的执行

"创建一个关于明朝历史的PPT" 任务

AI: 用于解决对话中理解用户创建PPT意图和主题 明朝历史

AI:基于明朝历史这个主题生成大纲和详细文本内容

工具(搜图工具):基于大纲进行图片搜索,实施PPT配图

工具(PPT模版):基于大纲,文本,图片 + 模版,生成完整PPT

腾讯文档自身业务包含诸多品类,例如Word,Excel,PPT,PDF,收集表(Form),思维导图,流程图,智能表格(SmartSheet),智能文档(SmartCanvas)以及正在进行中的白板品类。

不同品类是以产出为导向构建的产品形态,内容和形态叠加在一起,(Word需要调整格式,PPT大家需要学习美化)。其核心在于内容信息的表达。

因此,落地腾讯文档AI应用时, 从技术角度思考通常 应用AI解决内容相关问题,应用工程解决形态或者样式问题

2.2 文档AI技术架构

AICopilot:提供AI侧边栏对话入口服务,主要负责对话的意图识别工具分发,意图保持,柔性处理,缓存逻辑,会话存档等能力。

AIServer:提供各品类独有浮层助手能力。

AIAgent:定位于AI智能体,目前主要提供文档各品类的能力工具集合,被上层服务的意图识别后所实际的驱动的接口。

AIEngine:文档的AI引擎服务,涉及对AI相关能力的抽象和封装,保持统一抽象定义(主要包含文生文,文生图,TTS,ASR,OCR,Embedding等AI能力的抽象),屏蔽不同AI能力间的差异,奠定文档可以在不同AI能力进行无缝切换的基础。

AIOperation: 文档AI相关的灰度策略,隐私授权(柔性),运营操作。

AIExtension:AI拓展服务,主要包含和规划为AI应用落地过程中的其他支撑能力,例如文本搜索,图片搜索,Python执行引擎。

2.3 文档AI中台架构

文档AI中台的概念初始于腾讯文档这款产品本身就存在10种品类,期望以中台解决方案的形式为不同品类进行赋能,同时也是这样实践和落地。此不仅仅在于腾讯文档产品本身,依据部门内整体产品矩阵,也更需要将文档xAI基础能力作为中台,交付和赋能不同的产品。

文档AI中台同具体模型和产品应用解除耦合,形成了可以为不同产品赋能的文档xAI解决方案,提供对文档AI领域的整体解决方案,赋能不同的AI应用产品。

2.4 中书阁AI应用框架

在文档AI应用和中台落地过程中,也将AI技术和周边能力生态抽象实现为AI应用框架,其定位:AI应用落地的应用框架建设 。愿景:AI For Everyone,降低AI应用技术门槛,提升AI应用研发效率 。

理念

1.标准化:主要承接Oteam前两项内容 AI应用标准 和 AI应用规范,其将通过AI应用框架的标准化建设最终输出给业务研发者。

2.可视化:在大语言模型应用中往往遇到多次同大语言模型交互并调用外部工具,对其中的过程的可视化将有助于研发调试,问题定位以及运营分析等。

框架将提供UI平台,提供LLM应用过程的可视化界面(包含耗时分析,Token消耗等等内容)。

框架也将提供LLM的可观测性,提供基于OpenTelemetry标准的监控,分布式追踪和日志等数据的上报。

3.多语言框架:将提供多语言实现,以满足不用业务应用场景和业务技术栈。

对非AI专业友好,框架站在使用者角度进行模块和能力抽象,多语言提供AI应用开发聚焦在AI产品能力落地及效果优化。

第三章:文档AI应用侧技术实践

3.1 问答场景应用

文档产品最核心能力之一是信息传达,海量的信息中对信息进行AI问答是关键AI落地场景之一,在文档中涉及对Word,PPT,Sheet,思维导图,收集表,知识库等场景内容的问题。

文档的AI应用工程实现关键一点在于搭建文档问答的基础解决方案。解决此类的问题的关键在于如何让大模型理解领域知识(特定文档中的内容信息)。

通常有两种解决方案:

方案一:领域知识通过FT方式进入模型的权重文件中或通过LoRA动态叠加到模型权重文件中。

方案二:通过Context的方式即时的将领域知识传入模型。

用户的文档信息,是用户自身的信息的集合,它主要服务于用户自身。我们不可能为每位用户专门训练模型,基于时效性的考虑用户文档经常变更,也不可能每次变更重训模型,其次基于用户隐私的考虑,我们也不可能将用户数据拿来进行训练。显然方案一不可行。

那么在文档中实际进行落地的也是方案二:通过Context的方式即时的将领域知识传入模型。

这种技术被称为 RAG,RAG (Retrieval-Augmented Generation)搜索增强生成技术,也就是一套基于特定知识库的检索召回和大模型模型生成的技术方案,用于处理大模型中各种复杂的知识密集型任务,如知识问答。

整体解决方案由如下模块串联完成:

l 文档加载:定义统一的 Document 数据模型,将实现默认典型的数据源加载实现,业务方也可以根据接口自定义实现自身所需文档数据源。

  • 文档分片:大语言模型上下文大小有一定限制,需要将大量数据进行分割操作。
  • 文档Embedding:Embedding过程将对应文本向量化,以提供更好的语义表达。
  • 文档向量存储:使用向量数据库存储文档向量信息。
  • 文档召回:根据用户输入的问题召回跟问题最相关的文档信息。
  • 问题解答:根据召回文档资料 + 用户输入问题提供给大语言模型进行知识问答。

为解决如下两种场景,在原有架构上规划进行进一步的升级。

1.解决元数据问答、总结、非总结类问题

2.解决涉及多模态文档的问答

3.2 意图识别应用

依在文档AI实际产生应用效益,需要将用户意图实际转化为具体的行为

挑战一:上百种指令场景

挑战二:意图和任务流程各不相拥,通过会涉及多种工具的串联

如下实际用户使用的示例:

结合用户不同输入应用场景,落地AI功能,关键在于 意图识别任务编排

● 通过PromptID为唯一任务索引

● 将能力标准化工具化

● 通过As Code形式对任务进行编排(参考gitlab的,利用yml进行任务编排上百种任务场景)

用户意图更大的挑战是 多意图识别,用户可能同时进行字体调整和字号调整,对于上述的解决放哪,我们是不可能使用单个function call解决问题的,function call的参数有限,也无法预测所有的用户行为。

那么可行的大概两种:

方案一:多轮Function Call

方案二:生成代码

最终我们规划使用生成代码的方案,主要多轮function call实现上无法解决任务顺序问题,而通过生成的代码是可行的。

3.3 表格应用场景

表格场景最大的挑战是表格内容容量,根据目前大模型的context容量,大概只能支持有限个单元格。超大表格解决方案,核心策略在于:将原有AI返回结果升级为AI返回得出结果的方式方法(即代码)。

第四章:文档AI模型侧技术实践

4.1 创作场景模型

使用数据增强方法,强化薄弱能力

对于创作能力,使用self instruct、evol instruct等方法构造类似的种子指令、并通过复杂化进化和泛化,进行数据增强。可以有一套比较标准化的流程:

收集种子指令 :收集新需求,人工编写简单种子指令;

指令多样化:参考self instruct、evol instruct 宽度变换的做法,对种子指令进行多样性变换,覆盖更多的领域、主题、形式等;

指令复杂化 :参考evol instruct 深度变换操作(例如:增加约束、增加参考示例、增加具体化操作等),为种子指令添加约束,让指令变得复杂,为每个指令增加3-10个约束条件;

指令泛化:对进化后的指令同意改写,进一步丰富表达方式和形式,每个指令改写3-5种形式。

结果抓取:标注和抓取上述进化后的指令;

结果清洗:使用self-refine、人工检查等方式,抓取结果的准确率接近100%。

对比学习方式,提升理解稳定性

针对差别较小,难以区分的任务,例如:约束漏点、否定约束、数字要求等任务、专门构造对比样本,加入sft或者进行强化学习。这类样本可以加入sft阶段学习,可以构造pair数据,加入偏好学习阶段。

局部对比:在约束数量较多的情况下,模型难以兼顾到所有约束。容易出现漏点问题。通过从指令中逐个去掉约束、其他部分不变的方式,增加局部对比的样本,让每个约束在指令中出现和没有出现的情况对应什么response,模型都见到过。

否定对比:针对否定约束,通过去掉否定条件和对否定条件取反的方式,构造对比样本

写一篇邮件,关于提前预约我们的美容护肤师,享受专业的面部护理服务和个性化护肤方案推荐。邮件需包含邮件主题、收件人、发件人、正文等基本部分。在邮件中指出收件人需要在预约后的48小时内完成预约确认和安排护肤师的任务,并提醒收件人应通过电话或电子邮件回复预约信息。不要出现"顺祝商祺"

数字变换对比:对指令里的数字要求的数字进行变换,构造对比样本

编写一篇关于未来城市规划的短文,强调可持续发展和绿色出行的重要性。同时,探讨如何有效利用现有资源,以减少对环境的影响。请务必包括至少三个创新性的规划策略,并在文中提供相应的实例或案例。

编写一篇关于未来城市规划的短文,强调可持续发展和绿色出行的重要性。同时,探讨如何有效利用现有资源,以减少对环境的影响。请务必包括至少六个创新性的规划策略,并在文中提供相应的实例或案例。

4.2 表格场景模型

公式生成

公式生成除了可以识别基础公式需求外(“求A列的和”),还支持热门领域专业术语的理解,例如:用户问营运资金周转率最大的产品,基于混元知识蕴含能力,混元知道【营运资金周转率=销售额/平均营运资金】,进而计算出每个产品的营运资金周转率。

此外,在技术方案上使用了思维链(COT)+代码生成(POT)的方式,解决公式嵌套带来的效果不稳定的问题。

思维链(CoT)被认为最具开拓性和影响力的提示工程技术之一,它可以增强大型语言模型在决策过程中的表现。

CoT迫使模型将推理过程划分为中间步骤。这种方法类似于人类的认知过程,将复杂的挑战分解为更小、更易于管理的部分。

思维程序(PoT) 是一种独特的LLM推理方法。它不仅仅是生成自然语言答案,而是要求创建一个可执行程序,可以在Python等程序解释器上运行,从而产生实际的结果。

PoT提供了一个更清晰、更具表达力和基础的答案推导模型,提高了准确性和理解力。

图表生成

图表生成的核心部分包括6个模块,其中拒识、分步改写、代码生成三个模块是基于大模型的推理模块,背后模型均经过了模型精调。

具体地:

  • 拒识模型能够识别用户问题和表格的相关性,对与表格无关的问题或非绘图问题进行拒绝回复
  • 分步改写模型针对不同表格和不同问题,将绘图步骤拆解为多个可执行步骤
  • 代码生成模型根据绘图步骤生成python表格可视化代码。

第五章:总结

结合腾讯文档AI落地过程,总结一下AI助手开发过程中的一些经验:

  • 对人困难的,对AI也困难
  • 能让程序做的,就不要让AI做
  • 应用AI解决内容相关问题,应用工程解决形态或者样式问题

本文由微信公众号腾讯技术工程原创,哈喽比特收录。
文章来源:https://mp.weixin.qq.com/s/MNY6647V4hPByNzghyDUfQ

 相关推荐

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

发布于:1年以前  |  808次阅读  |  详细内容 »

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于:1年以前  |  770次阅读  |  详细内容 »

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于:1年以前  |  756次阅读  |  详细内容 »

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

发布于:1年以前  |  648次阅读  |  详细内容 »

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

发布于:1年以前  |  589次阅读  |  详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

发布于:1年以前  |  449次阅读  |  详细内容 »

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

发布于:1年以前  |  446次阅读  |  详细内容 »

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

发布于:1年以前  |  445次阅读  |  详细内容 »

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

发布于:1年以前  |  444次阅读  |  详细内容 »

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

发布于:1年以前  |  442次阅读  |  详细内容 »

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

发布于:1年以前  |  441次阅读  |  详细内容 »

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

发布于:1年以前  |  437次阅读  |  详细内容 »

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

发布于:1年以前  |  430次阅读  |  详细内容 »

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

发布于:1年以前  |  428次阅读  |  详细内容 »

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

发布于:1年以前  |  420次阅读  |  详细内容 »

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

发布于:1年以前  |  411次阅读  |  详细内容 »

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

发布于:1年以前  |  406次阅读  |  详细内容 »

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

发布于:1年以前  |  398次阅读  |  详细内容 »
 目录