架构师视角：GPTs Demo搭建后的思考（上）

发表于 1年以前 | 总阅读数：1293 次

由安德鲁小镇GPTs的PoC实录

引发的资深架构师的思考

实践之后，AI到底会对软件开发带来什么样的变化？

UX的变化；API的未来；LLM的位置

01 安德鲁小镇GPTs-Demo

在 2023年11月 Open AI 的开发者大会，发布了一个新的服务: GPTs，我这次 demo 的主角, 就是想试试看, 搭配自定义的 API，GPTs 能把体验做到什么样的程度?

GPTs 是以 Chat GTP 为基础, 他允许你在这基础上, 预先设定好它的角色设定 (只管用自然语言说明就好), 背后的知识库 (只管上传档案就好, 不用理会 RAG 什么的细节), 你也可以把自己的 API 挂上去 ( Custom Action, 只要遵循 Open API spec 就好, 写好每个 path 的说明即可, 不用做特别设定, GPTs 会自己思考何时要呼叫你的 API)。完成之后，这个定制化的 GPTs, 就会按照你的设定, 来回应你的问题。而我这次的 demo, 就是定制了安德鲁小舖 GPTs, 他是个店长, 你只要跟他对话, 他可以在线上服务你, 并且替你呼叫 API 完成整个购物的流程。

整个测试进行下来，说老实话，技术门槛很低，没有太多新的 “技术” 要学。但是整合应用的门槛很高，困难的地方在于跟传统的做法差异太大了，像我这种经验充足的业界老人反而束手束脚的很不习惯.. (这是我的问题啊)，有很多颠覆传统的思考方式需要适应。另一个感受就是: 我对 API 的看法又更深一层了，这个 demo 里，API 是 AI 与现有系统的唯一沟通管道，而 API 被呼叫的方式也跟过去不同，要呼叫你 API 的是 AI，是你无法预测他行为模式的 LLM，而不是另一个 developer … 这背后带出了你的 API 不再是 “能用就好” 的设计思维，而是要真正要让领域专家 (我假设给了正确知识的 GPTs 就是领域专家) 能充分理解 API 运作逻辑，并且能正确使用。过去我在谈的 API First 跟 Business Model，正好在这边完全派上用场，这是这次 PoC 能顺利进行最关键的地方。

开始看 demo 吧! 你有几种方式可以体验安德鲁小舖 GPTs:

懒人包, 可以直接看完整对话记录。
技术细节，可以直接看我这次开出来的购物网站 API 规格。
实际体验安德鲁小舖 GPTs, 只要你有 Chat GPT Plus 订阅，点这个链接就可以体验了。我只是实验性质，API 目前架设在 Azure App Service 下，没有 HA，随时会关掉。资料都是存在记忆体内，服务重启就会清空。账号注册登入只是个流程，只看 username，密码乱打都可以过。

介绍完毕，接下来我就用我的情境，跑完一次整个使用的过程吧:

1.1 店里都卖什么？

首先，对话一开始，我就问了店里都卖什么:

其中看到“已与andrewshopoauthdemo. azurewebsites.net 进行对话”，就代表 GPTs 背后已经在呼叫你的 API 了，箭头往下拉可以看到背后 POST 了什么资讯.. 这边还如预期，GPTs 中规中矩的呼叫了 /api/products, 把取得的商品资讯 (json) 转成清单显示给我看。GPTs 蛮细心的地方是，商品资讯还会自动帮我摘要.. 我原本写的内容比较啰嗦… 为了方便对照，底下是 API 原生传回的内容:

[
  {
    "id": 1,
    "name": "18天台湾生啤酒 355ml",
    "description": "18天台湾生啤酒未经过巴氏德高温杀菌，採用欧洲优质原料，
    全程0-7°C冷藏保鲜，犹如鲜奶与生鱼片般珍贵，保留最多啤酒营养及麦香风味；
    这样高品质、超新鲜、赏味期只有18天的台湾生啤酒，值得您抢鲜到手!",
    "price": 65
  },
  {
    "id": 2,
    "name": "可口可乐® 350ml",
    "description": "1886年，美国乔治亚州的亚特兰大市，有位名叫约翰•潘伯顿
    （Dr. John S. Pemberton）的药剂师，他挑选了几种特别的成分，发明出一款美味的糖浆，
    没想到清凉、畅快的“可口可乐”就奇迹般的出现了！潘伯顿相信这产品可能具有商业价值，
    因此把它送到杰柯药局（Jacobs' Pharmacy）贩售，开始了“可口可乐”这个美国饮料的传奇。
    而潘伯顿的事业合伙人兼会计师：法兰克•罗宾森（Frank M. Robinson），认为两个
    大写C字母在广告上可以有不错的表现，所以创造了\"Coca‑Cola\"这个名字。但是让
    “可口可乐”得以大展锋头的，却是从艾萨•坎德勒（Asa G. Candler）这个具有行销
    头脑的企业家开始。",
    "price": 18
  },
  {
    "id": 3,
    "name": "御茶园 特撰冰酿绿茶 550ml",
    "description": "新升级!台湾在地茶叶入，冰酿回甘。台湾在地茶叶，原叶冲泡。
    如同现泡般的清新绿茶香。",
    "price": 25
  }
]

1.2 设置预算和商品折扣后的处理

接着我就开始出难题给 GPTs 了… 我的 API 只有提供商品单价，或是你加入购物车后，会有 API ( /api/carts/{cart-id}/estimate ) 会传回结账金额的试算结果。这段 code 背后有做折扣条件的计算。背后的规则是:

18天台湾生啤酒有第二瓶六折优惠

不过这规则并没有 API 揭露，因此需要推测，并且加入购物车试看看才能知道结果。所以我出了难题给 GPTs:

结果还蛮神奇的，GPTs 的理解跟推理能力还不错，看得懂我的要求，也看得懂 API 的能力范围，于是自己推演了逻辑，一连串呼叫了好几次 API 帮我确认结果，最后给了我建议的采购项目。不得不说，做得比我预期好，虽然偶尔也会得到错的答案，但是看得出来 GPTs 有在努力…。

(不过，这结果没有 100% 稳定可靠，我在测试的过程也碰过很瞎的答案.. )

我继续刁难他。过去在做 Chat Bot 的经验，对谈只是在聊天介面下下 CLI 的指令那样的感觉，根本不是 “对话”。这种 Chat Bot 要说上能了解你的意图，根本就差太远，只能说是鸡同鸭讲。为了确保 GPTs 真的理解我的意图，我刻意追加了要求，用口语要求在前面的结果修正多加两件，而品名我也刻意用同义字，只讲了 “啤酒”，没有讲精准的产品品名..

结果 GPTs 的处理相当正确，呼叫了对应的 API，也给我正确的结果，并且进行了结账的流程，呼叫了 /api/checkout/create (开始结账) 的 API..

结账过程很顺利。我的 API 设计本来就只要求拿到支付 ID 就当作结账完成，而 API 背后我也没真的去检查 ID 对不对，简单的说你只要给个 ID 就能过关。GPTs 也正确地替我呼叫结账完成 API, 完成结账。并且显示订单内容给我:

到这为止，购物的主要流程都很顺利地结束了。我给 GPTs 100 分，因为他替我 “脑补” 补上了我 API 没有涵盖的功能，这点对我来说还蛮震撼的，GPTs 补足了所有软件的难题: 猜测使用者想要干嘛，然后做出正确回应… 我留一些感想在后面观点再聊，我继续往下 demo …

1.3 调整订单，不要酒类饮料

继续测试 GPTs 的解读和处理能力… 我继续挑战他的对话能力，这次告诉它预算，条件比照办理，但是有小孩不能喝酒。我特意句子里没有讲不要买酒，只是隐讳地告诉他我的期待，需要靠他自己联想，该把购物车内的酒类商品都拿掉，并且调整数量符合我的预算跟条件 (不同商品购买数量要接近一致):

碰到我这种难搞的客人，果然钱很难赚 XDD，这次也顺利结账，获得第二张订单，过程我就略过了 (有兴趣自己看对话记录)。

1.4 整理订单记录

接下来，身为一位常客 (也才买两次)，来询问一下买过了什么也是很合理的… 问了订购记录，GPTs 也帮我办到了，同时也很尽责地帮我把订单内容汇总了一下才回给我。我贴一下 GPTs 的回应:

我也补一下 API 回应的 raw data (json) 结果，让大家可以对比一下.. (测试完成我就清掉了，这 API ( /api/member/orders ) 结果是我事后另外补的，内容不大一样各位就别计较了 XDD)


{
  "totalOrders": 2,
  "totalAmount": 2172.0,
  "orders": [
    {
      "id": 1,
      "buyer": {
        "id": 1,
        "name": "andrew"
      },
      "lineItems": [
        {
          "title": "商品: 18天台湾生啤酒 355ml, 单价: 65 x 12 件 = ¤780.00",
          "price": 780
        },
        {
          "title": "商品: 可口可乐® 350ml, 单价: 18 x 11 件 = ¤198.00",
          "price": 198
        },
        {
          "title": "商品: 御茶园 特撰冰酿绿茶 550ml, 单价: 25 x 11 件 = ¤275.00",
          "price": 275
        },
        {
          "title": "优惠: 18天台湾生啤酒 355ml 第二件六折, 折扣 ¤26.00",
          "price": -26.0
        },
        {
          "title": "优惠: 18天台湾生啤酒 355ml 第二件六折, 折扣 ¤26.00",
          "price": -26.0
        },
        {
          "title": "优惠: 18天台湾生啤酒 355ml 第二件六折, 折扣 ¤26.00",
          "price": -26.0
        },
        {
          "title": "优惠: 18天台湾生啤酒 355ml 第二件六折, 折扣 ¤26.00",
          "price": -26.0
        },
        {
          "title": "优惠: 18天台湾生啤酒 355ml 第二件六折, 折扣 ¤26.00",
          "price": -26.0
        },
        {
          "title": "优惠: 18天台湾生啤酒 355ml 第二件六折, 折扣 ¤26.00",
          "price": -26.0
        }
      ],
      "totalPrice": 1097.0
    },
    {
      "id": 2,
      "buyer": {
        "id": 1,
        "name": "andrew"
      },
      "lineItems": [
        {
          "title": "商品: 可口可乐® 350ml, 单价: 18 x 25 件 = ¤450.00",
          "price": 450
        },
        {
          "title": "商品: 御茶园 特撰冰酿绿茶 550ml, 单价: 25 x 25 件 = ¤625.00",
          "price": 625
        }
      ],
      "totalPrice": 1075
    }
  ]
}

我的 API 很啰嗦的把每个折扣都列出来了，但是 GPTs 回给我的讯息，把它汇总 summary 结果给我了，这种程度的讯息处理，没有 AI 的辅助，自己开发 Chat Bot 会开发到哭出来吧…

接着，继续为难店长 (咦?)，我很清楚我的 API 只有传回订单内容，我就要求 GPTs 帮我家总一下到底每种商品我买过几件…

结果，如我预期做得很不错，不但没有重新打一次 API 重新取得结果之外，也正确地理解我的要求，帮我算好统计结果了。最后我要求把条列的内容换成表格，也一样做到了 (看起来是用 markdown)

1.5 PoC小结

Demo 内容就到此先告一段落，背后很多技术细节，跟我处理过程踩到的地雷，就先跳过。

为了方便大家快速判定一下 GPTs 到底 “脑补” 了多少东西，我附上我的 API source code:

程式码我就直接附上 GitHub Repo 了。我的目的只是 PoC, 所以里面有很多 Anti Patterns, 请直接忽略…

我相信不少朋友只是想知道 API 做了哪些事，我特地把 swagger 打开才部署上 Azure App Service, 需要可以直接看swagger, 我也截了图:

02 软件开发的变化

我从开始学写程式时写的第一行程式码<span style="text-decoration: none;">printf("Hello World, Andrew!"); 开始，所有交给电脑处理的事情都是非常明确的，一个指令一个动作。直到现在，电脑都不大能处理逻辑不明确的操作，这 20 年来最大的差别就是操作变简单了，但是要明确的指令这件事一直都没变.. 这也难怪, 电脑从一开始被发明出来, 英文是 “computer” (计算机), 而不是像中文这样翻译成电 “脑”, 或是 “智慧” 等等这类用语，计算机就是计算，再复杂的计算还是计算，不是智慧，也不是真人。

不过 AI 在 2023 的发展，打破了这个门槛。对我这种 AI 门外汉来说，我看到的就是语言模型突然之间成熟到能理解对话内容背后的 “意图” 了，突然之间你问他什么内容，他都能若有其事地回答你有参考价值的答案 (正确性是另一回事，但是至少是人话了)。光是这点，就足以打破过去 20+ 年我对软件开发的基础认知。

2.1 使用者体验

软件发展过程中，很长时间都是在在改善 “UX” (User Experience)，都在标榜直觉，易懂，好操作。从视窗介面 (用画面 + 滑鼠替代键盘)，用所见即所得代替指令 + 输出结果的过程；进化到行动装置后，体感操作也进来了，用触控，装置翻转，镜头，麦克风等等操作，再次用手指 + 体感，替代滑鼠..

不过这些都是让 “操作” 变简单，基本上你还是在下指令。你心里仍要清楚这 “指令” 跟预期 “结果”，只是这指令越来越简单而已。我在教家里长辈用手机电脑，最大的障碍不是这些操作，而是不知道要完成他的 “意图” 该做什么 “操作”..

举例来说，长辈想要把一份文件传给对方…

“我该开 email 还是 line? 我该选档案还是复制链接? 我该打对方的电话号码还是 …? 对方是 facetime 我怎么 line 给他…”

这些问题没让长辈搞懂的话，操作再简单都没用，长辈们用手机电脑就是存在着障碍… 更不用说档案系统的目录阶层跟档案，还有 APP 之间的关系了 (我家的长辈永远搞不懂一个 word 档案开了三个 word 视窗是怎么一回事)

这就是我所谓 “使用者意图” 跟 “使用者操作” 之间的隔阂。目前所有的 UX，都是在 UI 设计基础上，去 “猜测” 使用者的意图是什么，而让整个操作过程变简单，流程缩短的持续优化过程。然而，这 “猜测” 的准确度落差很大，业界能把 UX 真正做得很好无懈可击的案例，说真的其实不多。这到目前为止还是门非常专业，非常倚重经验的一个设计领域。

2.2 由大语言模型整合所有资源

而 LLM (大型语言模型, Large Language Model) 的成熟，我认为这个隔阂开始被打破了。所有在去年初次体验 Chat GPT 的人大概都有一样的感受吧! Chat GPT 的 UI 不怎么样，就是聊天而已，很普通，但是他对你输入的文字能很正确的猜到你的意图，给你合理的回应，光是这点就完全把其他的 UX 做的努力甩到一边去了。对我而言，这是所谓的 “降维打击”，LLM 用截然不同的方式，来解决 “了解意图” 这件事，这解决方式的差异，注定了传统的 UX 优化，再怎么样是跟不上 LLM 的。

因此，我在这次 PoC 我亲身体会到 LLM + API 的整合威力了。这次 PoC 我认为影响我想法最大的，就是我的 API 怎么被呼叫的这个过程。过去，API 一直都不是给 “人” 看的东西，都是工程师们之间沟通用的火星文，凡人是看不懂这种外星语言的.. 然而如果你把 LLM 当 “人” 来看，他却又有办法在 “自然语言” 跟 “程式语言” 之间对应..。

这部分 open ai 的文件: Function calling 这篇就说明的很清楚, 各位可以不用看他的完整规格, 但是流程说明倒是可以看一下，我节选的部分:

Function calling allows you to more reliably get structured data back from the model. For example, you can: Create assistants that answer questions by calling external APIs (e.g. like ChatGPT Plugins) e.g. define functions like send_email(to: string, body: string), or get_current_weather(location: string, unit: ‘celsius’ or ‘fahrenheit’) Convert natural language into API calls e.g. convert “Who are my top customers?” to get_customers(min_revenue: int, created_before: string, limit: int) and call your internal API Extract structured data from text e.g. define a function called extract_data(name: string, birthday: string), or sql_query(query: string) …and much more!

过去，UI 是由前端工程师做出来的，在 UI 之后，完全就是工程师的世界了。UI 接受使用者的操作，UI 设计人员就必须负担把它转译成 “正确” API 的任务，而这 API 一路往下层传递，变成呼叫其他服务，或是存取资料库等等细节。

而透过 LLM，路线不同，但是目的一样，同样是把使用者的输入转译成 “正确” 的 API 呼叫。只是这里的输入，可能是自然语言，甚至是整个操作的前后情境 + 自然语言的综合判断。LLM 能够理解来自多方的内容 (只要都能对应成自然语言，也就是 Prompt)，就能做出正确的回答。例如你丢给 Chat GPT 一篇文章，你在接着问他一些问题，Chat GPT 能 “理解” 这些文章内容，并且重新整理萃取出你要的内容，甚至按照你要求，加工整理之后给你结果。要转译成 API 呼叫也是一样，从自然语言归纳成呼叫 API 的步骤，逐步把每个参数从语言中萃取出来，变成正确格式 (json)，剩下就交给其他模组接手 (转发 API) 就完成目的了。

这个安德鲁小舖 GPTs 就是在做这件事，而且做得还不错，我才开始感到震撼，未来的软件开发，免不了一定要有个环节，必须善用 LLM 的解读使用者意图的能力才行。而 LLM 会扮演的是整个软件系统的中控中心 (因为他能断定该呼叫什么模组，而不是单纯照预先写好的逻辑)

我所谓的 “整个软件开发的变革” 就是指这个，未来越需要贴近使用者意图的应用，越会依赖 LLM 当作中控中心。所有操作都先转化成自然语言丢给 LLM，由 LLM 帮你 “思考” 该调用哪些功能来满足使用者。这 “思考” 的过程就是从前后文找出对应的 API，然后从前后文萃取出参数来呼叫。而应用程式的开发框架，也开始会配合这样的架构抽象化，方便软件开发人员快速堆叠建构应用。

所以，在未来 API 不会消失，但是 API 不再是给其他开发者看的火星文，API 的设计也必须开始合理化 & 标准化，因为未来会呼叫你 API 的不再是 developer，而是 LLM。无法被 AI 快速使用的 API 将会是落伍的武器，无法在下个世代发挥战力。

2.3 所有的应用都会围绕着LLM来开发

什么叫做 “无法被 AI 快速使用的 API” ?

前面 2-2 聊的问题，关键只有一句话，就是: LLM 负责自然语言与函数呼叫之间的转换 ( LLM 要将自然语言转为 API call 的顺序与解析出对应参数，而要将 API 回应结果汇总给使用者 )

翻成白话，就是 AI 理解你 API 的使用方式，靠的就是 “文件”。你可以透过文件告诉 AI 该怎么使用 API，但是你无法约束它，因此你的 API 设计是否有一致性，是否合理，是否够严谨就很关键。你必须有很明确的流程，AI 才能输出正确的呼叫顺序的脚本来执行，如果流程错误，你的 API 必须能辨别，如果你发现你的 API 有很多 “特例”，你就得花更多时间来写文件，并且测试 AI 能否理解。

在这次的 PoC, 我就犯过类似的问题。不合理的设计，靠文件是补不完的，你能做的只有几个:

封装: 不合理的设计就藏起来吧，别让 AI 看到..
文件: 如果问题不大，文件标注 “不能这样用喔…“，也许有机会
改写: 重新封装一个 “设计” 合理的 API，开放这版本的 API 给 API ..

到最后，别再指望你 API 的缺陷，可以提醒其他 developer 闪开或是配合你了 XDDD, LLM 不吃这一套的，除非你有足够的本钱来训练你自己的语言模型 (通常是改 API 的ROI最高)

2.4 各种角色的职责变化

因为这些核心流程的改变，我相信未来的软件开发，会从很基础的结构就开始翻过一轮。我先简单摘要几个我想通的变革，后面再从这些变革出发，来看看 Microsoft 的 AI 技术布局，也来看看架构师等资深人员，还有软件开发者的角色该如何调整自己来追上这波变革。

1. LLM 会变成作业系统的一环:

我预期 LLM会变成作业系统的核心元件之一。不论是整合云端的 AI service，或是软硬件已经有能力在设备端 (edge) 就能执行 LLM 运算。作业系统会统一管理这些资源与沟通介面。所谓的 AI OS / AI PC 大概就是这么一回事

2. LLM 会融入主流的软件开发框架:

软件开发框架会改变，势必会让 LLM 有个正确的位置，并且有足够的 Plugins 机制让应用程式能去扩充 LLM 的 “技能”，让 LLM 充分的使用它

3. Copilot 会变成作业系统的主要介面:

操作介面也会改变。UI 不会消失，但是如同我的 PoC，开始会有一部分 UI 无法处理的需求，会用自然语言 (文字，语音，视觉等等) 等方式来沟通，并且让 LLM 来引导。这就是 Microsoft 不断推广的 Copilot 基础。这也会下沉到作业系统，或是主要的工具入口 (如 Office, GitHub, Visual Studio 这类特定领域的必要软件)

未来，不论你是软件开发的哪一种角色，架构师也好，开发者也好，你都该了解这些改变，并且能在这改变中做出贡献 (有能力能加速这改变的过程)，你就不用担心你会被 AI 淘汰...