“看着没问题”的 bug:如何揪出 AI 应用里悄无声息的故障
你的 AI 应用构建器做了一个联系表单。你输入了名字、点了提交、看到了友好的成功提示,然后就过去了。一周后你跟朋友提到这个页面,他问有没有人填过。你去看了看。三条提交躺在某种待处理状态里。没有一条进过你的收件箱。
这是 AI 应用最常见的故障形态,而它偏偏不是大多数人担心的那种。会冒出红色报错的 bug 很好找——你的 AI 构建器两分钟就能修好。危险的 bug 是那种屏幕看着没问题、用户以为自己搞定了、而你一个月都发现不了的。
这篇文章是一份揪出那些 bug 的清单。不是”如何像 QA 工程师那样测试”——只是真实用户被一个看似能用的 AI 应用坑到的那五个地方。
1. 提交点东西,然后确认它真的去到了某个地方
当你的 AI 构建器做出一个表单时,问一个问题:数据去哪了?不是抽象地问——而是字面意义上的,你提交之后能去哪里看到它?
数量多得惊人的这类表单,会把数据 post 到一个处理程序里,那个程序返回”谢谢!“,却从没发过邮件、存过数据库或通知过任何人。这个表单只是一层礼貌的门面。所以:
- 提交一条测试记录,用一个假但显眼的名字,比如 “ZZZ TEST”。
- 打开仪表盘、数据库、收件箱、表格——提交本该落到的任何地方。
- 在那里找到你的 “ZZZ TEST” 记录,时间戳要对得上。
如果你一分钟之内找不到它,那你的表单就是坏的,哪怕它刚刚还恭喜你提交成功。我见过一个付费落地页上的”联系我们”表单,三周里零条线索,因为发邮件那一步从来没接通过。而那个页面看起来完美无缺。
2. 走一条你绝不会走的路
你知道你的应用是怎么用的,因为你看着它一步步被做出来。你每次都按同样的顺序点按钮。真实用户不会。
挑那条感觉最别扭的路:
- 飞快地连点两下提交。
- 在做某件事的中途刷新页面。
- 在一个没登录的隐身窗口里打开它。
- 输入一个带撇号的名字(O’Brien 是经典的破坏王)。
- 在一个要求填数字的字段里输数字,但填成负数或零。
如果有东西明显坏了,那是个真 bug——但至少它是个吵闹的。“看着没问题”的版本是:第二次点击造出了一条重复记录,而光看屏幕根本看不出来。去查数据库,找两条时间戳相差两秒的 “ZZZ TEST” 行。如果你找到了它们,那这个表单就需要一个防重复的机制。
3. 等上一天,再回来
很多 AI 生成的代码用的是临时内存,应用一重新部署或重启就会清空。应用把你的数据存在某种开发者会叫做”内存态”的东西里——对演示来说没问题,对任何真实场景都很糟。
这个测试残酷又简单:录入一些数据,关掉标签页,等二十四小时,再回来。如果你的数据没了或乱了,那这个存储就不是真的。你的 AI 构建器多半得用大白话被告知:“这些数据需要在服务器重启后还在。“大多数构建器在被提示后会切换到数据库;有些则要你开口才肯。
你可以跑一个更快的版本:在聊天里问你的构建器,“这个表单的数据存在哪里,它能在重新部署后还在吗?“如果答案里提到”内存""会话”或”仅本次运行”,那你在任何用户之前就先找到了这个 bug。
4. 找一个不是你本人的人来用一用
你知道你的应用是什么意思。是你设计的。是你给按钮起的名。那些标签对你来说显而易见,因为是你写的。
找个朋友,什么都别解释就给他看。说一句”试着做 X”。看着他。别帮忙。三件事会发生:
- 他会点到一个你没料到的地方,应用做出了某种出乎意料的反应。
- 他会卡在一个你写的时候觉得显而易见的标签上。
- 他会做成你想让他做的那件事,但只用了你设想的一半步数,整个跳过了某个界面——有时正是应用指望他去填写的那个界面。
这每一条都是个真 bug。它们没有一个会抛出报错。那位朋友会说”哦,挺可爱的”,然后把笔记本递还给你。而你从他脸上的表情就会知道,在一个你以为天衣无缝的地方,他迷失了三十秒。
5. 在手机上读一读它发出的邮件
如果你的应用会发邮件——确认信、密码重置、发票——在你的手机上打开一封,再用一个跟你平时不一样的邮件客户端打开一封。AI 做的应用往往会生成那种在桌面版 Gmail 里美得不行、在安卓版 Outlook 里却糊成一团雪花点的邮件。
同样的逻辑也适用于 PDF 收据、可下载的导出文件,以及”分享此链接”按钮。那个走出你的应用、进入真实世界的东西,是一次 AI 构建里测试得最不充分的部分。它也是你的用户看得最多的部分。我认识的一位创始人上线了一个漂亮的结账流程,可它的收据 PDF 在 iPhone 上是一整块黑方块。没人来投诉——他们只是不再买了。
关于”它能用”的难堪真相
当你用一个 AI 应用构建器来做东西时,“它能用”的意思是”它在我的电脑上、我的浏览器里、用我精确的点击顺序、在我做出它的那天跑通了”。这是一个比听上去小得多的论断。
真正的应用,在以下情况下才算能用:
- 换一个人来用它。
- 数据留存的时间比演示更长。
- 走过应用的路径,是一条你没预料到的。
- 输出被一台你没测过的设备读取。
你不需要变成一个软件测试员才能交出一个好东西。你只需要在告诉任何人这个应用存在的前一天,把这五个检查做一遍。它们大约花你二十分钟。在那些本会触达付费用户的悄无声息的 bug 里,它们能揪出十有八九。
如果你只有时间做一个,那就做第一个。提交点东西。在另一头把它找出来。大多数 AI 应用看着都没问题。诀窍在于确保它们真的没问题。
如果这篇文章说到了你心坎里,那接下来值得做的,就是拿一张纸坐下来,写下你的应用绝不能悄无声息出错的三件事——是那个表单、那封邮件、那笔支付,还是你那个特定的东西——然后用上面的检查把每一件都走一遍。现在花二十分钟,给你换来日后许多个安稳的夜晚。