花了3天,又做了一个英语绘本课本点读小程序
花了3天时间,又做了一个可以让小朋友自己对着英文绘本或者课本拍照点读的小程序(第一个点这里)。
这个产品的起源,来自于自家小朋友英语老师布置的一项日常作业:课本点读。
坦白说,对于没有额外参加课外辅导的孩子,想让他们仅凭学校课堂的一点记忆,就回家独立完成课本点读练习,几乎是一项“不可能完成的任务”。
如何才能完成这个作业?我能想到的无外乎下面几种方法。
方法1:家长亲自上阵
这是最直接的办法。但现实是:有多少家长既有标准的英语发音,又有稳定的情绪和充裕的时间?更何况,现在很多家庭是老人在带娃,这种方案的普适性要打一个大大的问号。
方法2:官方点读 App
我们用的是人教版教材,官方有一个配套的点读App,人教点读。
此外,还有很多通过向人教App授权使用的小程序。这些应用确实做到了内容同步,发音也标准,但实际体验下来,也有部分问题:
颗粒度太粗
课本中常有连在一起的段落,软件往往将其作为一个整体朗读。对于初学者来说,一长串句子听下来,根本无从跟读。其中,只有人教官方的App可以将长句拆分成单句,但无法细化到单词。一旦单句太长或者生僻词太多,孩子听完还是只能糊弄过去。
无效干扰多
App中很多录音自带很长的前奏音乐,听一句词要先等半天 BGM,既浪费时间又影响学习。
付费成本高
单从课本点读这一个功能来说,人教版功能最全,收费也最低,一本教材38块钱一年。
其他授权的小程序增加了点读之外的很多功能,年费动辄160元以上,相当于可以买4本人教版教材。
此外还有一些盗版小程序,虽然点读功能免费使用,但会故意让你反复在多个不同的小程序之间来回跳转看广告,既浪费时间,也容易因为点错跳转到学习之外的其他小程序中。
看似免费的东西,往往都是最贵的。
方法3:拍照点读类 App
从技术的角度出发,要完成一个课本点读功能,第一反应就是对着课本拍张照,哪里不会点哪里。
于是我问豆包了解了几个现成的App进行试用,它们都满足了基础的拍照点读功能,其中一个App整体交互做的最好,也支持单词拆分。但同样动辄过百的订阅费,对于我们这种只需要“点读”功能的使用者来说,性价比实在太低。
于是我很快便决定,开启今年的第二个开发项目。
与第一个极简阅读App类似,这个产品的开发过程依然完全由 AI 主导。
核心逻辑很明确:拍照/选图 -> OCR 识别文字及坐标 -> 点击文字 -> 调用 TTS 接口朗读。
实验与迭代
为了快速验证可行性,我没有先写小程序,而是花了 2 小时搓出了一个 Web 版 Demo。逻辑跑通后,才正式开始小程序版的移植。
在测试过程中,我遇到了两个很有意思的挑战:
OCR 框位移问题
很多 OCR 模型在识别多行文字时,给出的坐标框并不精准,如果按照OCR的识别结果画框,会出现框与文字不匹配的情况。
特别是多行句子挨在一起时,OCR会将多行句子识别为一个整体,如果再对每句话进行切分,框的位置会偏移的更多。
解决方案: 我放弃了“画框”的执念,改用浮窗显示当前朗读句子,并配合简单的切换按钮使用。
TTS 的“语境”尴尬
测试过程中,我发现不是所有TTS接口都可以朗读单个单词,并且某些单词的发音会发生变化。
比如 "I have a coat" 里的 "a",单独调用接口时会读成字母音 [eɪ] 而不是 [ə]。
解决方案: 通过测试不同的 TTS 服务商接口,并针对这类特殊单词进行逻辑处理,算是解决了这个细节坑。
在反复调优过程中,我又顺手加入了翻译和生词本功能,第一版小程序正式收工。
一点关于开发的“避坑”体会
在经历了极简阅读和灵动工具箱小程序这两个项目的开发后,我产生了一个深刻的体会:
如果你只是想做一个方便自己使用的应用,Web 可能是目前最好的选择。
无论是 iOS 还是小程序,都绕不开备案、审批以及各种生态规则的限制,开发复杂度也比纯 Web 应用高得多。
如果你正准备利用 AI 开发自己的第一款应用,我建议优先考虑 Web 形式。
以上就是灵动工具箱的诞生全过程。
如果你也正为孩子的英语点读作业头疼,欢迎尝试这个小工具。没有冗余的功能,只有纯粹的效率。
如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^
相关好文推荐:

0条留言