我在课堂、会议场景中发现了当前功能的明显短板,特提出以下针对性优化建议,希望能让这个核心办公学习功能更贴合用户真实使用场景。
1. 普通话识别准确率严重不足:
本人现场使用标准普通话发言,但YOYO帮记的转写结果多次出现离谱错误(如将“地质工程”识别为“移民地球”、“定制公司”、“叫助理将来”等完全脱离语境的内容),甚至无法选中识别文本进行编辑修正,直接导致纪要生成功能完全失效。
经排查,问题根源并非口音,而是麦克风拾音与声纹过滤逻辑缺陷——近距离发言时,设备对人声的核心频段捕捉失真,且无法区分主讲人声与环境杂音,导致识别模型误判。
2. 方言识别功能体验割裂,无法自动适配:
目前方言识别功能需要用户手动在普通话、粤语、西南官话、东北话等选项中切换,且与YOYO帮记的实时转写模块未打通。实际场景中,发言者的口音、方言类型往往动态变化,手动切换完全不现实;更关键的是,现有选项分散,未集成统一入口,用户无法快速找到并设置,严重影响学习/会议效率。
二、优化建议
1. 强化声纹过滤与拾音优化:升级端侧语音模型,优化近距离发言场景的人声增强算法,支持主讲人声纹锁定,同时开放识别文
21 人已参与
支持
反对