2025 都用了哪些小而美的AI工具?
阅读收获
工具选型参考:掌握Windows11语音输入、WisprFlow、闪电说三款工具的核心差异,可根据自身场景快速选择最适合的语音输入方案架构理解提升:深入理解本地ASR+云端AI混合架构的技术优势,为后续评估类似产品提供分析框架配置实操技能:获得闪电说AI纠正功能的完整配置指南,包含模型选择和API对接的实践经验,可直接复用场景落地指南:了解语音输入在演讲稿撰写、草稿模拟、即时通讯等场景的实战应用方法👉 划线高亮 观点批注
都说2025年是AI Agent 元年,大家已经习惯日常在豆包、千问等对话应用中做问答搜索,在这一类对话应用中,几乎不需要做什么配置,是真正的开箱即用,随着应用场景的聚焦和专业化,未来会有越来越多应用载体出现,与之对应的交互方式将会出现新形式,但不变的是后端必然需要与大模型交互。
在本系列中,博主将回顾2025年使用强度比较高的几个小工具,这些工具有的生命周期比较长,有的可能在未来会被竞争对手取缔,在快速更替的AI 应用中,大概率都是浮光掠影,但或许能阶段性的提高你我的工作效率。
第一个是与输入法相关的一组应用,核心主题都与 语音输入相关。
作为云计算从业者,本人工作中需要大量的技术内容输入与输出,如何以更高的效率来沟通,并澄清表达是工作的基本要求。
自从将手机端的输入法,从微信输入法切换成豆包输入法后,后者准确的语音输入能力,大大提高了移动端的IO效率,为此也是在想,PC端有没有类似的方案呢?
现阶段 PC端的闪电说,或可一用。
在此之前,使用过几款PC端的语音输入工具,梳理表格如下:
Windows11 自带的语音输入,通过快捷键 win+H 可以调用语音输入,其优势是OS原生支持,但需要联网支持,语音识别的准确度也还算能用,存在的问题是:只能按语序识别,如果表达过程存在歧义或修正,识别的结果就没有办法作为最终内容输出,对表达过程的准确性要求比较高,而往往口语表达都是说的比想的快WisprFlow (WF)这块AI 语音输入工具,上个月集中使用了一段时间,交互模式上比较类似,原理上和 上述类似,需要联网识别语音,差异在于:WisprFlow 会将转化后的文字,通过AI优化后输出,且在本地维护转化后的文字,长期使用将沉淀用户的表达习惯,来优化每次交互的输出。不完美的地方是:因为需要联网,往往识别的速率比较慢,且应用的LLM在海外,远距离有较明显时延,准确度也不尽人意。过去一周,在高强度使用闪电说的过程中,也体会到这款工具,可能也并不完美,但与 WF 相比,让本人更倾向的是:闪电说做了一些差异点优化,比如ASR模型在本地运行,因此识别的时延不受互联网影响,可以做到离线使用,在联网配置AI,语意整合后,整体的输入效率和准确度有明显提升,且成本较WF能更可控对比维度
Windows11 语音输入
WisprFlow (WF)
闪电说
集成方式
OS原生支持
第三方应用
第三方应用
联网需求
必须联网
必须联网
ASR离线+AI联网
识别准确度
还算能用
不尽人意
明显提升
识别速度
正常
较慢(海外LLM时延明显)
快速(本地ASR无网络影响)
特色功能
无
AI优化输出+用户习惯沉淀
本地ASR+AI语义整合
使用成本
免费
较高
较WF更可控
主要优势
系统级集成,开箱即用
AI智能优化
离线可用,效率与成本兼顾
主要不足
无法处理表达修正和歧义
速率慢,准确度不稳定
仍非完美解决方案
总结对比要点:
技术架构差异:Windows11和WF都依赖云端识别,而闪电说采用本地ASR+云端AI的混合架构使用场景适配:原生方案适合临时轻度使用;WF适合需要AI优化的场景但对延迟敏感;闪电说在效率和成本间取得平衡用户体验优先级:如需稳定性选原生方案;如需智能优化且能忍受延迟选WF;如追求效率和控制成本选闪电说介绍了这么多,如何使用呢?
开箱使用官网下载工具 闪电说,AI语音输入法[1]或者可以通过这个链接,在PC端直接下载 https://download.shandianshuo.cn/windows/shandianshuo_0.5.6_x64-setup.exe
应用本身的UI交互比较简单,下载后需要下载本地ASR模型运行环境 仅1个G大小,这意味着 应用运行将常驻内存,占用近1个G大小,这对老/内存有限的电脑,不太友好。
应用UI与配置说明这里主要介绍 2 个配置项 。
智能鼠标模式开启智能鼠标模式后,按鼠标中键即可持续录音,按击鼠标中键结束录音,这种方式适合长时间的文本输入,是个比较使用的功能,目前WF似乎还没有。
值得提醒的时,本地ASR模型,每次的录音文件保留在本地电脑,如果长时间使用的话,需要定时清理一下,这是本地低时延ASR的代价。
AI 纠正功能使用原生基础功能一段时间,发现输入的准确度不是很高,且按原语序识别,往往存在改口的描述,不甚满意。这才配置 AI纠正功能,使用后 顿感振奋,因此萌生写这篇介绍的短文的兴趣。
下面介绍 如何配置AI token 接口
这里推荐使用硅基流动的 API,或者其他实惠的Token平台,关于硅基流动的领取方法,文末有介绍。
主要配置参数,未提及的保存默认即可 :
提供商:OpenAI 兼容 API Base URL:https://api.siliconflow.cn/v1模型:推荐 MiniMaxAI/MiniMax-M2API Key:在硅基流动平台-左侧 API密钥处,生成获取关于模型推荐这里做个说明,从成本角度来考虑来想,本人最开始准备选择DS-V3.2的,因为它的成本相对比较低,但是配置后测试报错,推测主要原因是:V3.2,可能会输出思考过程,导致语音转化的结果调用出错,选择Minimax-M2后能够正常输出。
另外一方面:平台上Minimax M2的tokens输出 TTFT是比较快的,处理长文本输出的吞吐量 TPS 能达到130tokens/s。
完成上述两个配置后,就能在PC端更快捷的输出内容了,结合过往的经历,以下场景能很好的利用软件功能:
第一个场景是准备演讲材料,为了提高临场发挥的准确性,通常会写口播稿。之前是要手动来写,现在可以对着PPT来分享,通过转录、整理出完整且符合表达逻辑的口播稿。写作的草稿模拟,通过口述将文章的大概内容表达出来,然后通过AI转录出完成度80%的草稿,最终只要稍加修改就能作为书面材料。通讯工具中需要文字表达的任何场景,口说肯定比打字的效率要快。通过AI加成可以提高准确度。到此,简单介绍了语音输入法-闪电输的使用说明。
Note
闪电说作为PC端语音输入的先行者,可以预测这块的市场,后面互联网大厂肯定会参与进来,通过免费模式,抢占用户语意输出作为第一手信息源。国内市场到底会不会为输入法付费,可能长期来看,并不需要。
在快速发展的AI应用时代,最终能不能商业化的活下来是结果导向,闪电说的快速实现足以说明其开发者的用户意识已然领先。
附录,介绍下如何领取免费 MiniMax-M2 高质量Tokens。尽管推测:公众号读者绝大部分都是AI的使用者,但如果仍有一些“漏网之鱼”,还没有真实使用 Token API 的朋友,可以借鉴本文的开箱介绍,通过赛博菩萨-硅基流动推介官活动,领取免费 Token 体验,当然不瞒您说,出现在这里的推介,新用户注册后,平台也会给我 Token 奖励,相当于给我加了个鸡腿。
长按图片,识别图中的二维码,注册使用 通过链接 https://cloud.siliconflow.cn/i/6Pz8PBDy 注册登录
邀请码,领取Token
生成API密钥生成API密钥
---【本文完】---
👇阅读原文,搜索🔍更多历史文章。
丰子恺-护生画集-生机
https://shandianshuo.cn/ ↩