融合AI与相机的视觉技术再次带来了全新变革。能够捕捉我们日常无意识中所见世界片段并将其语言化的语音讲述相机应用〈Seeing AI〉现已推出Android版本。
该应用自2019年起已面向「iOS」「iPadOS」平台提供服务,此次发布后也可在「Google Play」商店获取。目前支持18种语言,计划于2024年扩展至36种语言。
迈向视障群体支持的未来
〈Seeing AI〉通过智能手机相机识别周围环境,并以语音形式提供信息。因此,视障人士可以听取邮件内容、识别商品、通过语音了解照片说明等。
该应用利用〈Microsoft〉的Cognitive Services,能够实时显示识别结果,让视障用户通过智能手机实时接入世界。
© Microsoft
基于AI技术的认知能力,〈Seeing AI〉可将视觉信息转化为语音,具备识别文字、文档、条形码、人物、风景、货币、颜色、光线等功能,尤其是“短文本”、“人物”、“颜色”、“光线”等信息识别功能可离线使用。此外,该应用还集成了〈OpenAI〉的〈ChatGPT〉新功能,可通过〈ChatGPT〉解析文档的文字识别结果。
作为认知装置的摄影
这突破了传统摄影作为记录装置的固有框架。〈Seeing AI〉关注摄影本质的转变,聚焦于通过摄影实现信息认知的机制。作为将视觉信息转化为听觉信息的认知装置,有望解决视障群体在信息无障碍获取方面的难题。
无障碍辅助的长期探索
〈Microsoft〉三十余年来持续提供无障碍相关服务,此次〈Seeing AI〉亦是该体系下的创新成果。〈Seeing AI〉应用界面简洁,即使视力受限用户熟悉后也能无误操作,众多功能集于一体。
此类无障碍应用为视障人士日常生活的多样活动提供支持,其便利性带来了全新的社会参与机会。借助AI技术的无障碍辅助,随着时代发展愈发重要,〈Microsoft〉的探索为行业注入新动力。面向视障群体支持的未来,〈Seeing AI〉正开创无障碍辅助的新纪元。





