“复旦·眸思”助力视障者“看见”世界

发布时间: 2024-03-04 17:30:55 来源：复旦大学

观看：280

日前，基于多模态大模型“复旦·眸思”（MouSi），复旦大学自然语言处理实验室（FudanNLP）为视障者量身打造的“听见世界”APP上线，将成为视障人士的生活助手与智能管家。

“眸思”与复旦自然语言处理实验室开发的MOSS同音，但和基于文本的MOSS不同，它能够理解并识别图片内容，致力于成为视障者的一双“眸”。

团队从基于GPT3.5的文本模型转向围绕GPT4-v复现多模态大模型，对模型中的核心关键点开展研究，致力于提升单项任务的准确率和大模型的强化学习。在基于几亿张图片训练出的“眸思”大模型基础上，针对视障者提出的各类需求，团队使用上万张图片进行特殊样本训练，使“眸思”具备能够适配更多场景的能力。

据了解，基于“眸思”的“听见世界”APP针对视障者日常生活需求，设计了3种模式：街道行走模式，“眸思”可以细致扫描道路情况并提示潜在风险，陪伴视障者安全通行；自由问答模式，不论是博物馆、艺术馆，还是公园，“眸思”能够捕捉四周景象的每个细节，用声音构建丰富的生活场景。

预计今年3月，“听见世界”APP将完成第一轮测试，在我国一、二线城市和地区同步开启试点，根据算力部署情况进行推广。更多模式也正在开发中，比如阅读模式，服务盲人朋友点菜、读书等场景，解说模式，承担无障碍电影解说员的工作。

图片均来源于计算机科学技术学院

今年上半年，团队将结合AR升级APP内的定位精度细化至亚米级别；下半年，团队希望将“眸思”升级到基于视频的判断。复旦大学自然语言实验室教授张奇表示：“人工智能发展日新月异，科技应该要改变更多人的生活，希望‘眸思’能够帮助视障人士走出家门，让他们可以尝试更多工作，为人生书写更多可能。”

细菌锰离子外排对于锰离子和铁离子稳态均具有重要意义。TerC家族蛋白是存在于所有细菌中的一种保守蛋白质。然而，长期以随着出版商努力清理大量伪造论文、打击同行评议欺诈行为，2023年，被撤回的研究论文数量已超过1万篇，打破了年度纪录。 ·“由于猫只在很短的时间内排出生物体，因此人类通过与它们一起生活的猫接触而感染弓形虫的机会相对较小。也就是 12月17日，上海交通大学中银科技金融学院第一届科技成果转化大赛进行决赛。中国银行上海市分行行长、党委书记张守川，上海 ? 夏培肃（1923.7.28—2014.8.27），四川江津人（今重庆江津），著名计算机专家和教育家，我国计算机研究的先驱和计算机事业 2023年12月28日，陕西省审计厅在官网发布《2023年第9号审计结果公告》，其中西安工业大学2020年度预算执行及其他财务收支。

本文链接：“复旦·眸思”助力视障者“看见”世界http://www.sushuapos.com/show-11-3447-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：上海天文台牵头公布哈勃望远镜最深窄带巡天数据

下一篇：微塑料多样性影响微生物网络复杂度和稳定性

“复旦·眸思”助力视障者“看见”世界

热门资讯

推荐资讯

科学最热文章