西湖娱乐城- 西湖娱乐城官方网站- APP李未可创始人茹忆:AI眼镜和Agent的应用和发展
2025-06-25西湖娱乐城,西湖娱乐场,西湖娱乐场注册,西湖娱乐城注册,西湖娱乐城官方网站,西湖娱乐城APP,西湖娱乐城网址,西湖娱乐城链接,西湖娱乐城登录,西湖娱乐城平台,西湖娱乐城网址,西湖娱乐城最新,寻宝奇航
智能眼镜市场的空间有多大?若市场普遍认同智能眼镜的发展前景,则意味着全球每年13.7亿副传统眼镜将逐步升级为智能眼镜产品,这一市场规模具有显著潜力。当前智能手机年出货量约为12.2亿部,相比之下,智能眼镜市场容量更为可观。该产品定位于移动可穿戴场景,用户早晨外出时佩戴,晚间归家后摘除。从产品特性来看,智能眼镜与人工智能技术具有天然的契合度,因其紧邻用户的眼睛、鼻子和耳朵等感知器官,且支持全天候佩戴。
未来眼镜市场将长期存在三种主要形态:纯语音交互眼镜、带摄像头的智能眼镜以及具备显示功能的智能眼镜。Meta推出的带摄像头智能眼镜已取得显著市场表现,销量达200万台。华为和小米等厂商正积极布局音频眼镜。我们于去年推出的纯语音交互AI眼镜,作为AI技术落地的代表性产品,具有显著的成本优势,用户仅需千元以内即可体验。带摄像头的智能眼镜价格区间为1000-2000元,而具备显示功能的智能眼镜价格更高,通常在2000-3000元以上。当前轻薄型带显示的AR眼镜在功耗、内容呈现及重量等关键指标上尚未达到预期水平。市场发展呈现渐进式特征,未来十年内,纯语音眼镜、语音+摄像头眼镜以及语音+摄像头+显示眼镜将保持共存状态并持续迭代演进。
AI系统应当具备优秀助手或agent的功能特性。更重要的是,AI需要具备人格化特征和提供情绪价值的能力,这是其成为用户真正合作伙伴的重要条件。在未来十年的AI技术发展浪潮中,一个显著的趋势是从功能性需求向服务性需求的转变。当前年轻消费群体的需求满足方式已经从单纯的功能型转向情绪价值的获取,这一点可以从泡泡玛特Labubu产品的市场热度得到印证。这种趋势表明,在未来十年间,具有IP属性或能够满足情绪价值需求的产品将会获得显著的市场成功。
本人在人工智能领域已有八至九年的从业经历,自2016年正式进入该行业。将人工智能技术应用于硬件产品或实际落地场景,需要进行深度思考并与具体应用场景紧密结合。李未可成立于2021年10月,专注于AI眼镜的研发工作。在第一代产品推出后,恰逢2022年11月30日ChatGPT正式发布。这一轮生成式大语言模型在2022至2024年期间展现出快速的迭代发展态势:ChatGPT发布后,2023年出现SORA模型,2024年底至2025年DeepSeek取得重要突破。技术发展呈现出每三个月快速迭代的特征,即将推出的DeepSeek R2预计将实现显著性能提升。
这次的AI进步是一个巨大的进步。它有两个关键词:一是生成式,二是大语言模型。生成式意味着它是一个生产力工具,有效率提升。与以往科技浪潮相比,从生成式角度来看,它应该跟电、蒸汽机相提并论,因为它可以改变未来30年、50年甚至100年的产业格局,它是具备生产效率提升的。其次就是大语言模型,大语言模型的出现标志着机器首次采用人类自然语言作为交互方式的重要突破。回顾技术发展历程,互联网时代的人机交互主要依赖键盘鼠标输入,移动互联网时代则演进为触控交互模式,这一转变带来了数十亿用户便捷获取信息和高效沟通的革命性进步。当人机交互方式进一步升级为自然语言交流,并整合生成式人工智能这一效率工具,必将对各行业产生深远影响,这也是当前人工智能技术发展具有重大战略意义的核心原因。
因为眼镜作为人机交互设备具有显著优势,主要体现在其与人体交互器官的近距离接触特性以及可长时间佩戴的特点。该行业的发展历程可追溯至2014-2015年谷歌推出的Cardboard设备,该产品通过将智能手机装入头显实现VR功能,标志着VR行业近十年发展的开端。在行业技术路线方面,主要存在两个发展方向:其一是虚拟现实体验场景的技术路线,该方向从早期VR公司发展至苹果公司去年推出的VISION PRO产品,实现了游戏娱乐和影视观赏等沉浸式体验场景的极致呈现。正如扎克伯格所述,该技术路线的终极目标是取代传统电视设备,创造类似《头号玩家》电影所描绘的完全沉浸式虚拟世界。另一技术路线则是Meta公司去年推出的带摄像头功能的智能眼镜产品,即AI眼镜,该产品代表着移动可穿戴场景的技术发展方向。
若市场普遍认同智能眼镜的发展前景,则意味着全球每年13.7亿副传统眼镜将逐步升级为智能眼镜产品,这一市场规模具有显著潜力。当前智能手机年出货量约为12.2亿部,相比之下,智能眼镜市场容量更为可观。该产品定位于移动可穿戴场景,用户早晨外出时佩戴,晚间归家后摘除。从产品特性来看,智能眼镜与人工智能技术具有天然的契合度,因其紧邻用户的眼睛、鼻子和耳朵等感知器官,且支持全天候佩戴。实现这一移动可穿戴场景的关键在于产品设计必须无限接近普通眼镜的使用体验,重量需控制在极轻范围内,能够适配近视用户的视力矫正需求,或保持与普通墨镜相当的轻便性。而在虚拟体验场景方面,则需要提供更具沉浸感的技术方案。这一产品定位体现了我们对智能眼镜发展路径的基本判断和技术路线选择。
未来眼镜市场将长期存在三种主要形态:纯语音交互眼镜、带摄像头的智能眼镜以及具备显示功能的智能眼镜。Meta推出的带摄像头智能眼镜已取得显著市场表现,销量达200万台。华为和小米等厂商正积极布局音频眼镜。我们于去年推出的纯语音交互AI眼镜,作为AI技术落地的代表性产品,具有显著的成本优势,用户仅需千元以内即可体验。带摄像头的智能眼镜价格区间为1000-2000元,而具备显示功能的智能眼镜价格更高,通常在2000-3000元以上。
交互逻辑设计具有双重特性:一方面体现为工程化实施过程,另一方面则需要对模型进行深度定制。在设计过程中,我们参考了丹尼尔·卡尼曼在《思考,快与慢》中提出的理论框架,旨在构建一套完整的交互系统。该系统需要明确区分即时反馈场景与需要思考后给出准确答复的场景。我们的设计目标是使AI具备自主判断能力,能够真正为用户提供有效帮助。在技术实现层面,我们采用多模型架构,底层基于通义千问、DeepSeek优化模型,上层则负责快速响应机制。举例而言,当用户查询天气时系统应即时反馈,而询问当日新闻时则需经过检索后提供答复。整个技术架构需要进行深度优化,方能实现AI在眼镜端与人进行类人化交流的目标。这正是我们当前重点推进的研发方向。
在研发过程中,我们发现能够真正发挥助手功能、有效协助用户拆解任务的智能体,并将其命名为零级智能体(zero agent)。该智能体的核心功能在于解决未来智能眼镜生态系统的关键问题。相较于当前手机应用的使用模式(如使用听歌、通过饿了么点餐等需要逐个打开特定应用程序的操作方式),未来AI时代的交互范式将发生根本性变革。当用户提出今日天气如何、想听音乐或附近美食推荐等需求时,智能体不应要求用户先启动特定应用程序(如请先打开饿了么),而应直接理解用户意图并提供服务。例如,系统能够基于用户历史行为(如昨日食用红烧牛肉面)主动推荐相关选择(如海南鸡饭),并显示具置信息。这种服务模式将突破现有APP的离散形态,实现基于意图理解的智能化服务交付。
关于agent的功能边界问题,研究表明单一agent难以解决所有需求,但其核心能力应包含准确识别问题并确定可解决问题的对应agent。以与携程的合作为例,当用户提出旅行需求时,系统可调用携程agent完成行程规划;查询天气时直接提供答复;音乐播放需求则交由agent处理。该系统通过意图理解模块实现多agent协同工作。行业预测2025年将迎来agent技术发展的关键时期,届时将涌现包括Manus在内的多种专业agent。当前阶段,整个行业正在共同探索agent生态系统的构建模式,其中关键要素包括agent间的协同调用机制、任务分配逻辑以及责任界定标准。在眼镜终端设备上,这一功能将由第一个agent或zero agent负责协调实现。该agent系统本质上属于任务导向型交互系统,其核心功能在于协助用户完成特定任务,同时具备类人化交流能力。
关于agent来源问题,目前国内主要科技企业已开展相关研发工作:百度已建立开发者平台用于开发各类agent;豆包的扣子平台已集成超过一千万个agent,支持用户自定义工作流程和agent开发;阿里通义的百炼平台也具备类似功能。当前行业正在探索这些平台上的agent能否接入agent store实现发布和相互调用。具体而言,当明确某个agent(如占星师agent)能够执行特定任务时,即可实现功能调用。这正是现阶段技术发展的主要方向,这些agent均可实现系统接入。李未可具备深度定制各类智能代理(agent)的技术能力,涵盖翻译、记录、讲解及剪辑等多样化功能。在硬件适配方面,我们能够针对特定硬件特性进行专业化定制与优化,确保充分发挥设备性能优势。通过场景化深度定制方案,可精准满足用户在特定应用场景下的专业化需求。
关于选择的理由是因为大语言模型在翻译领域具有显著优势,其基于全人类语言训练的特性使其在翻译任务上具备降维打击能力。通过与合作伙伴的深度优化合作,例如与专注于中国出海一带一路展会的米奥兰特合作,该机构每年组织百万级中国企业参与十余场一带一路沿线国家展会。实地考察(包括近期在迪拜和越南的展会调研)表明,在中国企业拓展一带一路市场过程中,翻译服务已成为刚性需求。此类场景不仅需要解决嘈杂环境下的实时翻译问题,更需要深入理解企业实际需求。这一领域存在广阔的发展空间,翻译服务的价值已超越单纯的语言转换功能,更延伸至助力企业国际化拓展和客户获取等商业层面。 本系统提供的翻译服务采用智能化操作模式,用户仅需直接表达即可实现自动识别与翻译功能。记录功能作为基础性配置,在完成小语种理解并应用于商务会谈场景后,系统将自动保存每次翻译内容。该功能可进一步生成会议总结、纪要文件,并支持日程安排与提醒设置。当前在线会议平台(如飞书、钉钉)已具备会议纪要功能,而针对现场商务拜访场景中的实时交流过程,本系统创新性地实现了面对面交谈的全程记录功能,有效填补了该领域的服务空白。
人类的感知系统不仅限于视觉信息获取,还包括听觉等多种感知方式。通过整合环境感知技术(如地理位置信息等),可显著提升特定场景的识别准确率。以西湖断桥为例,在缺乏充分图片数据训练的情况下,仅依靠视觉感知的识别成功率约为60%;而结合环境感知技术(如确认用户位于西湖区域且天气为雨天),识别准确率可提升至100%。这种多维感知技术的融合应用,为主动交互创造了条件。当系统确认用户处于特定场景(如雨天在西湖断桥),即可触发基于场景的主动交互,例如介绍该地点的相关信息。关于多模态交互技术在文旅场景的应用实践,目前已在西湖景区特定路线开展为期一年的运营测试。该项目实现了100多种语言的实时讲解功能,成功服务了大量国际留学生群体,并在孤山景区完成了多模态交互的技术验证。基于前期运营成果,计划于本年度将该技术方案扩展至更广泛的应用领域。
李未可当前正在推进一项重要工作,旨在将已积累的技术框架与更多硬件厂商实现深度整合。我们正与深圳地区多家芯片制造商开展合作洽谈,其中包括年产量达十亿乃至数十亿颗芯片的行业领先企业,共同探讨开发快速解决方案以实现人工智能技术与硬件产品的有效融合。字节豆包和通义等模型也在同步推进此项工作。作为字节、豆包、通义以及百度的官方服务提供商(SV),我们在硬件与人工智能技术结合方面具备丰富的实践经验,这些经验积累能够有效协助硬件厂商快速开发出具有实际应用价值的场景化人工智能产品。该项目于本年度正式启动,其核心价值体现在两个方面:一是加速人工智能硬件产品的商业化落地进程;二是促进更多agent(AI agent)在硬件平台上的定制化开发。预计在未来两至三年内,市场将涌现出适用于不同应用场景、满足多样化需求的人工智能硬件产品,该领域将迎来持续性的快速发展。