发布于 2026-01-06 7 阅读
0

MediVision 助手

MediVision 助手

这是提交给Google AI Studio 多模态挑战赛的作品。

我建造的

MediVision Assistant 是一款人工智能驱动的健康助手,旨在让每个人都能轻松获得医疗帮助,尤其适合视力障碍人士或有其他无障碍需求的人群。该应用结合了计算机视觉、语音识别和人工智能聊天功能,提供全面的健康监测和帮助。

主要特点:

  • 🖼️ AI皮肤分析 - 上传照片和视频,即可立即评估皮肤状况
  • 🎨 AI 健康信息图 - 使用 Imagen 4.0 生成专业医疗信息图
  • 🎤 语音症状记录器 - 使用语音转文字功能记录和转录健康症状
  • 💊 药物扫描器 - 基于 OCR 技术的药物识别和管理
  • 💬 AI 健康聊天 - 用于解答健康问题和提供指导的对话式 AI
  • 🔗 无缝分析与聊天集成 - 根据分析结果,继续与 AI 进行对话
  • ♿ 全面支持辅助功能 - 语音导航、屏幕阅读器兼容性、高对比度模式
  • 📱渐进式 Web 应用 - 可离线使用,可安装在任何设备上

演示

在线应用:https://medivision.omkard.site(通过 Google Cloud Run 映射的自定义域名)
备份链接:https://medivision-assistant-968390101733.us-central1.run.app(直接 Cloud Run URL)

GitHub 代码库:https://github.com/omkardongre/medi-vision-assistant-ai

演示:https://youtu.be/kxGtnp9X_48?si=rvrUcb -HwdogB7pS

屏幕截图

首页仪表盘:简洁易用的仪表盘,包含健康概览和快捷操作。

皮肤分析:利用人工智能进行皮肤状况分析,提供详细见解

语音记录器:语音转文字症状记录及转录

健康聊天:用于解答健康问题的对话式人工智能

AI健康信息图:专业医疗信息图


健康记录

辅助功能:包含语音导航的综合辅助工具栏

我如何使用 Google AI Studio

我大量使用了 Google AI Studio 来增强多模态功能:

1. Gemini 2.5 皮肤分析闪光灯(图像+视频)

  • 整合了 Gemini 的视觉功能,用于分析上传的皮肤照片和视频。
  • 提供对皮肤状况、痣、皮疹和其他皮肤问题的详细评估。
  • 支持视频分析,用于动态皮肤状况监测和运动模式分析
  • 返回结构化的健康洞察,包括置信度评分和建议。
  • 支持多种视频格式(MP4、MOV、AVI、WebM),最大可达 25MB

2. Gemini 2.5 Flash for Health Chat

  • 为对话式人工智能健康助手提供支持
  • 处理自然语言健康问题并提供基于证据的回答
  • 保持对话上下文,以便提出后续问题

3. Imagen 4.0 健康信息图表

  • 集成 Google Imagen 4.0,用于生成专业医疗信息图
  • 生成用药计划表、健康进展图表和症状跟踪图表
  • 生成易于理解、对比度高且具有专业医学风格的信息图
  • 支持下载和分享人工智能生成的健康内容
  • 采用最新的 Imagen 技术进行尖端图像生成

4. 多模式融合

  • 结合文本、图像、视频、语音和人工智能生成的视觉内容,实现全面的健康监测

多模态特征

🎥 视频 + 文字分析(皮肤分析页面)

  • 视频皮肤监测:用户上传视频,用于动态皮肤状况分析和运动模式监测。
  • 症状记录:皮肤症状的视频录像,用于详细的医学评估

🖼️图像+文本分析

  • 皮肤照片分析:用户上传皮肤状况照片,Gemini 会分析这些照片以发现潜在的健康问题。
  • 药品信息识别:扫描药品标签和药瓶,提取药品信息、剂量和说明。

🎤 语音+文本处理

  • 语音症状记录器:记录症状的语音描述并将其转换为结构化文本。
  • 语音导航:使用语音命令完成应用程序导航(“回家”、“皮肤分析”、“紧急情况”)
  • 音频反馈:用于辅助功能的文本转语音回复

💬 对话式人工智能

  • 情境健康聊天:人工智能会记住之前的对话,并提供个性化的健康指导
  • 无缝分析整合:完成任何分析(皮肤、药物、语音记录器)后,用户可以点击“与AI助手讨论”,继续对话,并获得完整的分析结果上下文。

♿ 无障碍优先设计

  • 屏幕阅读器兼容:完整的 ARIA 标签和语义化 HTML
  • 语音命令:使用语音导航整个应用程序(“皮肤分析”、“药物扫描”、“帮助”)
  • 高对比度模式:增强视力障碍用户的可视性
  • 字体缩放:文本大小可调节至 300%。
  • 键盘导航:无需鼠标即可完成所有应用功能

🎨 人工智能生成的视觉内容

  • 健康信息图表:由 Imagen 4.0 生成的专业医疗图表和日程表
  • 用药时间表:可视化用药时间和剂量图表
  • 进度跟踪:健康里程碑和成就可视化
  • 症状图表:颜色编码的症状监测和跟踪图形
  • 下载与分享:导出用于医疗咨询的AI生成信息图

🔄 数据集成

  • 健康记录:所有多模态输入(视频、图像、语音、聊天记录、信息图表)均被存储和整理。
  • 导出功能:用户可以导出他们的健康数据和人工智能生成的图表,用于医疗咨询。
  • 视频存储:安全的视频分析结果

技术实施

  • 前端:Next.js 15,搭配 TypeScript 和 Tailwind CSS
  • AI集成:Google AI Studio与Gemini 2.5 Flash(视频、图像、文本、音频)和Imagen 4.0(信息图表)
  • 语音处理:用于语音转文本和文本转语音的 Web Speech API
  • 图像处理:用于图像优化和预处理的 Canvas API
  • 部署方式:Google Cloud Run,启用自动扩展
  • 数据库:Supabase,用于存储健康记录和用户数据
  • 无障碍设计:符合 WCAG 2.1 AA 标准,并通过全面测试

影响与可及性

该项目展示了人工智能如何让每个人都能更便捷地获得医疗保健服务,尤其是在以下方面:

  • 完全通过语音进行导航的视障用户
  • 老年用户可能难以使用复杂的界面
  • 依赖语音命令的行动障碍用户
  • 能用自己的语言描述症状的非母语人士

多模式方法确保健康监测不受传统输入方法的限制,使医疗援助真正具有包容性。


用心打造,专为 Google AI Studio 多模态挑战赛而生

文章来源:https://dev.to/omkar598/medivision-assistant-13go