媒体分析与自然语言图像生成插件 Gemini-Flash2.0-Exp

官方文档

https://github.com/ShmuelRonen/ComfyUI-Gemini_Flash_2.0_Exp

功能介绍

集成了 Google 的 Gemini Flash 2.0 Experimental 模型，可进行：

多模式输入支持：
- 文本分析
- 图像分析
- 视频分析
- 音频分析
图像生成

安装

使用插件管理器安装 ComfyUI-Gemini_Flash_2.0_Exp
从 Google AI Studio 获取免费 API 密钥：
- 访问 Google AI Studio
- 使用您的 Google 帐户登录
- 点击“获取 API 密钥”或进入设置
- 创建新的 API 密钥

开始使用

核心节点就如下一个

必需输入：

prompt：用于分析或生成的主文本提示
input_type：从 [“text”、“image”、“video”、“audio”] 中选择
model_version：选择模型，目前提供了三种模型
- gemini-2.0-flash-exp：常规多模态模型
- gemini-2.0-flash-thinking-exp-1219：多模态思考模型
- gemini-2.0-flash-exp-image-generation：图片生成模型
operation_mode：从 [“analysis”、“generate_images”] 中选择
chat_mode：布尔值，用于启用/禁用聊天功能
clear_history：布尔值，用于重置聊天历史记录

可选输入：

text_input：上下文的附加文本输入
api_key：在 Google AI Studio 中申请的 API 密钥
images：单图或者多图像输入（多图使用 Batch Images 节点将单独拼合）
video：视频帧序列输入
audio：音频输入
max_output_tokens：设置最大输出长度（1-8192）
temperature：控制响应随机性（0.0-1.0）
structured_output：启用结构化响应格式
max_images：要处理的最大图像数量（1-16）
batch_count：要生成的图像数量（用于图像生成模式）
seed：用于可重现图像生成的随机种子

文本分析

可用于文本摘要总结。

图片分析

可用于图片信息反推。

音频分析

可用于音频转文字；分析音频情感等。

视频分析

分析结果：很准

shell

以下是对视频帧的分析：
**视频内容：**
这段视频似乎是一位穿着中国传统服装（可能是汉服）的年轻女子的特写。她有着精致的外表，精心化妆，包括脸红和口红。她的头发是传统的发髻，装饰着金色发夹和其他装饰元素。背景是坚实的暖黄色。这段视频似乎聚焦于她的面部表情和微妙的动作。

**唇读猜测：**
根据画面上的嘴唇动作，以下是对她可能说的话的一些猜测：
***“你好。”**在某些画面中，她嘴唇的轻微开合可能表示一个简单的问候。
***“谢谢”。**机芯也可能发出“th”或“k”的声音。
***“很漂亮。”**考虑到她的着装背景，她可能是在评论与她的服装或外表有关的事情。
***“我准备好了。”**嘴唇的动作可能会发出“m”的声音。
没有音频或更多上下文，很难确定。然而，这些是基于帧中的视觉线索的一些合理猜测。

图像生成

文生图：生成的图片尺寸无法控制，图片生成效果不错。

图生图：（参考生图/局部重绘（去除背景等）/扩图）

文章的最后，如果您觉得本文对您有用，请打赏一杯咖啡！感谢！

媒体分析与自然语言图像生成插件 Gemini-Flash2.0-Exp ​

功能介绍 ​

安装 ​

开始使用 ​

文本分析 ​

图片分析 ​

音频分析 ​

视频分析 ​

图像生成 ​