媒体能力总览:图片、视频、音乐、语音和理解
OpenClaw 不只会聊天。配置好提供商后,它可以生成图片、视频、音乐,把文字转成语音,也可以理解用户发来的图片、音频和视频。
能力地图
| 能力 | 工具或页面 | 说明 |
|---|---|---|
| 图片生成 | Image Generation | 文字生成图、参考图编辑 |
| 视频生成 | Video Generation | 异步生成视频 |
| 音乐生成 | Music Generation | 生成音乐或音频 |
| 文字转语音 | TTS | 把回复变成语音 |
| 媒体理解 | 媒体理解 | 理解图片、音频、视频 |
| 语音输入 | 节点音频 | 语音识别和音频输入 |
同步和异步
| 能力 | 通常模式 |
|---|---|
| 图片生成 | 同步 |
| TTS | 同步 |
| 视频生成 | 异步任务 |
| 音乐生成 | 多数为异步任务 |
异步任务会先返回 task id,完成后再唤醒会话。
配置原则
- 先只开一种能力。
- 先用低成本模型测试。
- 群聊里谨慎开启自动媒体输出。
- 生成视频和音乐要注意费用。
- 入站媒体理解要注意隐私。
新手路线
推荐顺序:
- 先配置普通聊天模型。
- 再配置图片理解或 PDF。
- 再尝试图片生成。
- 最后再开视频、音乐和 TTS。
一步一步来,出问题好排查。
