Skip to content

广告 · 本站推荐

腾讯云特惠活动 · 云服务器、数据库、CDN 新用户专享折扣

媒体能力总览:图片、视频、音乐、语音和理解

OpenClaw 不只会聊天。配置好提供商后,它可以生成图片、视频、音乐,把文字转成语音,也可以理解用户发来的图片、音频和视频。


能力地图

能力工具或页面说明
图片生成Image Generation文字生成图、参考图编辑
视频生成Video Generation异步生成视频
音乐生成Music Generation生成音乐或音频
文字转语音TTS把回复变成语音
媒体理解媒体理解理解图片、音频、视频
语音输入节点音频语音识别和音频输入

同步和异步

能力通常模式
图片生成同步
TTS同步
视频生成异步任务
音乐生成多数为异步任务

异步任务会先返回 task id,完成后再唤醒会话。


配置原则

  1. 先只开一种能力。
  2. 先用低成本模型测试。
  3. 群聊里谨慎开启自动媒体输出。
  4. 生成视频和音乐要注意费用。
  5. 入站媒体理解要注意隐私。

新手路线

推荐顺序:

  1. 先配置普通聊天模型。
  2. 再配置图片理解或 PDF。
  3. 再尝试图片生成。
  4. 最后再开视频、音乐和 TTS。

一步一步来,出问题好排查。

用工程视角拆解 AI 智能体框架