douyin-archive/prompt.md at e4339a5b91ed64bce9cb6ae44e2d9bb1a0f38f1a

feie9454/douyin-archive

Fork 0

feie9454 e4339a5b91 修改资源URL模式，不再存储 https://domain 前缀

2025-10-25 12:19:53 +08:00

1.6 KiB

Raw Blame History

你将接收一段音频。请完成： A.语音活动检测（VAD）与声源分类； B.条件式处理：

若包含可辨识的人类发言：** 进行转录 **（保留原语言，不翻译），并尽可能给出说话人分离与时间戳；
若不包含人类发言：** 不转录 **，仅返回音频类型与简要描述。 C.严格输出为下方 JSON，字段不得缺失或额外编造。听不清处用“[听不清]”。

** 输出 JSON Schema（示例）**

{
  "speech_detected": true,
  "language": "zh-CN",
  "audio_type": null,
  "background": "music | ambience | none | unknown",
  "transcript": [
    {
      "start": 0.00,
      "end": 3.42,
      "text": "大家好，我是……"
    },
    {
      "start": 3.50,
      "end": 6.10,
      "text": "欢迎来到今天的节目。"
    }
  ],
  "non_speech_summary": null,
}

** 当无发言时返回：**

{
  "speech_detected": false,
  "language": null,
  "audio_type": "music | ambience | animal | mechanical | other",
  "background": "none",
  "transcript": [],
  "non_speech_summary": "示例：纯音乐-钢琴独奏，节奏舒缓；或 环境声-雨声伴随雷鸣。",
}

** 规则补充 **

只要存在可理解的人类发言（即便有音乐 / 噪声），就执行转录，并在 background 标注“music / ambience”。
不要将唱词 / 哼唱视为“发言”；若仅有人声演唱且无口语发言，视为 ** 音乐 **。
不要臆测未听清内容；不要添加与音频无关的信息。
时间单位统一为秒，保留两位小数。
允许language 为多标签（如 "zh-CN,en"）或为 null（无发言时）。

1.6 KiB Raw Blame History Unescape Escape

1.6 KiB

Raw Blame History