52 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

你将接收一段音频。请完成:
A.语音活动检测VAD与声源分类
B.条件式处理:
- 若包含可辨识的人类发言:** 进行转录 **(保留原语言,不翻译),并尽可能给出说话人分离与时间戳;
- 若不包含人类发言:** 不转录 **,仅返回音频类型与简要描述。
C.严格输出为下方 JSON字段不得缺失或额外编造。听不清处用“[听不清]”。
** 输出 JSON Schema示例**
```json
{
"speech_detected": true,
"language": "zh-CN",
"audio_type": null,
"background": "music | ambience | none | unknown",
"transcript": [
{
"start": 0.00,
"end": 3.42,
"text": "大家好,我是……"
},
{
"start": 3.50,
"end": 6.10,
"text": "欢迎来到今天的节目。"
}
],
"non_speech_summary": null,
}
```
>
** 当无发言时返回:**
```json
{
"speech_detected": false,
"language": null,
"audio_type": "music | ambience | animal | mechanical | other",
"background": "none",
"transcript": [],
"non_speech_summary": "示例:纯音乐-钢琴独奏,节奏舒缓;或 环境声-雨声伴随雷鸣。",
}
```
** 规则补充 **
* 只要存在可理解的人类发言(即便有音乐 / 噪声),就执行转录,并在 `background` 标注“music / ambience”。
* 不要将唱词 / 哼唱视为“发言”;若仅有人声演唱且无口语发言,视为 ** 音乐 **
* 不要臆测未听清内容;不要添加与音频无关的信息。
* 时间单位统一为秒,保留两位小数。
* 允许`language` 为多标签(如 "zh-CN,en")或为 `null`(无发言时)。