前言说明

本源码基于北京小问语音合成技术序列猴子语音合成TTS(魔音工坊),本源码基于Bootstrap5和PHP技术开发,支持所有音色合成!

特色说明

  • 支持所有音色合成,满足不同用户的多样化需求。
  • 支持 SSML 语音合成,可实现更丰富的语音表达。
  • 能够进行分类场景、语言类型、发音人性别筛选,方便用户快速找到合适的语音。
  • 可对发音人、情感风格、音频编码格式、语速、音调进行调节,赋予用户更多的个性化选择。

开发文档

官方说明文档请查询语音合成(TTS)

一、接口描述

接口请求域名:https://open.mobvoi.com/api/tts/v1

接口请求频率限制为 5 次 / 秒。北京小问语音合成技术(TTS)能将任意文本转化为语音,适用于多种场景,如视频 APP 配音解说、小说 App 有声阅读、移动 App 新闻播报、智能设备语音提醒、车载导航个性化语音播报等。该技术提供多种方言、数百发音人及上千风格,满足不同场景需求,且实时合成支持 SSML 标记语言。

二、请求参数

HTTP Method:支持 POST 请求。

调用参数及说明:

字段名 必填 类型 描述
text String 要合成的文本内容,限制为 1000 字符。支持 ssml 标记语言,使用说明见附录 3。
appkey String 开发者在 AI 开放平台上申请的 appkey。
signature String 签名,通过“appkey+secret+timestamp”进行 md5 加密,得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。
每次请求实时计算签名,签名有效期为 10 分钟。
timestamp Long 当前时间戳,单位为秒。
speaker String 合成音频指定发音人
默认值:cissy_meet
其他发音人传值及计费价格请参考声音商店。pro 发音人合成时长相对较长,慎重选用
audio_type String 合成音频的格式
默认值:mp3
可选值:pcm/mp3/speex-wb-10/wav
只支持这四种格式中的一种
speed Float 发音人合成的语速,支持小数点后两位
默认值:1.0
可选值:0.5 - 2.0
convert String 默认值:无
可选值:robot
是否转化为机器声
rate Long 音频采样率
默认值:无,由 speaker 指定默认值
可选值:8000/16000/24000
volume Float 合成音量
默认值:1.0
可选值:0.1 - 1.0
pitch Float 语调参数,参数小于 0 则语调变低,反之则高
默认值:0
可选值:-10<pitch<10
(streaming 接口不支持)
symbol_sil String 符号停顿时长映射方法(逗号分割)见下方停顿符号映射表
充值后自动开通权限
(streaming 接口不支持)
ignore_limit Boolean 默认值:false
可选值:false/true
是否限制字符数,如果设置 true,传输的文本可以超过 1000 字符限制,最大字符数 3000
充值后自动开通权限
gen_srt Boolean 可以控制是否生成对应的 srt 字幕文件。当 ignore_limit 为 true 时,audio_type 为 wav 可以返回字幕,其他类型不行。默认不生成字幕文件。生成字幕文件需要额外付费,价格详情参考报价页。srt 文件地址通过 response header 返回,参考下面 response header 样例。
默认值:false
可选值:false/true
merge_symbol Boolean 粗粒度合成参数,默认为 false。可以指定为 true,打开后语气停顿会更加接近真人效果,merge_symbol 开启会导致 symbol_sil 参数无效。
默认值:false
可选值:false/true
srt_len Long 生成字幕的最大长度,如若为中文字幕遇到,,。!!??;;等符号会自动分句拆分字幕
streaming Boolean 是否流式输出,默认为 false。可以指定为 true,打开后 ignore_limit 为 true 且 audio_type 不为 wav 时,接口流式输出

Request Header设置

{
    "Content-Type": "application/json"
}

Request Body格式

body采用json格式传输

{
    "signature": "appkey+secret+timestamp的MD5值",
    "timestamp": "1665717322",
    "appkey": "开发者应用appkey",
    "speaker": "cissy_meet",
    "ignore_limit": true,
    "gen_srt": true,
    "audio_type": "mp3",
    "text": "海南长臂猿的叫声,高亢洪亮,响彻山谷。海南热带雨林国家公园是这种濒危灵长类动物的全球唯一栖息地。经过近年来的科学保护和生态恢复,海南长臂猿已由最少时的寥寥几只,恢复到5群35只,创造了世界珍稀动物保护的奇迹。国家公>园堪称最美国土,具有典型独特的自然生态系统、世界瞩目的野生动植物种。在海南热带雨林国家公园,这里生长着846种特有植物、145种国家重点保护野生动物,生物多样性指数与巴西亚马孙雨林相当。2018年4月,习近平总书记在庆祝海>南建省办经济特区30周年大会上强调,要积极开展国家公园体制试点,建设热带雨林等国家公园。2019年1月,总书记又主持召开中央全面深化改革委员会第六次会议,审议通过《海南热带雨林国家公园体制试点方案》。被称为海南“生态绿心”的这片最美国土迈出保护和建设的历史性一步。我国的国家公园在自然保护地体系中保护等级最高、生态价值最大、管控措施最严。",
    "speed": "1.0"
}

返回值说明

如果成功合成,则直接返回语音流。

Response Header格式

{
    "Content-Type": "audio/mpeg",
    "srt_address": "https://mobvoi-speech-public.cn-bj.ufileos.com/mobvoi-tts/openapi/subtitle/d5c27272b28f8596ac0bf6183929d6de.srt?v=1666856127099"
}

body中是合成后的音频数据,可以保存成音频文件,或者交给播放器进行语音播放。

如果合成音频文件失败,返回json格式信息,包含具体的错误原因。

Error Response Body

{
  "status": "error",
  "errorMessage": {
    "code": 31002,
    "desc": "failed to convert text to speech"
  }
}

符号停顿映射表

符号 设置方式
(名称+时长/ms)
时长为 10 的倍数,且大于等于 0。
;; semi_200
!! exclamation_200
?? question_200
,, comma_200
stop_200
pause_200

部分异常说明

认证已过期可能是时间戳不对,与开放平台认证审批通过与否无关。

 

 

1.使用本站下载的源码仅限于个人学习和非商业用途。
2.禁止将本站下载的源码用于搭建或支持任何违法、淫秽、暴力或侵犯他人合法权益的网站或应用。
3.使用本站下载的源码需遵守国家法律法规及相关规定,不得从事任何违法活动。
4.如若本站内容侵犯了原著者的合法权益,请联系我们进行处理。