商汤科技
H1B 员工人数:1000-9999人 行业分类:互联网
工作职责
1. 参与多模态语音交互场景下的语音理解、语音生成和语音交互大模型的算法研发、性能优化与落地实现;
2.参与数字人场景下的个性化实时情感对话语音合成、低资源音色克隆、语音识别、语音增强、语音检测、语种识别、声纹识别、说话人分割、变声、音乐生成等技术研发;
3.参与语音相关算法引擎的流式改造、推理优化、大并发低延迟云服务、私有化服务定制开发;
4.跟进学术界、行业最新的研究趋势,产出新的科研成果,并落地于实际产品。
任职要求
1.人工智能、机器学习、信号处理或计算机科学等相关专业研究生以上学历,基础扎实
2.熟悉主流的语音识别模型算法,如RNN-T、conformer、CTC
3.熟悉kaldi / K2 / wenet / espnet / whisper / FunASR 中至少两种工具
4.学习研究能力强,能够独立阅读英文文献,对解决具有挑战性的问题充满激情
5.具有扎实的机器学习理论基础,优秀的算法实现能力,熟练使用 PyTorch 等深度学习框架,掌握SSL、LLM、diffusion、对比学习等机器学习技术在音频生成领域的应用;
6.具有语音交互链路的研发经验,熟练掌握 Python/C/C++/Java/Shell/python编程;
7.熟悉 SpearTTS、ChatTTS、IndexTTS 、CosyVoice等语音合成大模型的基本原理,掌握语音信号的离散化方法。
8.在计算及科学相关会议或期刊(如IEEE TASLP、Speech Communication、NIPS、ICML、ICASSP、Interspeech、ACL、ASRU等)发表过文章,或者参加过相关国际比赛者优先;
9.相关领域比赛获得较好成绩者优先;
10.对相关开源项目有突出贡献者优先;