商汤科技
H1B 员工人数:1000-9999人 行业分类:互联网
工作职责
工作职责前沿探索: 跟踪和研究多模态学习、大语言模型(LLMs)、视觉基础模型等领域的最新进展(如 Transformer、Diffusion Models、VLP等)。
模型构建: 参与多模态基础模型的核心架构设计与实现,探索如何高效融合文本、图像、音频等多源信息。
能力攻坚: 重点攻克并提升模型在特定维度的基础能力,包括但不限于:
视觉文本理解: 提升复杂场景下的文字识别(Scene Text Recognition)与光学字符识别(OCR)的精度和鲁棒性。
布局与结构感知: 让模型理解文档、网页、UI界面的布局结构,实现精准的信息提取与问答。
空间关系推理: 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。
实验与优化: 设计和执行大规模的深度学习实验,对模型进行训练、评估和迭代优化,并分析实验结果,沉淀技术方案。
协作共创: 与团队中的顶尖科学家和资深工程师紧密合作,共同解决研究与工程中的挑战。
任职要求
任职要求:
1.背景扎实: 计算机科学、人工智能、电子工程、自动化等相关专业硕士或博士,学术基础优异(特别优秀的本科生亦可考虑)。
2.熟悉常见 AI 编程工具(如 Claude Code、Cursor、GitHub Copilot等),能将其有效融入日常开发工作流,具备借助 AI 工具进行代码编写、调试及提效的主动意识。
3.理论深厚: 熟悉机器学习、深度学习基础理论,对 Transformer、CNN、RNN 等模型有深刻理解。
4.领域经验: 对以下至少一个领域有深入研究或项目经验:
自然语言处理(NLP):特别是大语言模型(LLMs)的预训练、微调等。
计算机视觉(CV):熟悉图像识别、目标检测、分割等任务。
多模态学习(Multimodal Learning):了解或实践过 CLIP、BLIP、Flamingo 等视觉-语言预训练模型。
必备素质: 拥有强烈的求知欲、自我驱动力和解决问题的热情;具备良好的沟通能力和团队协作精神。
加分项(我们更期待这样的你):
在 CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, ACL, EMNLP 等顶级会议或期刊上发表过论文。
在 OCR、文档理解(Document AI)、视觉问答(VQA)、图像描述(Image Captioning)等相关领域有实际项目或竞赛经验。
有大规模模型(数十亿参数以上)的训练、数据处理或性能优化经验。
对数据敏感,具备优秀的分析和洞察能力。