留学生海投网 | 直通硅谷

最新职位

顶尖实习生-多模态理解生成统一方向
Bachelor Master PhD | 发布于2026-06-30
商汤科技 H1B 员工人数:1000-9999人 行业分类:互联网
工作职责
工作职责前沿探索: 跟踪和研究多模态学习、大语言模型(LLMs)、视觉基础模型等领域的最新进展(如 Transformer、Diffusion Models、VLP等)。 模型构建: 参与多模态基础模型的核心架构设计与实现,探索如何高效融合文本、图像、音频等多源信息。 能力攻坚: 重点攻克并提升模型在特定维度的基础能力,包括但不限于: 视觉文本理解: 提升复杂场景下的文字识别(Scene Text Recognition)与光学字符识别(OCR)的精度和鲁棒性。 布局与结构感知: 让模型理解文档、网页、UI界面的布局结构,实现精准的信息提取与问答。 空间关系推理: 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。 实验与优化: 设计和执行大规模的深度学习实验,对模型进行训练、评估和迭代优化,并分析实验结果,沉淀技术方案。 协作共创: 与团队中的顶尖科学家和资深工程师紧密合作,共同解决研究与工程中的挑战。
任职要求
任职要求: 1.背景扎实: 计算机科学、人工智能、电子工程、自动化等相关专业硕士或博士,学术基础优异(特别优秀的本科生亦可考虑)。 2.熟悉常见 AI 编程工具(如 Claude Code、Cursor、GitHub Copilot等),能将其有效融入日常开发工作流,具备借助 AI 工具进行代码编写、调试及提效的主动意识。 3.理论深厚: 熟悉机器学习、深度学习基础理论,对 Transformer、CNN、RNN 等模型有深刻理解。 4.领域经验: 对以下至少一个领域有深入研究或项目经验: 自然语言处理(NLP):特别是大语言模型(LLMs)的预训练、微调等。 计算机视觉(CV):熟悉图像识别、目标检测、分割等任务。 多模态学习(Multimodal Learning):了解或实践过 CLIP、BLIP、Flamingo 等视觉-语言预训练模型。 必备素质: 拥有强烈的求知欲、自我驱动力和解决问题的热情;具备良好的沟通能力和团队协作精神。 加分项(我们更期待这样的你): 在 CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, ACL, EMNLP 等顶级会议或期刊上发表过论文。 在 OCR、文档理解(Document AI)、视觉问答(VQA)、图像描述(Image Captioning)等相关领域有实际项目或竞赛经验。 有大规模模型(数十亿参数以上)的训练、数据处理或性能优化经验。 对数据敏感,具备优秀的分析和洞察能力。

Hi,我们是直通硅谷!

直通硅谷出品,专为留学生而生。内含Internship/Co-op/New Grad/Entry Level职位,方向涵盖SDE、DATA、AI、HWE、QUANT、UI/UX、PM,大厂、中厂、小厂职位一应俱全。

留学生求职,锁定留学生海投网!

自2015年,直通硅谷独家上岸计划已帮助学员拿下8000+互联网科技大厂offer!