你们以为语言学家就是整天咬文嚼字,其实他们代码也很6

雷锋网AI科技评论按:统计 NLP 已取得巨大成果,但其极度依赖统计手段,相比之下深入的语言学思考少很多。当今研究遇到瓶颈,许多 NLP 的研究者都在引入一些语言学的知识来帮助他们提取更多的训练特征,提供更靠谱的思维角度。同时也有很多语言学家开始供职于科技公司,计算心理语言学家 Tal Linzen 近日就对语言学家在科技公司的具体职责进行了调查,并写了一篇统计博客。雷锋网 AI 科技评论对博客内容编译如下。

我告诉我的朋友们现在有很多语言学家供职于科技公司,他们听完很好奇这些语言学家在公司的具体职责是什么。我知道一些工作内容但并不全面,所以我通过 twitter 搜集了一些信息。鉴于 twitter 界面不便于浏览,我把回复整理了一下放在这篇博客里,其中最突出的回复当属 Wabbott_Lane 的那句「供职于科技企业的语言学家简直就是职场标杆」。我从这些回复里获取了不少信息,感谢回复的各位。

●匿名用户:我与一帮语言分析学家一起工作,他们的日常任务是项目设计与管理,做实验,标注释,做错误分析,增加音素、音位的数量和状态规范,最后就是编写和测试有限状态语法。

●erikavaris:在我从事数据科学和机器学习之前,我写过很多的关键词布尔运算算法。(PS:如果你真的知道人们如何使用语言的话那你就可以使用关键词过滤器干很多事情)

●lousylinguist:我曾为不同的老板创建语言复杂度标准,分析句法分析器的输出结果,开发和应用语义标注方案,创造 NLP 训练数据,审核自动隐喻工具,构建 NLP 解决方案。

●zehavoc:我的同事负责获取语言搜索资源,并为搜索引擎精准搜索提供技术支持,当很宽泛的搜索词也能搜到他们公司时,会大大增加公司花费(seo 吧,这是)。

●plmtznr:数据科学。

●atakanince:干很多事:本体论,智能问答,标注释,为搜索引擎设计语言架构,如果你还会机器学习,那就有更多的有趣的项目。

●AbsP:我是一名语言学家,也是一名用户体验研究者。我使用类似于人种学研究的方法,即可用性测试比如让用户做书写熟练度测试,期间询问和观察他们。一些涉及内容策略和信息架构的工作中也会用心理映射和卡片排序法(该方法也应用于语义分类)。我还做过一些涉及到自然语言处理和计算机语言学的工作。我目前就想到这么多。

●poptimality:我是一名计算语言学家,我工作的重心是上下文无关文法,但与语言有关的工作还有很多,你可以在求职信息中数数种类:https://careers.google.com/jobs#t=sq&q=j&li=20&l=false&jlo=en-US&j=linguist,我在前一家从事语音合成的相关工作,开发并实现了韵律一致化标准,我还写了大量的SQL代码

●rleegoldman:我目前在研究上下文无关文法,设计人类计算任务和 UI,为语义标注创建本体和分类,有时候,我会和其他的语言学家一起撰写提案并争辩相关内容。有时候我会去评估自然语言理解系统的输出,但绝大多数时候我在做一些数据处理与管理的工作

●aoinifh:很多人都没法如实说(因为保密政策)

●aftonSteps:我是一家研究公司的统计程序员,我日常从事一些数据科学相关的工作,比如分析研究结果,运行统计模型,写数据应用程序,自动化报告。

●franckbrl:我不太确定这里的「语言学家」是什么意思。如果你是指希望语言学家学会写正则表达式,或者熟练使用某工具,那么他其实已经不是语言学家了,因为他研究的很明显不是语言的本质及其运行模式。

●AndresKarjus:我所认识的翻译和定位方向的语言学家们一本有这些职责:如果你懂人类语言学,那么就要去评估机器翻译的输出,如果你还懂编程语言,那么就要去调整 SMT 引擎。

●Wabbott_Lane:我为 NLP 任务准备数据集,训练信息提取模型,优化自然语言理解的模型,学习人类语言技术的最新研究,每天学习新的东西。做科技领域的语言学家是我的梦想职业!

●name_inspector:我编写注释指南,也同时为机器学习项目标注数据。

●lefft:在文本数据搜索工具上实现「相似词」功能。

以上就是雷锋网整理的 Tal Linzen 博客的全部内容。

雷锋网

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>