nutch
今天被基友催着开始折腾hadoop集群的问题,考虑到要批量部署以及统一性的问题准备写个部署脚本,对bash脚本的话我也写过不少了,然而没想到还是碰到了问题。 因为要安装nutch、hbase、apache-ant、jdk等一堆程序,所以环境变量也有很多需要添加的,所以我没考虑使用echo逐行输入,而是使用了cat重定向到文件的方法,那么问题就来了,作为环境变量,那必然会有一大堆的"$"符号,于是乎……它们全被解析成具体的路径了,这就很尴尬。 在手动修理完后我开始研究怎么样阻止这一悲剧的发生,经过一波搜索,我找到了两个办法
1、利用自然语言处理技术和机器学习算法对文本数据进行挖掘分析; 2、负责自然语言处理技术在机器翻译、自动批改、自动问答、人机对话、语义理解等方向上的应用研究; 3、负责自然语言处理相关核心技术研发及前沿算法跟踪,根据产品需求完成技术转化,推动业务发展。 能力要求: 3、实践过自然语言处理任务中的至少一种任务,包括但不限于分词、词性标注、命名实体识别、语言模型、句法分析、数据抓取、文本分类、文本检索、情感分析、自动问答、自动批改、自动摘要、机器翻译等; 5、熟悉面向文本的常见机器学习算法(逻辑回归、SVM、决策树、贝叶斯等)的原理与算法,以及CNN、RNN、LSTM、Sequence to sequence、GAN等模型者优先; 6、熟悉Hadoop、Spark、Nutch框架者优先; 7、有Tensorflow Caffe2 Theano等深度学习框架与自然语言处理结合实际项目经验者优先; 8、良好的英语阅读能力,学习能力强,能独立分析并解决问题。
今天被基友催着开始折腾hadoop集群的问题,考虑到要批量部署以及统一性的问题准备写个部署脚本,对bash脚本的话我也写过不少了,然而没想到还是碰到了问题。 因为要安装nutch、hbase、apache-ant、jdk等一堆程序,所以环境变量也有很多需要添加的,所以我没考虑使用echo逐行输入,而是使用了cat重定向到文件的方法,那么问题就来了,作为环境变量,那必然会有一大堆的"$"符号,于是乎……它们全被解析成具体的路径了,这就很尴尬。 在手动修理完后我开始研究怎么样阻止这一悲剧的发生,经过一波搜索,我找到了两个办法