本文预计需要20min,通过本文主要获得几个知识点:
了解 NLP 发展历程 和 NLP任务边界
学会 如何快速使用一个NLP模型
前段时间,有个开源项目 万词王(github[1])开源了,短短时间收获了4k start
它是一种反向词典,其最大的用处在于解决舌尖现象(Tip of the tongue),即话到嘴边说不出来的问题。
例如输入描述:开飞机的人
输出描述:机师、飞行员、机长 等等...
站点地址 https://wantwords.thunlp.org/
刚看到这个库,感觉很好奇,于是便简单看了个大概思路
是怎么能根据一段描述 能反推 对应的概述词的呢?
可参考学习 https://zhuanlan.zhihu.com/p/100382190?from_voters_page=true
根据这个库的 Readme 描述[2],来看看它的大体思路
核心模型
大白话:
先对一段描述 采用分词工具 进行分词
如果分词后,只有一个词语,则从预训练的权重表中 匹配 同义词林中多个同义词的
如果分词后,有多个词语,则对每个词语进行一个bert编码分解成一个个token,采用 多通道反向词典语言模型 进行相关性分数计算,返将得分 前n个 的token,最后根据词典,将token反查得到对应中文
不是本文关键,看不懂没关系,有些我也没太懂... 边学边看即可
初始化工作
# 初始化 文本分词工具
lac = thulac.thulac()
# 导入token分词工具
tokenizer_Ch = BertTokenizer.from_pretrained('bert-base-chinese')
# 加载同义词表、释义表
word2index, index2word, (wd_C, wd_sems, wd_POSs, wd_charas), mask_ = load_data()
# 添加同义词词林用于描述为一个词时的同义词推荐
index2synset = [[] for i in range(len(word2index))]
for line in open(BASE_DIR + 'word2synset_synset.txt').readlines():
wd = line.split()[0]
synset = line.split()[1:]
for syn in synset:
index2synset[word2index[wd]].append(word2index[syn])
# 加载 双向通道语言模型
MODEL_FILE = BASE_DIR + 'Zh.model'
model = torch.load(MODEL_FILE, map_location=lambda storage, loc: storage)
model.eval()
分词
# 分词
import thulac
lac = thulac.thulac()
fenci = lac.cut(description)
# 得到分词列表
def_words = [w for w, p in fenci]
词数为1:单通道
# 词向量找相关词,排序后,如果在词林里,则对应的同义词的分数乘以2
# tensor 矩阵相乘 预训练词嵌入权重表tonsor(137422,200) * tonsor(200,1) 得到 tonsor(137422,1) 即该词在 词林表中 权重表
score = (model.embedding.weight.data).mm(model.embedding.weight.data[def_word_idx[0]])
if RD_mode == 'CC':
# 当CC的时候,排除自身,EC的时候自身是最准确的,不排除。
score[def_word_idx[0]] = -10.
score[np.array(index2synset[def_word_idx[0]])] *= 2
sc, indices = torch.sort(score, descending=True)
# 获得排名前500的预测值
predicted = indices[:NUM_RESPONSE].detach().cpu().numpy()
score = sc[:NUM_RESPONSE].detach().numpy()
词数>1:多通道
模型入参 https://github.com/thunlp/MultiRD/blob/fe72148c00/ChineseReverseDictionary/code/model.py
defi = '[CLS] ' + description
# 对文本输入进行编码
def_word_idx = tokenizer_Ch.encode(defi)[:80]
def_word_idx.extend(tokenizer_Ch.encode('[SEP]'))
# 在PyTorch张量中 转换indexed_tokens
definition_words_t = torch.tensor(np.array(def_word_idx), dtype=torch.int64, device=device)
# 模型调用
score = model('test', x=definition_words_t, w=words_t, ws=wd_sems, wP=wd_POSs, wc=wd_charas, wC=wd_C, msk_s=mask_s, msk_c=mask_c, mode=MODE)
sc, indices = torch.sort(score, descending=True)
# 获得排名前500的预测值
predicted = indices[0, :NUM_RESPONSE].detach().cpu().numpy()
结果转换
# index2word 跟进词典释义表,将index转化为word
res = index2word[predicted]
上面简单对一个 开源的NLP项目做了介绍,重点知道一个大概的处理轮廓即可:
step1、输入加工
step2、模型处理
step3、输出加工
单看完一个模型,对于NLP整个的发展有哪些故事,以及现状大家都在研究什么方向,还是没有清晰认识。下面说下 NLP 的发展历程 和现状,方便我们对 NLP有个简单的全局认识
参考 https://zhuanlan.zhihu.com/p/148007742
1950-1970 - 采用基于规则的方法
研究人员们认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,基于这个理论,定义了大量规则,但因规则的局限性,只能解决一些简单问题
1970-20世纪初 - 采用基于统计的方法
随着技术发展 和 语料库丰富,基于统计的方案逐渐代替了基于规则的方法,nlp由经验主义向理性主义过渡,开始从实验室走向实际应用
2008-2018 - 引入深度学习的RNN、LSTM、GRU
在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到2013年的word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功
现今
2017年谷歌提出了Transformer架构模型,2018年底,基于Transformer架构,谷歌推出了bert模型,bert模型一诞生,便在各大11项NLP基础任务中展现出了卓越的性能(一个排名榜单[3]),现在很多模型都是基于或参考Bert模型进行改造
如果想了解 Transformer 和 bert,可以看这个视频
https://www.bilibili.com/video/BV1P4411F77q?spm_id_from=333.999.0.0
https://www.bilibili.com/video/BV1Mt411J734?spm_id_from=333.999.0.0
bert 大家族
方向分为两个方向
https://zhuanlan.zhihu.com/p/56802149
自然语言理解 NLU
自然语言生成 NLG
常见的11类任务
了解完NLP的发展历程 和 边界(常见的探索方向)
下面以 bert模型为例,实战下如何调用 一个模型
实战前,应该会有两个问题比较懵逼
Q1:模型可以去哪里找?
A1:现在已经有一个很成熟的社区整合了大量的模型,我们可以拿来即用,它就是 HuggingFace(当然github自己搜也行,但比较零散)
Q2:有了模型怎么用?
A2:不用慌,HuggingFace提供了非常详细的上手教程,可以快速上手!
↓↓↓↓
先简单说下Hugging Face
https://huggingface.co/
该公司主要是提供nlp服务,同时它提供了一个很的开源社区,这里可以找到大部分开源model。
一点小插曲:这个库名字一直在变,网上一些不同时间发表的文章对其称呼不一致,不要懵逼,其实是一个库...
一开始名称是 pytorch-pretrained-bert ,后来更名为 pytorch-transformers,2.0后更名为 Transformers
访问站点,我们可以切换到model列表
可在左侧边栏 根据你想做的事情,做一个筛选
随便点击一个model,大部分模型页面会有 类似Readme说明 和 模型演示窗口
model加载支持两种方式,离线 和 远程,如果需要离线,可以切换到 Files and versions 窗口下载资源
pytorch 是facebook推出的 机器学习库(与tensorflow类型),其支持 友好的调试 和 稳定的api,一经推出就大受欢迎,目前使用 pytorch 比 tensorflow的人多
import numpy as np
import torch
from transformers import BertTokenizer, BertForMaskedLM
# BERT [CLS] 和 [SEP] 标记句子的开头和结尾
samples = ['[CLS] 诸葛[MASK]是三国时期人物[SEP]'] # 准备输入模型的语句
mask_index = 3
# ---- step1、token处理 ----
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
# 将句子分割成一个个token,即一个个汉字和分隔符
tokenized_text = [tokenizer.tokenize(i) for i in samples]
# 把每个token转换成对应的索引
input_ids = [tokenizer.convert_tokens_to_ids(i) for i in tokenized_text]
input_ids = torch.tensor(input_ids)
# ---- step2、模型调用 ----
# 读取预训练模型
model = BertForMaskedLM.from_pretrained('bert-base-chinese')
model.eval()
# model输出查看列表 https://huggingface.co/docs/transformers/main_classes/output
# 我们可以在该文档中,找到对应模型的出参,方便 做结果转换 操作
outputs = model(input_ids)
# ---- step3、结果转换 ----
# torch 张量转化为 numpy,方便处理
sample = outputs.logits[0].detach().numpy()
pred = np.argsort(-sample[mask_index],axis=0)[:20]
print(tokenizer.convert_ids_to_tokens(pred))
使用pytorch还是比较比较麻烦的,我们还可以 HuggingFace 提供的pipeline快速调用model
pipeline 对模型输入 和 输出做了统一封装,所以更便捷
目前可以使用的 pipeline 列表
https://huggingface.co/docs/transformers/main_classes/pipelines
调用例子:
from transformers import pipeline
unmasker = pipeline('fill-mask', model='bert-base-chinese')
print(unmasker( 巴黎是[MASK]国的首都。 ))
功能实现了,开发接口,python中可以使用 Flask、Django (类似 前端的koa和eggjs)框架开发即可,不再赘述
...
前端有了接口,距离一个产品的成型还远么
看到这里,两个FLAG是否完成了呢?
了解 NLP的边界 和 目前最新的主流NLP模型有哪些
如果快速调用 一个NLP 模型
一点感悟:
放下心理负担: 作为没有接触过人工智能的前端开发,一开始面对 人工智能 容易产生畏惧心理。其实随着技术发展,很多技术都会产生分工现象(一部分工作越来越下沉,一部分工作越来越放低门槛),作为前端我们了解新技术的宏观面,对于新技术的边界范围有个认知即可
大白话:有很多现成的预训练model 可供直接使用,我们不用成为炼丹师,知道一个模型大体逻辑,成为调包侠即可
发挥 前端 优势: 前端是对于用户交互很敏感的一个群体,可以较快的找到产品痛点。我们是可以将一个nlp模型做一层包裹,创造一个个更具竞争力,更有趣的小产品
大白话:学会如何调用hugging face,你就可以将nlp等技术融入产品中,开发自己的智能产品 ~ 全栈gogogo
[1]github: https://github.com/thunlp/WantWords
[2]Readme 描述: https://github.com/thunlp/WantWords/blob/main/README_ZH.md
[3]一个排名榜单: https://rajpurkar.github.io/SQuAD-explorer/
本文由哈喽比特于2年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/QPjaXOJw4_NrvBhsCIPtnw
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。