让AI说中文的难度：被低估了!---好居网

首页 |行业资讯|房产快讯|房企品牌|楼市观察|时尚健身|好居风水|生活美食|娱乐艺术|装修环保|亲子健康|建材资讯|五金家电|家居科技


	您的位置：好居网>>行业资讯>让AI说中文的难度：被低估了!-- 让AI说中文的难度：被低估了!-- 2023-04-09 09:40:34 来源：快科技阅读量：6278 　　导读：上周，虎嗅旗下虎学研究栏目更新了《中文在人工智能大潮中注定落后吗？》这期节目，节目播出后，我们收到了来自各方面的讨论和质疑，问题主要分两类: 其中一类就是有不... 上周，虎嗅旗下虎学研究栏目更新了《中文在人工智能大潮中注定落后吗？》这期节目，节目播出后，我们收到了来自各方面的讨论和质疑，问题主要分两类: 其中一类就是有不少人工智能从业者指出我们对ChatGPT原理理解得不够透彻和准确，再一类就是大家对于让人工智能说中文真的有那么难吗？这件事依然有疑惑。比如这位朋友就觉得实际情况并没有视频中说的那么难于是节目组经过互相拷打，对这些问题进行了更深入的学习和讨论，形成了下面几个问题和答案，希望能对屏幕前的你有帮助。在这个AI浪潮里，希望我们都能保持思考和进步。 ChatGPT这样的大语言模型，理解的语言到底是什么？要解释这个问题，或许就需要知道ChatGPT到底是怎么说话的。这可以从GPT三个字母的全称，Generative Pre-trained Transfomer得到答案。生成型，意思就是依靠上文，预测下文。而预训练变换器，则意味着它使用了Transfomer架构，也就是通过模仿人类的注意力机制，学习词与词之间的关系，并预测下一个单词。而对于ChatGPT来说，它使用的是一种自回归式的生成模式，也就是模型每生成一个字，都会加入到上文中进行下一次预测，这使得模型的学习能力和准确度都有显著提升。从结果来看，ChatGPT可以和我们用语言进行对话，从原理上看，ChatGPT是一个可以通过数学运算预测，完成接下句的工作的模型。我们完全可以说ChatGPT不知道它输出的答案背后到底是什么意思，但可以输出从语言角度上来讲正确的答案。 GPT-4的中文挺好的，是怎么做到的？ GPT-4发布以后，网友把我们视频中举的几个例子，比如说我看完这本书花了三天了给GPT-4看，发现它完全可以理解，非常厉害，我们试用了以后也发现，GPT-4在中文理解和输出上也已经有了很强的能力了。那它是怎么做的？GPT-3的论文里其实有部分解释ChatGPT的few-shot学习机制。简单来说，就是举例子。比如我要让AI翻译上山打老虎，我会在输入问题的时候，同时给他几个中译英的例子，像这样: Promot:上山打老虎 example1:天王盖地虎 - sky king gay ground tiger example2:上阵父子兵 - go to battlefield together 然后再让AI根据这个上下文进行输出，这个就叫In-contex learning，是OpenAI训练模型的具体手段。具体的原理目前恐怕一时半会儿解释不清楚，但从GPT-3的论文标题《Language Models are Few-Shot Learners》我们就能知道结果很明显:好用。到了GPT-4，它的多语言理解能力更强了，但这次论文里公开的技术细节很少，而且从某些角度来讲，ChatGPT能做到的，和大家能解释的内容开始逐渐发生偏差，我们也希望能借此机会和更多专业的朋友一起讨论这个问题。那中文语料不行，影响什么了？在原始视频中，我们指出中文语料差，导致语言模型在学习中文表达的时候遇到了很多的困难。但评论里其实也有朋友用GPT-4的例子说，有了前面提到的in-context learning机制，其实现在的大语言模型在掌握一门新语言的时候，不需要这门语言的庞大语料库了。在和一些从业者聊过后，也有朋友表示，不同语言对于AI来说都是数据，在大算力和深度学习面前，没有什么太大的区别。但我们可以了解一下ChatGPT本身选取语料的办法，根据论文显示，GPT-3模型用到的Token数量高达499B，也就是4990亿个。而GPT-4到底用了多少外文语料，OpenAI目前还没有公开。 GPT-3论文里关于训练集的数据虽然说名师出高徒，但臭皮匠的数量足够，外加正确的学习方法，还是能出高徒的。那如果我们用文言文训练呢？在视频的评论区里很多人提出了这个有趣的问题！还有人说文言文是不是人类最后的堡垒，那我们火星文是不是也有机会hellip;hellip; 如果你理解了前面我们对于ChatGPT原理和训练过程的介绍，就会知道其实文言文可能对于数据模型来说，只是要不要练，怎么练的过程。如果我们想要一个会说文言文的AI，可能需要给他喂足够多的文言文语料，这背后带来更多的工作，比如说文献数字化、分类、提取hellip;hellip; 人工智能是个烧钱的生意，或许目前我们还不太需要一个会说文言文的AI？谁知道呢。那如何让AI说好中文？正如我们刚才所说，目前国内已经公开的大语言模型，其实只有文心一言一个，而文心一言其实也没有公开具体的训练和参数细节。但从公开的信息可以知道，文心一言用的也是Transfomer架构，但只是更偏向谷歌BERT的技术思路，而非ChatGPT的思路。那既然如此，或许我们可以照猫画虎，通过ChatGPT和BERT的公开信息，梳理一个工作表mdash;mdash;到底需要做什么，才能让AI说好中文。首先是语料，语料就仿佛是土壤，有好的土壤自然就有好的基础。或许我们需要一些除了维基百科之外的中文语料集来进行训练，同时或许也可以像OpenAI一样，先使用英文语料，再教会它翻译。其次就是训练方式方法，技术路线各家有各家的不同，但具体采用什么样的技术手段，一定会直接影响产品的最终表现。最后就是钱和时间。时间很简单，谁学说话不得花时间呢，其次就是钱。据估算，GPT-3训练一次的成本是500万美元，而整体成本更是突破数亿美元。这些都是白花花的银子。 AI用英语训练，对多元文化的影响是什么？这似乎是一个不太被目前所讨论的问题，但正如好莱坞对全球文化的影响，如果人工智能真的会像一些人预期那样席卷全球，那么这基于英语的训练数据，是否会影响文化的多元性呢？在OpenAI公布的论文里我们可以知道，ChatGPT在进行RLHF时，寻找了40个承包商(contractor)进行打标签(labeling)，这些承包商是什么背景的，我们暂时不得而知。 GPT-4论文显示经过RLHF后做题得分有显著增加又考虑到目前Transfomer和神经网络的黑箱特性，这些人工干涉的部分会对最终的模型产生什么影响，实际上是暂时不明确的。但从以往人工智能的实例来看，偏见普遍存在，而通过参数调整解决这个偏见，还是个难题。大语言模型会影响语言本身吗？早上看到一个笑话: 有的公司在训练有意识的AI；有的公司在训练无意识的工人。现在各种AI使用指南正在如同雨后春笋般冒出来，从实际效果来看，至少可以确定的是，用ChatGPT学习外语绝对是可行的，像是翻译、润色、理解，这些都是大语言模型所擅长的。但也有人担心了，如果我们过度依赖大语言模型，我们会不会又从训练AI的人，变成被AI训练的人呢？如果AI底层有一些问题，那我们是否会受到影响呢？未来会怎么样？就在我写这篇稿子的时候，著名安全机构生命未来研究所发布了一封公开信，信中呼吁全球所有机构暂停训练比GPT-4更强大的AI至少六个月，并利用这六个月时间制定AI安全协议。目前这个公开信已经有1125名知名人士签字，包括伊隆middot;马斯克和史蒂夫middot;沃兹尼亚克。截至发稿时，这个公开信已经有1377位知名人士签字了因为速度实在是太快了hellip;hellip;就好像在人工智能的牌桌上，大家手里都是大王小王一样。正如公开信中所说，AI系统在一般任务上已经具备了与人类竞争的能力，那下一步是否就要取代人类了呢？我还是引用一下公开信的结尾吧，欢迎大家留言讨论: Let#39;s enjoy a long AI summer, not rush unprepared into a fall. 让我们享受一场漫长的AI夏天，而不是毫无准备地冲向深秋。说在结尾就在发稿前，我们联系到了浙江大学计算机与技术学院的陈华钧教授，陈老师是做知识图谱、大数据、自然语言处理方向的专家。 Q:中文语料不行对训练AI大模型来说有影响吗？ Q:那您觉得做中文语言大模型应该用什么思路呢？ A:基础模型可以用英文语料来训，然后用中文语料来做增强训练，并进行中文提示工程和指令微调，我相信这是目前大多数国内团队搞大模型的技术路线。 Q:这样的话岂不是会出现语义不同导致的理解偏差？ A:我认为这不全是中文处理的问题，解决办法可以是用一个知识图谱来约束生成模型，这些约束可以用来减少生成模型产生错误知识的问题，我们自己的很多实验也都证实了这一点。 Q:那您觉得接下来会怎么样呢？ A:AI还是一种生产力革命，总归有利弊，不过我还是觉得利还是大于弊。人类生产力提升一个量级之后，大家又会找到更多新工作和新生活方式。相关资讯 AI绘制《电锯人》主角真人化颜值在线！美艳帅气兼备上海交大教授李峰:医生没有创造力非常容易被AI替代细思极恐！男子疑与人工智能对话6周后自杀:被回复“永远在一起” ChatGPT也要带货？微软开始在新必应插入广告周鸿祎现场演示360 AI“翻车”:答案不满意就像个孩子支持打赏支持0人反对打赏文章价值打分快科技·1997-2023 版权所有豫ICP备18024899号-2豫公网安备 41010502003949号热点推荐好物推荐 --> --> APP下载手机扫码下载支持Android/iOS/iPad 投稿纠错收藏--> --> --> 线索爆料爆料群爆料1群声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。上一篇：武汉都市圈城市融合指数：孝感与武汉融下一篇：返回列表高级制表品牌为何偏极星成立战略合资企 [新闻]武汉都市圈城市融合指数：孝感与武汉融合度最高 [行业资讯]科技手段助力数据转化百分点科技发布数据科学基 [新闻]沸腾东方，智惠中国丨惠达卫浴2023年夏季新 [新闻]颠覆性创新实现行业引领，海豹获央视“中国汽车 [新闻]百城百商新篇章，惠达卫浴创富峰会圆满落地 [新闻]理想汽车3月新开4家直营零售中心L7/L8A 　推荐产品　经典回顾　书房摆件风水禁忌书房怎么布置风水好　京n是北京是哪个市北京融园别墅　玄关画风水上怎么讲究挂玄关画有什么讲究　互动中色股份：工程承包新签合同额取得历史　6G主要终端仍将是智能手机　数十万人上淘宝预约张国荣纪念音乐会嘉宾阵　哪吒U-IIU秀版汽车上市交付：CLTC 　近日关注年轻力驱动下的商业地金地中心高频活动助力华为全屋智能战略发布云里物里AoA精准室 AI能梦见电子蝴蝶吗？　女性风水风水师　京东方艺云再增新基地　IDC：预计2023 　世界先进第一季度营收　微软Edge浏览器引　啥事不干年薪130万　延续张国荣慈善心愿7 　南方玄空风水安卓破解
	网站地图备案号：京ICP备19048932号-2 中国最专业的房产家居、装修建材行业资讯网络平台本站部分资源来自网友上传，如果无意之中侵犯了您的版权，请联系本站，本站将在3个工作日内删除。