校长信箱 人才招聘 联系我们
当前位置: 首页 > 社科大要闻 > 正文

社科大要闻

“人工智能”工作坊首播——网络爬虫技术与相关的法律问题

2020-03-28

计算机教研部“人工智能”工作坊首播

——网络爬虫技术与相关的法律问题

327日下午,计算机教研部主办的“人工智能”工作坊线上首播,第一次研讨主题是网络爬虫技术与相关的法律问题。作为特约嘉宾,中国社会科学院大学副校长林维教授致开场辞,之后由徐卫克老师做技术讲解,最后,林维教授与刘晓春博士做了主题发言。

计算机教研部主办的“人工智能”工作坊计划涉及时下主流的人工智能技术,共包括八个主题,分别是网络爬虫、区块链技术、机器学习、文本分析、人工智能与围棋、基于深度学习的图像识别和情感识别、图像和视频分割以及目标检测。每个主题由计算机教研部教师主讲或邀校内外学术界或产业界专家共同主讲,时间安排在本学期第四周开始的每周五下午。

林维副校长在开场致辞中表示,计算机教研部“人工智能”工作坊的举办,契合学校正在大力推动的新文科建设。中国社会科学院大学是人文社会科学方向的,希望努力实现传统人文社会科学的创新和发展,师生一起进行探讨,做一些学科建设的探索,希望以工作坊的形式,将人工智能、大数据等新兴技术能与其他社会科学(如法学、经济学等)结合,让研究方法、研究范式、研究维度都有一个发展。特别感谢计算机教研部为我们其他学科的新文科建设开了一个特别好的头。在技术革新变化之下,很多理念、很多学科都会遭遇挑战。网络爬虫本是中性、中立的技术,利用技术操控干预现实社会在刑法中如何权衡已经是一个课题。我们传统的媒介、传统的文学、哲学观念要随着技术(如科技哲学)都要有所变化,后续要加以观察、了解和学习。希望“人工智能”工作坊跟其他学院交流在一个平台上面,嫁接不同的专业,实现学科融合,碰撞出火花。林维教授特别勉励硕士、博士研究生同学开始着手探索这些新的领域,让研究工作更上层楼。

在网络爬虫技术研讨环节中,徐卫克老师首先介绍了网络爬虫的技术背景。要使用爬虫,需要具备一定的数据库、网站网页技术、Python编程技术基础。徐老师首先介绍了爬虫框架Scrapy,数据库及管理工具MongoDBNavicat PremiumPython开发和编辑工具AnacondaSpyder等的功能和安装配置方法。

徐老师演示了对某市场网站中的商品价格数据进行了爬取和处理的全过程。从创建Scrapy工程,到创建爬虫,运行爬虫,分析页面,提取详细数据,修改条目,定义、创建、提交数据项,优化调试代码,连接到MongoDB数据库进行管理都进行了编码实现。在讲解编码的同时,对爬取数据中出现的技术问题一一进行了说明与解答,也将关键代码同步到工作坊群。在技术演练之余,徐卫克老师也提醒参与者,使用爬虫一定要合法合规。

讲解Scrapy技术框架

介绍Robots协议

编写爬虫

演示爬虫工作过程

 

演示数据整理

爬虫源码优化

使用MongoDB数据库管理数据

在边讲解边实现的过程中,徐卫克老师已经进入“物我两忘”的状态,以至于有听众在工作坊中评论说:“感觉老师进入自己的世界了……”。计算机教研部全体老师也都在认真聆听,同时在部门群中热烈讨论。时而关心技术实现细节,时而总结卫克经典语录,时而思考如何落实直播细节,时而担心那些“硬核”编码是否会影响受众接受度,同时关注工作坊活动对相关课程建设带来的积极影响。

在工作坊群中与观众互动

 

接下来,中国社会科学院大学互联网法治研究中心执行主任刘晓春博士就“数据爬取的竞争法规制”问题做了主题发言。发言主要针对数据爬取的法律相关问题进行了探讨,诸如数据是否存在知识产权、商业秘密等合法权益,爬取行为是否属于法律禁止的行为、是否违反协议或诚实信用原则、是否经过用户授权等。

刘晓春博士列举出近年来一些知名的数据爬取案例,探讨了UGC案例,个人数据在通过OpenAPI授权下的权利归属案例,以及通过爬虫技术获取并无偿使用的行为是否构成不正当竞争行为等。例如,robots协议已经进入到法律视野当中,如果网站放了robots协议,而爬虫还是去抓数据,在法律上是什么责任?脉脉vs新浪微博案中,脉脉爬取微博数据,而有些数据是不公开的,这种情况可能构成对微博商业秘密的侵害。刘老师说,我们在法律上关心技术问题,一方面要把技术搞明白,另一方面要用法律来评价技术,搞清楚哪些可以做,哪些不可以做,搞清楚数据相关的利益如何去分配。

刘晓春博士主题发言

随后,林维教授针对人工智能领域的法律问题进行了主题发言。林维教授说,在“人工智能”工作坊涉及的主题中,有很多技术都涉及到法律问题。目前人工智能问题讨论的热度极高,在法律界,有些法律工作者感觉有点虚火,可能过于超前或者科幻,目前还不能确定人工智能是否具有行为能力和承担能力,另外一些业界学界人士则认为AI已经能成为法律的主体。这些都是值得探讨的话题。林维教授举出了人工智能应用方面的一个实例:无人驾驶。如果AI无人驾驶导致事故之后如何认定责任?过去传统侵权法规则的原则总要找到一个主体,现在看主体,是汽车制造者,程序设计者?责任如何分配?这些都是个问题。林维教授认为,科技法学在技术的飞速发展背景下,还没有随科技发展一起蓬勃壮大。

林维教授通过一些案例提出问题,探讨了以人工智能发展为代表的科技背景下,法学领域的一些新的研讨方向。他以快播案判例讨论了技术的中立问题,以深圳南山法院谷米诉元光以爬虫技术抓取数据案判例讨论了刑法第285条非法获取计算机信息系统数据罪,说徐老师在技术研讨中有一句话令人印象深刻:“数据爬虫抓取数据的时候还是要遵纪守法。”由此林维教授引出了数据权属,数据的利益在法律中如何定义的热门法学话题。现有的判例是在不完美的法律框架中得到的一个最好的解决方案,相关立法还是不清晰不完美。微博属于新浪的数据还是用户的数据还是几家共有?现在还没有讨论清楚。互联网的泛在化导致了管辖的泛在化。涉及到的大批数据公司可能涉案,这个问题会严重影响整个数据产业的发展。特别需要在法律上有一个清晰说明,否则很多从事大数据的人都不敢涉足该领域,不仅仅是民事,可能构成刑事问题。

最后,林维教授希望大家继续关注“人工智能”工作坊,关注社科大互联网法学研究。

林维教授主题发言

参加首次“人工智能工作坊研讨的人员包括各层各类学生和部分专职教师及研究人员,首次直播参与者峰值达到149人。截止目前,工作坊报名总人数达到324人,以我校学生为主,其中本科生112人,硕士研究生124人,博士研究生58人。

本次计算机教研部的“人工智能工作坊是我校“线上工作坊”形式的初次尝试,下一期将邀请中国科学院国家空间科学中心的王特副研究员带来“区块链技术”的主题。

43日,不见不散!

 

 

                                               计算机教研部供稿