Kyon Huang 的博客

论文综述 - 基于设备行为特征的用户身份认证

发表于 2018-06-06 更新于 2019-09-06 分类于论文阅读笔记

这篇论文综述已经成文比较久了，是四月上旬写成的。“基于设备行为特征的用户身份认证”是朱老师给我的一个题目，希望我能在阅读论文后有一些想法，并做实验去实现。

这篇文章算是一个阶段性总结，但是我们并没有一个具体的好的 idea，我这学期时间比较紧张，也不太好漫无目的地写程序做实验找实验者得到数据再以此找 idea，因此暂时搁置去做其他的工作。但是也算是我在实验室的工作之一，锻炼了我读论文的能力。希望大四有机会看能不能进一步做出一些成果。

对了，我知道这不是一篇合格或者说合乎规范的论文综述。

论文总体背景

研究背景

身份认证是指用户声明自己的身份并利用相关特征数据来证实该身份，将该用户的相关特征数据与其声明用户的模板进行比较，是一种一对一的匹配方法。安全的身份认证是保证计算机及网络系统安全的基本前提。现有的身份认证技术主要包括三类，分别利用了不同的信息:

记忆信息，如密码、PIN 等；
辅助设备、如 ID 卡、令牌等；
生物特征，如指纹，虹膜等。

这些传统的识别技术自身均存有缺陷，如密码难于记忆并容易搞混和泄露，ID 卡需要随身携带且易失窃或失效，生物认证需要额外的硬件设备。鉴于此，研究人员仍然在不断寻找新的身份认证手段和方法。[1]

基于设备行为特征的用户身份认证是研究通过键盘、鼠标等计算机输入设备以及触摸屏、陀螺仪等移动终端设备的使用行为特征来识别计算机操作者身份的可行性及相关方法。该研究基于所有用户在设备上进行操作的行为特征不尽相同的假设。因为其有着不需要额外的设备、在当前大多数计算机系统中可以直接部署、认证和监控期间对用户几乎无干扰等优点，因此逐渐成为身份认证研究中的新热点。除开网络安全、机器学习，该问题也被归于生物行为统计学（Behavioral Biometrics）。

阅读全文 »

计算机网络复习笔记

发表于 2018-05-24 更新于 2018-07-08 分类于学科补完计划

计算机网络与因特网

一个协议定义了在两个或多个通信实体之间交换报文的格式与次序，以及报文发送/接收或其他事件所采取的动作。

协议层次及其服务模型

因特网协议栈（Internet protocol stack）自顶向下：

应用层：网络应用程序及应用层协议存留的地方。

常见应用层协议：HTTP、DNS、FTP、SMTP、DHCP
位于应用层的分组信息称为报文（message）

运输层：负责在应用程序端点之间传送应用层报文。

常见运输层协议：TCP、UDP
位于应用层的分组信息称为报文段（segment）

网络层：负责在主机间传送网络层的分组。

常见网络层协议：IP
位于网络层的分组信息称为数据报（datagram）

链路层：负责将整个帧从一个网络元素移动到临近的网络元素。

链路层的例子包括以太网，WiFi
由于分组从源到目的地传送通常要经过几条链路，所以可能被途径不同的链路层协议处理
位于链路层的分组信息称为帧（frame）

物理层：将帧中的每个比特从一个结点移动到下一结点。

与链路的实际传输媒介相关。

ISO-OSI 模型：

应用层
表示层：使通信的应用协议能够解释交换数据的含义，提供数据压缩、数据解密、数据描述等服务；
会话层：提供数据交换的定界和同步功能，包括建立检查点和恢复方案的方法；
运输层
网络层
链路层
物理层

阅读全文 »

操作系统复习笔记

发表于 2018-05-15 更新于 2018-06-02 分类于学科补完计划

操作系统引论

操作系统的定义

定义一：是配置在计算机硬件上的第一层软件，是对硬件系统的首次扩充。

定义二：是一组控制和管理计算机硬件和软件资源、合理地对各类作业进行调度以及方便用户使用的程序的集合。

操作系统的作用

作为用户与计算机硬件系统之间的接口；
作为计算机系统资源的管理者；
实现对计算机资源的抽象。

操作系统的基本特征

1. 并发*

两个或多个事件在同一时间间隔内发生。

2. 共享

系统中的资源可供多个并发执行的进程共同使用。

两种共享方式：

互斥共享：共享的资源称为临界资源，同一时间只允许一个进程访问。需要用同步机制来实现对临界资源的访问；
同时访问：微观上交替进行。

3. 虚拟

把一个物理实体转换为多个逻辑实体。

主要有两种虚拟技术：时分复用技术（如分时系统）、空分复用技术（如虚拟内存）。

4. 异步

多个作业的执行顺序和每个作业的执行时间是不确定的。

操作系统的主要功能

处理器管理：处理器的运行和分配，以进程为基本单位，因此也被看作进程管理。包括进程控制、进程同步、进程通信、进程调度；
存储器管理：内存分配、内存保护（不相互干扰）、地址映射（逻辑 -> 物理）、内存扩充（虚拟存储技术）；
设备管理：包括缓存管理（I/O 设备和 CPU 之间）、设备分配、设备处理；
文件管理：包括文件存储空间的管理、目录管理、文件读写管理和保护；
提供用户接口：程序接口（如 API）和用户接口（如 GUI）。

阅读全文 »

【paper reading】Recurrent Neural Network for Text Classification with Multi-Task Learning

发表于 2018-05-10 更新于 2019-09-06 分类于论文阅读笔记

原文链接：Recurrent Neural Network for Text Classification with Multi-Task Learning

作者：Pengfei Liu, Xipeng Qiu, Xuanjing Huang

单位：复旦大学自然语言处理与深度学习组

文章来源：IJCAI 2016

简介：本文针对文本多分类任务，提出了基于 RNN 的三种不同的共享信息机制，在四个基准的文本分类任务中取得了较好的结果。

研究概况

研究背景

假设多个任务之间具有相关性，**多任务学习**利用任务之间的相关性相互促进，通过并行学习任务来提高分类效果。这些模型的基本的多任务架构将共享一些较低的层以确定共同的特性。在共享层之后，每个特定任务单独使用一个输出层。

Shared-Representation

前人工作和不足

基于神经网络的多任务学习已被用于解决 NLP 的各类任务。例如：

使用一个对于输入单词的共享表示：用途是解决词性标注、语义角色标注等传统 NLP 任务。缺点是只有一张查找表是共享的、其他查找表和层是任务特定的，并且需要用基于窗口的方法处理长度不定的文本序列；
多任务 DNN 来学习表示：用途是解决查询分类和网络搜索排名任务。缺点是模型输入为词袋表示，损失了词序信息。

不同于以上两种方法，本文的模型基于 RNN，对于建模变长文本序列更友好。

本文工作

基于 RNN，提出了三种不同的共享信息机制，可以将信息共享到特定任务层的共享层。整个网络都是在所有这些任务上共同训练的。模型在四个基准的文本分类任务上展示了很好的效果，超过了大多数的 state-of-the-art。

阅读全文 »

记知识图谱前沿技术课程（武汉大学站）

发表于 2018-05-05 更新于 2018-07-21 分类于讲座心得记录

这周一（4月28日）参加了知识图谱前沿技术课程暨学术研讨会（武汉大学站）。本次研讨会邀请了很多著名学者和企业代表，结合知识图谱学界研究与业界应用的进展，系统地讲解知识图谱前沿技术及智能应用。

我之前对知识图谱了解甚少，但经过一整天的讲座学习，也接触到了知识图谱的理论知识和产业实际应用，感受到了其独特的魅力。在八场主题各异的讲座中，我认为复旦大学知识工场实验室的肖仰华教授所带来的《领域知识图谱落地实践中的问题与对策》既有对知识图谱技术的概述，也有足够的深度和思考空间。因此，我基于这场讲座的内容笔记，结合自己查找的其他资料做一个整理。

注：本文涉及的图片及资料均整理自肖仰华教授的讲座内容，版权归其所有。

阅读全文 »

胶囊网络初探

发表于 2018-04-26 更新于 2018-05-29 分类于深度学习笔记

如果你有关注我的 Github，可以看到我和小伙伴们正在做一个中文短文本情感分析 web 应用。恰逢 WWW 2018 收录了一篇《Sentiment Analysis by Capsules》，借着这个机会了解一下“神经网络之父” Geoffrey Hinton 大神花费近十年心血的胶囊网络（Capsule Networks）。如果能够用于我们的应用中就更好了，即使因为缺少计算资源等原因而无法实现，了解前沿技术、吸收大牛思想也是极好的。

先简单介绍一下 Capsule。NIPS 2017 发表的《Dynamic Routing Between Capsules》[1]使得这一概念开始走红，虽然 Capsule 本用于 CV 领域，不过目前也已经在各领域有了积极的尝试。Capsule 是 Hinton“反 CNN”的一面旗帜，他认为导致深度学习如火如荼的 CNN 其实有着重大的缺陷。我接下来就将介绍这个缺陷、Capsule 如何通过其工作原理避免这个缺陷、Capsule 的结构，以及 Capsule 的训练算法与损失函数等。不过因为篇幅有限，这篇文章暂时不会介绍 CapsNet 的具体架构，这部分可以看一下参考资料列的一些或者直接看原论文。顺便一提，Capsule 和胶囊两个词可能在本文中互有使用，但我实际上想用它们指同一个东西。

阅读全文 »

编译原理复习笔记

发表于 2018-04-11 更新于 2018-06-02 分类于学科补完计划

开始学科复习。选择编译原理作为第一门复习的课程，因为其内容不算太多，大部分计算过程可以暂时不用记录和练习，而且没什么前置知识。

选用课本是上课时用的清华大学出版社《编译原理》（其实我觉得这本书里给部分概念下定义时没有做到简洁明了，挺难理解的）。以下是记录的笔记。不求全面，只求适合自己之后再次复习使用。

阅读全文 »

分布式系统演进简述

发表于 2018-04-09 更新于 2018-05-09 分类于架构笔记

“网络与分布式计算”课程布置了一个作业，要求写一篇题目为“构建分布式系统技术发展历史”的小论文。我个人以为“历史”二字应该是要我们去了解每项技术诞生的时间点，然而踏破铁鞋无处可觅。最后写成的文章主题，我个人认为比起“历史”来说，“演进过程”可能更为恰当。

事实上我们可能也更为注重演进过程，因为分布式系统的演进过程，就是一代代工程师们对抗随时代和应用自身发展而逐渐升高的访问量的一部血泪史。这个过程是每一个健康发展的网站都要经历的。

这次作业也给了我一个机会，去大致了解网站在发展过程中为了提升性能、简化部署、弹性扩展而做出的种种措施，受益匪浅。因此将文章放到博客上。

阅读全文 »

数据清理 5 天挑战

发表于 2018-03-30 分类于数据科学笔记

偶然看到了 Kaggle 的数据清理 5 天挑战，大致看了一下，还是比较实用的。因此全部做完后记录一下。不是很想在无谓的整理上花太多时间，因此各类标题直接使用原文中的英文标题，用于串联内容的文字较少，且代码不一定完整（主要是缺少导入包和数据的语句）。如果你希望能够全面地了解这 5 次挑战的内容，以下是 Kaggle 上原 kernel 的地址：

阅读全文 »

记 CIPS 青工委武汉大学系列讲座

发表于 2018-03-24 更新于 2019-05-11 分类于讲座心得记录

趁着余兴未尽，来将今天早上参加的讲座记录一下。很幸运周四在教学楼下看到了这次活动的海报。本次系列讲座是 CIPS 青工委（中国中文信息学会青年工作委员会）在武汉大学的一次活动，主持人是武大的李晨亮老师，嘉宾包括清华的刘洋老师、刘知远老师、张敏老师，天津大学的张鹏老师和北大的严睿老师。五名老师在其所关注的细分领域各有建树，全是自然语言处理和信息检索领域的大牛。接下来以老师报告的顺序大概介绍一下各位老师的报告内容，和我对各位老师的感受。因为我忘记带拍照用的手机了，因此没有照片，而且笔记也不完整，部分理解可能有偏差，尽请见谅。

2018.04.03 更新：更新上周五中科院自动化所刘康老师的讲座笔记。

阅读全文 »