计算机科学与技术学院

论文

（1）近五年代表性论文：

2018年：

1.刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述.计算机学报, 2018, 41（1）:1-27

2.陈东火,刘全,朱斐,金海东.基于凸多面体抽象域的自适应强化学习技术研究.计算机学报, 2018, 41（1）:112-131

2017年：

3.刘全,章鹏,钟珊章,钱伟晟,翟建伟.连续空间中的一种动作加权行动者评论家算法.计算机学报, 2017, 40（6）:1252-1264

4.刘全,翟建伟,钟珊,章宗长,周倩,章鹏.一种基于视觉注意力机制的深度循环Q网络模型.计算机学报, 2017, 40（6）:1353-1366

5.朱斐,刘全,傅启明,陈冬火,王辉,伏玉琛.一种不稳定环境下的策略搜索及迁移方法.电子学报, 2017, 45（2）:258-266

6.梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析.计算机研究与发展, 2017, 54（8）:1724-1735

7.章鹏,刘全,钟珊,翟建伟,钱伟晟.增量式自然策略梯度的行动者评论家算法.通信学报, 2017, 38（4）:166-177

2016年：

8.刘全,于俊,傅启明,王辉,朱斐.一种基于随机投影的贝叶斯时间差分算法.电子学报, 2016, 44（11）:2752-2757

9.陈东火,刘全,金海东,朱斐,王辉.具有程序的静态结构和动态行为语义的时序逻辑.计算机研究与发展, 2016, 53（9）:2067-2084

10.Zhang Zongzhang, FuQiming, Zhang Xiaofang, Liu Quan.Reasoning and predicting POMDP planningcomplexity via covering numbers[J].Frontier of Computer Science, 2016, 10(4): 726-740

11.Zhong Shan, Liu Quan,Fu Qiming. Efficient actor critic algorithm with Hierarchical Model Learningand Planning[J].Computational Intelligenceand Neuroscience, 2016, 20(4): 489-500

12.QianWeisheng, Liu Quan, Zhang Zongzhang, Pan Zhiyuan, Zhong Shan.Policy graphic pruning and optimization inMonte Carlo value iteration for continuous-state POMDPs[C]. Proc. of the 27thInternational IEEE Symposium on Adaptive Dynamic Programming and ReinforcementLearning（ADPRL）, Athens, 2016

13.Zhang Zongzhang, LiuQuan.Covering Number: Analyses for approximate continuous state POMDPplanning[C].Proc. of the 15thInternational Conference on AutonomousAgents and Multiagent Systems（AAMAS-2016）, Singapore, 2016

2015年：

14.刘全,傅启明,肖飞,周鑫.基于自适应归一化RBF网络的Q-V值函数协同逼近模型.计算机学报，2015,38（7）:1386-1396

15.钟珊,刘全,傅启明,章宗长,朱斐,龚声蓉.一种近似模型表示的启发式Dyna优化算法.计算机研究与发展，2015,52（12）:2764-2775

16.施梦宇,刘全,傅启明.支持合并的自适应Tilecoding算法.通信学报, 2015, 36（2）:2015047

17.Zhou Yicheng, LiuQuan, Fu Qiming, Zhang Zongzhang.Trajectory sampling value iteration:improve dyna search for MDPs[C].Proc. of the 14thInternationalConference on Autonomous Agents and Multiagent Systems（AAMAS-2015）, Istanbul, 2015

18.YouShuhua, Liu Quan, Fu Qiming, Zhong Shan, Zhu Fei.A Byesian sarsa learning algorithm with Bandit-based method[C]. TheInternational Conference on Neural Information Processing（ICONIP）,Istanbul, 2015

19.XuDan, Liu Quan.An improved Actor-criticmethod for POMDPs with internal state[C]. IEEE International Conference onTools with Artificial Intelligence（ICTAI2015），Salerno，2015

20.YouShuhua, Liu Quan, Zhang Zongzhang, Wang Hui.Intelligent model learning based on variance for Bayesian reinforcementlearning[C]. IEEE International Conference on Tools with ArtificialIntelligence（ICTAI 2015）Salerno，2015

2014年：

21.傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(l)算法.计算机学报,2014, 37(3)：77-88

22.朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法.计算机研究与发展,2014,51(3)：548-558

23.黄蔚,刘全,孙宏坤,傅启明,周小科.基于拓扑序列更新的值迭代算法.通信学报, 2014, 35（8）:56-62

24.傅启明,刘全,尤淑华,黄蔚,章晓芳.一种新的基于值函数迁移的快速Sarsa算法.电子学报, 2014,42（11）:2157-2161

25.Zhufei,Liu Quan, Wang Hui, Zhou Xiaoke, Fu Yuchen.Unregistered biological words recognition by Q-learning with transfer learning[J].The Scientific World Journal, 2014, 1-9

26.Zhou Xiaoke, Zhu Fei, Liu Quan, Fu Yuchen, and HuangWei. A Sarsa(λ)-Based Control Model for Real-Time Traffic Light Coordination, TheScientific World Journal, vol. 2014, Article ID 759097, 7 pages, 2014.doi:10.1155/2014/759097

2013年：

27.刘全,李瑾,傅启明,崔志明,伏玉琛.一种最大集合期望损失的多目标Sarsa算法[J].电子学报, 2013, 43（8）：1469-1473

28.傅启明,刘全,伏玉琛,周谊成,于俊.一种高斯过程的带参近似策略迭代算法[J] .软件学报, 2013, 24（11）：2676-2686

29.孙洪坤,刘全,傅启明,肖飞,高龙.一种优先级扫描的Dyna结构优化算法[J].计算机研究与发展, 2013, 50(10)：2176-2184

30.刘全,傅启明,杨旭东,荆玲,李瑾,李娇.一种基于智能调度的可扩展并行强化学习方法[J].计算机研究与发展, 2013, 50（4）：843-851

31.于俊,刘全,傅启明,孙洪坤,陈桂兴.基于优先级扫描Dyna结构的贝叶斯Q学习方法[J].通信学报,2013, 34(11)：129-139

32.穆翔,刘全,傅启明,孙洪坤,周鑫.基于两层模糊划分的时间差分算法[J].通信学报, 2013, 34(10)：92-99

33.肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(l)算法.通信学报,2013, 34(1)：77-88

34.刘全,杨旭东,荆玲.基于多Agent并行采样和学习经验复用的E3算法.吉林大学学报, 2013, 43(1)：135-140

35.刘全,杨凯,伏玉琛,张书奎.一种三角形网格空洞修复算法.电子学报, 2013, 43(2)：209-213

36.陈冬火,刘全.基于符号执行和LTL公式重写的测试用例产生方法.计算机研究与发展. 2013, 50（12）：2661-2675

37.Yang Xudong, Liu Quan, Jing Ling, Yang Kai.A scalable parallel reinforcement learning methodbased on divide-and-conquer[J]. Chinese Journal of Electronics, 2013,22(2): 242-246

38.Liu Quan, Mu Xiang, Huangwei, Fu Qiming, ZhangYonggang.A Sarsa algorithm based on double-layerfuzzy reasoning[J]. Mathematical Problems in Engineering, 2013

39.Liu Quan, Fu Qiming, Xiao Fei, Fu Yuchen.A gradient descent sarsa algorithm based onthe adaptive reward-shaping mechanism[J]. Intelligent Automation and SoftComputing, 2013, 19(4): 599-612

40.Liu Quan, Yang Xudong, Jing Ling, Li Jin, LiJiao.A parallel scheduling algorithm forreinforcement learning in large state space[J]. Frontier of Computer Science, 2013, 6(6):631-646

41.Fu Yuchen, Liu Quan.Research of qos rounting algorithm in Ad Hoc networks based onreinforcement learning[J]. Electronics and Electrical Engineering. 2013,19(2): 83-87

42.Fei Zhu, Quan Liu*, Yuchen Fu, Bairong Shen.Segmentation of neuronal structures using SARSA (λ)-based boundary amendment with reinforced gradient-descent curve shape fitting[J]. PLOS ONE, Accepted and to be published

43.Fu Qiming, Liu Quan*, Xiao Fei, Chen Guixing.The second order temporal difference errorfor sarsa. In: IEEE Symposium on Adaptive Dynamic Programming andReinforcement Learning (ADPRL), 2013

2012年：

44.刘全,陈浩,张永刚,李娇,张沈斌.一种动态挥发率和启发式修正的蚁群优化算法[J].计算机研究与发展,2012, 49（3）：620-627

45.刘全,王晓燕,傅启明,张永刚,章晓芳.双精英协同进化遗传算法[J].软件学报, 2012, 23（4）：765-775

46.刘纯平,Chen Fu-hua,龚声蓉,崔志明,刘全.基于相变和似然性的多相图像分割方法[J].计算机学报,2012, 35（2）：375-385

47.Weng Dongliang, Yang Lu, Liu Quan, Fu Yuchen.Type-2 fuzzy Logical based deadlockdetection[J]. International Journal of Digital Content Technology and ItsApplications, 2012,6(1): 429-438

2011年：

48.刘全,闫其粹,伏玉琛,Christian Bessiere,张永刚,胡道京.一种基于启发式奖赏函数的分层强化学习方法[J].计算机研究与发展,2011, 48（12）：2352-2358

49.刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报, 2011, 32（1）：66-71

50.刘全,张乐,张永刚, Christian Bessiere,王晓燕.一种基于角点特征的几何同步数字水印算法[J].通信学报,2011, 32（4）：25-31

51.李娇,刘全,傅启明,王庭钢.分布式数据库中基于局部CON模型的记录匹配方法[J].通信学报, 2011, 32（7）：196-202

52.傅启明,刘全,王晓燕,张乐.遗传反馈的多特征图像检索[J].中国图象图形学报, 2011, 16(10)：1858-1865

53.周恩策,刘纯平,张玲燕,龚声蓉,刘全.基于时间窗的自适应核密度估计运动检测方法[J].通信学报, 2011, 32（3）:106-115

54.Fu Qi-ming, Liu Quan,Wang Xiao-yan, Zhang Le.Relevance feedback techniques and genetic algorithmfor image retrieval based on multiple features[J].InternationalJournal Modeling, Identification and Control, 2011, 14(4): 279-285

55.Wang Xiao-yan, LiuQuan, Fu Qi-ming, Zhang Le.Double elite co-evolutionsry genetic algorithm[J].International Journal Computer Science andEngineering, 2011, 6(1/2): 67-75

56.Chen Zhong-wen, LiuQuan.Convergence of Affine-scaling Interior-point Methods with Line Searchfor Box Constrained Optimization[J].Numerical Functional Analysis and Optimization, 2011, 32(2):1-22

（2）专著及教材

1.刘全,傅启明,钟珊,黄蔚.大规模强化学习,北京:科学出版社,2016.

2.杨洋,刘全.软件系统分析与体系结构设计,江苏:东南大学出版社,2017.

（3）专利及软件著作权

1.发明专利名称：一种控制数码提花机织造彩色图案的方法，专利号：201010267477.8

2.发明专利名称：基于行动者-评论家方法的机器人运动控制方法和装置，专利号：201610232236.7

3.发明专利名称：一种基于多智能算法及图象融合技术的图象检索方法，专利申请号：201110357386.8

4.发明专利名称：一种基于强化学习的路面交通信号灯协调控制方法，专利号：2017041200590710

5.发明专利名称：基于交通监控视频的路况实时获取方法，专利号：2017030800289510

6.发明专利名称：一种基于模型学习的清洁机器人最优目标路径规划方法，专利号：20161017185918

7.软件著作权：遗传算法仿真平台分析与实现软件,登记号：2010SR069051

8.软件著作权：图象数字水印处理技术,登记号：2010SR056211

9.软件著作权：基于PKI的电子签章软件,登记号：2010SR056210

10.软件著作权：时间差分学习方法仿真平台软件,登记号：2011SR092527

11.软件著作权：强化学习动态规划方法仿真平台软件,登记号：2012SR0001000

荣誉奖励