reference: [1702.01361] Deep learning and the Schr/"odinger equation[1606.02318] Solving the Quantum Many-Body Problem with Artificial Neural Networks物理太差,所以看到文章只能不明觉厉。想问一下效果做的有多好;成果对CV/NLP是否有意义;成果对理解整个neural network是否有意义?
从14年下半年的这篇文章开始说吧。 "An exact mapping between the Variational Renormalization Group and Deep Learning", Pankaj Mehta, David J. Schwab , arxiv:1410.3831, Oct 2014 它证明了kadanoff的块重整化可以映射成一种特殊的深层玻尔兹曼机。虽然它并没有给出一个可以真正用来做事情的算法。但是能够严格地把重整化群这个多体物理领域的重要工具映射到机器学习模型,当时还是吸引了相当多的关注的。
紧接着16年3月就发生了众所周知的alphago战胜李世石事件,物理学家像所有人一样,关注了认识了机器学习这个大杀器的强大威力。心有戚戚然。于是他们就用他们聪明的小脑袋瓜想呀: 1,能不能让这个大杀器为我所用?(机器学习在物理学中的应用) 2,能不能把这个大杀器收入我大物理麾下?(用物理理论挖掘机器学习能够成功的原理) 3,能不能搞个量子大杀器?(量子机器学习,这一块百晓知道上 @Summer Clover 很在行) (严格地讲,量子机器学习的兴起要早于alphago,而1、2稍晚。 "Quantum algorithms for supervised and unsupervised machine learning", Seth Lloyd, Masoud Mohseni, Patrick Rebentrost, arxiv:1307.0411, Jul 2013)
然后16年5月这篇文章来了 "Machine learning phases of matter", Juan Carrasquilla, Roger G. Melko, arxiv:1605.01735, May 2016 它第一次真的用监督学习算了一个统计物理模型:Ising model。 然后发现机器真的可以分类高温相和低温相的自旋构型。并且这样的分类能力对无阻挫系统还有一定的推广能力(比如你用正方格子的铁磁Ising model来训练,训练出来的神经网络也能分类铁磁三角格子的shu。 ) 这篇文章的意义倒不是说算了一个多难的模型,模型很简单,但它第一次向人们展示机器学习真的可以用来做物理问题。前方是一片无人踏足的新大陆,物理学家们眼睛都绿了,多好的机会呀!
于是在接下来短短半年内就出现了许多不错的工作: "Discovering Phase Transitions with Unsupervised Learning", Lei Wang, arxiv:1606.00318, Jun 2016 "Solving the Quantum Many-Body Problem with Artificial Neural Networks", Guiseppe Carleo, Matthias Troyer, arxiv1606.02318, June 2016 "Machine learning quantum phases of matter beyond the fermion sign problem", Peter Broecker, Juan Carrasquilla, Roger G. Melko, Simon Trebst, arxiv:1608.07848, Aug 2016 "Machine Learning Phases of Strongly Correlated Fermions", Kelvin Ch'ng, Juan Carrasquilla, Roger G. Melko, Ehsan Khatami, arxiv:1609.02552, Sep 2016 "Exact Machine Learning Topological States", Dong-Ling Deng, Xiaopeng Li, S. Das Sarma, arxiv:1609.09060, Sep 2016 "Accelerate Monte Carlo Simulations with Restricted Boltzmann Machines", Li Huang, Lei Wang, arxiv:1610.02746, Oct 2016 "Self-Learning Monte Carlo Method", Junwei Liu, Yang Qi, Zi Yang Meng, Liang Fu, arxiv:1610.03137, Oct 2016 "Learning Thermodynamics with Boltzmann Machines", Giacomo Torlai, Roger G. Melko, arxiv:1606.02718, Jun 2016 etc... (提问中那篇投science的预印本也在里面,另外上述作者中至少有两位知友(~ ̄3 ̄)~)
提问中那篇文章 [1606.02318] Solving the Quantum Many-Body Problem with Artificial Neural Networks 16年6月出现在arXiv上,最近被science接收。又把一堆物理学家给震了,要知道搞理论搞计算的物理学家要发篇science那难度... 这篇文章用限制玻尔兹曼机的网络结构作为基态波函数ansatz来做变分蒙卡求量子模型(横场Ising和heisenberg)基态。就这么简单一弄,出来的结果却比目前的数值算法效果好。物理学家们一边觉得有点毁三观,一边想想也对,限制玻尔兹曼机这种ansatz的优势第一参数相对较少,第二天生适合描述非局域纠缠/相互作用。用来描述基态正合适。于是这篇文章也给人一些想入非非的大饼,那这种ansatz推广到更复杂更重要的体系效果如何呢?比如spin liquid?比如hubbard模型? 非常值得一试呀!
另外物理学家们当然也在尝试着用物理的武器库来优化机器学习算法。比如这篇 "Supervised Learning with Quantum-Inspired Tensor Networks", E. Miles Stoudenmire, David J. Schwab, arxiv:1605.05775, May 2016 把DMRG(密度矩阵重整化群)用到监督学习中,将原来的网络svd成矩阵乘积态。不但同样可以训练出来,而且很显著的节省了计算代价。
当然我们也要用物理学的思想来探讨一下机器学习为什么这么成功: "Why does deep and cheap learning work so well?", Henry Lin, Max Tegmark, arxiv:1608.08225, Aug 2016 几乎所有的机器学习算法,都可以看做是在变分拟合某种未知的概率分布。但让人费解的地方是,这些概率分布的可能取值非常大,远远大于宇宙的原子总数(400个像素的黑白图片的可能取值激素2的400次方,约合10的120次方,宇宙原子数约10的80次方)。为什么仅用几万几十万的数据杨蓓就可以把这些概率分布逼近得如此好?这件在数学上让人迷惑不解的事实有可能物理学家能够回答哦。
最后安利一下我们自己的一个工作 "On the Equivalence of Restricted Boltzmann Machines and Tensor Network States", Jing Chen, Song Cheng, Haidong Xie, Lei Wang, Tao Xiang, arxiv:1701.04831, Jan 2017 在张量网络和限制玻尔兹曼机之间建立了一个严格的映射,用张量网络这边的工具(比方说纠缠熵,约化密度矩阵)讨论了限制玻尔兹曼机网络结构的表示能力。