丹道文献网论坛's Archiver

jzming 发表于 2018-9-3 11:25 AM

机器学习+数据可视化,老中医逆袭的秘密武器!

[font=arial][color=#ff0000][size=16px]PS:丹道也可以用这个思路研究。大数据,人工智能。机器学习能够达到一个王语嫣的高度就够了,机器不可能实证,但会达到一个通读,读通各种丹经的人类无法企及的高度。计算机专业,会机器学习,大数据的道友可以谈一下。[/size][/color][/font]
[font=arial][size=16px][font=arial][size=16px]
[/size][/font]
前言[/size][/font]
[font=arial][size=16px]中国古籍,汗牛充栋,源远流长,即使皓首穷经,人一生能博览的书籍也是少之又少,能深入参悟的就更是稀有。[/size][/font]
[font=arial][size=16px]好在现在是AI时代,通过机器学习可以快速大量处理包括文本在内的各种数字文档,借助AI,我们也可以提高对于知识处理和提炼的效率。[/size][/font]
[font=arial][size=16px]本文将以横跨明清两代的医学家陈士铎的毕生心血《医学全书》为例,用AI研习经典,用人工创作智慧。[/size][/font]
[font=arial][size=16px]励志照亮人生,程序猿改变世界。[/size][/font]
[font=arial][size=16px]背景介绍[/size][/font]
[font=arial][size=16px]陈士铎,字敬之,号远公,别号朱华子,又号莲公,自号大雅堂主人,浙江山阴(今浙江绍兴)人。约生于明朝天启年间,卒于清朝康熙年间。据嘉庆八年《山阴县志》记载:“陈士铎,邑诸生,治病多奇中,医药不受人谢,年八十余卒。“[/size][/font]
[font=arial][size=16px]书籍介绍[/size][/font]
[font=arial][size=16px]陈士铎是清代初期的著名医学家,一生的著述非常多。[/size][/font]
[font=arial][size=16px]《医学全书》总共3.7M,汉字约120万字,全部文言文。一个勤奋的读者,每天阅读2000字,需要600多天完成第一轮学习。[/size][/font]
[font=arial][size=16px]至于归纳整理,就需要更久的时间。所以说,学医需谨慎。[/size][/font]
[font=arial][size=16px]框架选型[/size][/font]
[font=arial][size=16px]中文处理文本,第一步分词,第二步向量化。[/size][/font]
[font=arial][size=16px]1、分词[/size][/font]
[font=arial][size=16px]分词我选用了开源项目结巴分词:[url=https://github.com/fxsjy/jieba]https://github.com/fxsjy/jieba[/url][/size][/font]
[font=arial][size=16px]自从github嫁给ms,总感觉心里很失落,怀念啊我们的青春啊。[/size][/font]
[font=arial][size=12px][img]https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=2983363170,3191705885&fm=173&app=25&f=JPEG?w=640&h=254&s=B021F1103CC89F0566B6114C0300D0BA[/img][/size][/font]
[font=arial][size=16px]同时,考虑到结巴分词对文言文医学的不熟悉,需要手动设置用户自定义词,示例如下:[/size][/font]
[font=arial][size=12px][img]https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq/it/u=2755733489,2981841862&fm=173&app=25&f=JPEG?w=248&h=712&s=21D2336C02F880724CF9DC1A0100E091[/img][/size][/font]
[font=arial][size=16px]2、向量化[/size][/font]
[font=arial][size=16px]因为这次的主要目的是寻找词语关系,所以选择了word2vec作为工具库。[/size][/font]
[font=arial][size=16px]word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。[/size][/font]
[font=arial][size=16px]word2vec模型其实就是简单化的神经网络。[/size][/font]
[font=arial][size=16px]word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,还可以得到训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。[/size][/font]
[font=arial][size=16px]word2vec常见应用:[/size][/font]
[font=arial][size=16px]用 Word2vec 寻找相似词[/size][/font]
[font=arial][size=16px]根据上下文预测某个词语出现概率[/size][/font]
[font=arial][size=16px]数据处理[/size][/font]
[font=arial][size=16px]良好的数据是机器学习模型的食材。[/size][/font]
[font=arial][size=16px]经过结巴分词之后的segment还需要手工过滤掉标点符号和很多奇怪的词语,这些词语如果不去掉,在后面的向量相似度上会带来很多困扰。[/size][/font]
[font=arial][size=12px][img]https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq/it/u=3053721835,2220520237&fm=173&app=25&f=JPEG?w=640&h=779&s=E8C2A3449AB6B64F4EF144070000E0C0[/img][/size][/font]
[font=arial][size=16px]训练模型[/size][/font]
[font=arial][size=12px][img]https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq/it/u=2769255140,264250576&fm=173&app=25&f=JPEG?w=640&h=87[/img][/size][/font]
[font=arial][size=16px]训练模型输出相似度[/size][/font]
[font=arial][size=12px][img]https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=2039907162,3385463893&fm=173&app=25&f=JPEG?w=639&h=172&s=E0E2B744CFA58D705AC1440C000070C3[/img][/size][/font]
[font=arial][size=16px]这里以六经为例,目的是看看与这几条经脉最亲密的是哪些东西。[/size][/font]
[font=arial][size=16px]老中医顺手普及:[/size][/font]
[font=arial][size=16px]少阴:分足少阴肾经和手少阴心经,对应心、肾。[/size][/font]
[font=arial][size=16px]太阴:分足太阴脾经和手太阴肺经,对应脾、肺。[/size][/font]
[font=arial][size=16px]厥阴:分足厥阴肝经和手厥阴心包经,对应肝、心包。[/size][/font]
[font=arial][size=16px]少阳:分足少阳胆经和手少阳三焦经,对应胆、三焦。[/size][/font]
[font=arial][size=16px]太阳:分足太阳膀胱经和手太阳小肠经,对应膀胱、小肠。[/size][/font]
[font=arial][size=16px]阳明:分足阳明胃经和手阳明大肠经,对应胃、大肠。[/size][/font]
[font=arial][size=16px]以上对应的五脏(心肝肾肺脾)和六腑(胆,心包,膀胱,小肠,大肠,三焦)并非西医意义上的器官。[/size][/font]
[font=arial][size=16px]数据样本[/size][/font]
[font=arial][size=12px][img]https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq/it/u=106733109,3410853073&fm=173&app=25&f=JPEG?w=640&h=381&s=58A83C72271350624C75D0DA0000E0B1[/img][/size][/font]
[font=arial][size=16px]以上美观大方的数据表格由DataHunter数据可视化软件生成。[/size][/font]
[font=arial][size=16px]可视化[/size][/font]
[font=arial][size=16px]为了直观和颜值,我们采用DataHunter最新的1.8版数据可视化软件来呈现数据。[/size][/font]
[font=arial][size=16px]新版新增了包括热力图、箱线图、关系图、树状图、玫瑰图、桑基图、仪表盘、象形图,正好可以用来展示多维度量的数据。[/size][/font]
[font=arial][size=12px][img]https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq/it/u=3048004898,1526170029&fm=173&app=25&f=JPEG?w=640&h=522&s=9DC2CC12F7274B1B0EC3B0D6030010AA[/img][/size][/font]
[font=arial][size=12px][img]https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq/it/u=33664796,3364688611&fm=173&app=25&f=JPEG?w=640&h=484&s=58A03C720D03414356F120CE0000E0B3[/img][/size][/font]
[font=arial][size=16px]结论[/size][/font]
[font=arial][size=16px]少阳经与其他经脉的联系最多,古人称“少阳为枢”,很多病症只需『和解少阳』便可四两拨千斤,达到早治疗早轻松的效果。[/size][/font]
[font=arial][size=16px]与虚火关系紧密的是阳明,即胃经,这个在临床上也有很多验证效果,泻胃火可以治疗包括牙龈肿痛、便秘、口腔溃疡等各种现代上火症状。[/size][/font]
[font=arial][size=16px]与肾虚关系紧密的分别是少阴(心肾)经和太阴(脾肺)经,肾很好理解,脾肺在这里出现则发人深思,所谓土生金、金生水,造化之妙。[/size][/font]
[font=arial][size=16px]厥阴与痉病(四肢抽搐、角弓反张)密切相关,这个有经验的老中医一看就洞悉于心:肝木主风,痉病这些症状正与风症吻合。[/size][/font]
[font=arial][size=16px]有兴趣的朋友,还可以拓尔思之,比如查一下与『人参』关系紧密的老铁是那几位?答案不揭晓了,有心者自得知。[/size][/font]
[font=arial][size=16px]现代科技也可以让古老的典籍重新焕发青春![/size][/font]

生白子 发表于 2018-9-11 09:29 AM

不是程序员表示看不太懂啊

系統名稱:中医学

          前系統:

          後系統:

          上系統:

          下系統:

        系統介面:

        系統基因:

        系統結構:

        系統性質:

        系統應用:

页: [1]

Powered by Discuz! Archiver 7.2  © 2001-2009 Comsenz Inc.