- 博客(4547)
- 收藏
- 关注
转载 LR与Sigmod函数
在使用LR时,经常用Sigmod函数来表示一个概率,为什么LR可以使用Sigmod函数呢? 首先,LR的假设只有一个,就是两个类别的特征服从均值不等、方差相等的高斯分布。为什么假设它服从高斯分布?一方面,高斯分布容易理解;另一方面,从信息论的角度看,当均值和方差已知时,高斯分布是熵最大的分布。当熵分布最大时,可以平摊风险。就如二分查找法,每次都将中间作为...
2019-09-28 08:23:00 659
转载 相似度计算
很多时候,相似度可以理解为两样物体的距离,相似度计算在数据挖掘和推荐系统中有着广泛的应用场景。例如:CF协同过滤算法中,可以利用相似度计算用户之间(User-Based)或者物品之间(Item-Based)的相似度;在利用k-means进行聚类时,判断个体所属类别,可以使用相似度计算公式计算个体到簇类中心的距离;利用KNN进行分类时,也可以利用相似度计算个体与已知类别之间...
2019-09-28 07:41:00 776
转载 K最近邻算法
一、原理 K最近邻算法(K-Nearest Neighbor, KNN)是最基本的分类算法,其基本原理是:从最近的K个邻居(样本)中,选择出现次数最多的类别作为判定类别。K最近邻算法可以理解为是一个分类算法,常用于标签的预测,如性别。实现KNN算法核心的一般思路:相似度计算——计算未知样本和每个训练样本的距离;排序——按照距离的递增关系排序;统计标签——...
2019-09-27 09:19:00 610
转载 数据离散化与Python实现
一、原理 数据离散化(也称,数据分组),指将连续的数据进行分组,使其变为一段离散化的区间。 根据离散化过程中是否考虑类别属性,可以将离散化算法分为:有监督算法和无监督算法。事实证明,由于有监督算法充分利用了类别属性的信息,所以再分类中能获得较高的正确率。常用的数据离散化方法:等宽分组等频分组单变量分组基于信息熵分组 ...
2019-09-27 08:31:00 3731
转载 数据标准化与Python实现
一、原理 数据标准化(Normalization):将数据按照一定比例进行缩放,使其落入到一个特定的小区间。数据标准化的类别:Min-Max标准化Z-Score标准化(Standard Score,标准分数)小数定标(Decimal scaling)标准化均值归一化向量归一化指数转换1、Min-Max标准化 Min-...
2019-09-27 07:58:00 321
转载 pclzip 解压的文件去掉文件夹
< ?PHP require_once('pclzip.lib.php'); $archive = new PclZip('archive.zip'); $v_list = $archive->add('dev/file.txt', ...
2019-09-26 15:33:00 238
转载 tail 命令 没有内容输出,记录一种解决
1. 没有内容输出的命令:tail - f /test/platform/jtimer.log 控制台:2. 当切换到此文件的当前路径后才有:使用:tail - f jtimer.log 转载于:https://www.cnblogs.com/mobaids/p/11590360.html...
2019-09-26 13:18:00 849
转载 注册frpc为windows服务,可在未登录用户时启动
说明:在Windows中配置启动项仅是在用户登录后运行。在登录前要启动就需要将其配置为“服务”。简介:之前介绍过如何使用frp进行端口转发和二级域名自定义,方便公司进行统一管理和监控。但在实际生产过程中,开发人员发现frpc的窗口为应用窗口,极易出现误操作而关闭应用窗口,为了解决此问题,建议将frpc注册为windows服务,方便使用。此方法使用nssm(稳定版本)工具...
2019-09-22 17:03:00 800
转载 python3接口测试之webservice接口测试第三方库选择及新手问题
一、使用python3做webervice接口测试的第三方库选择suds-jurko库,可以直接pip命令直接下载,也可以在pypi官网下载压缩包进行手动安装二、安装好后,导入Client:from suds.client import Client。发送一条请求from suds.client import Clienturl = 'http://www.webxm...
2019-09-14 13:29:00 308
转载 质数
质数在日常开发中应用不多,然而在算法中却经常出现,在此记录两种求质数的方法。1. 思路:按照定义,质数是只能被1和自身整除的数,只要循环判断即可。let isPrime = true // 假设是质数for (let i = 2; i < target; i++) { if(target%i==0){ isPrime = false; // ...
2019-09-12 21:12:00 113
转载 IDEA 热部署
第一:settings => compiler => build project automatically .第二:CTRL + SHIFT + A,输入Registry,找到并勾选compiler.automake.allow.when.app.running,直接关闭即可第三:在项目中添加依赖<dependency> <group...
2019-09-11 12:59:00 118
转载 Docker ASPNetCore https 四步教你搭建一个网站
序本教程需要有自己已经申请好的证书 ,没有证书请参照官方教程。 Docker就不多说了,咱只要知道怎么用先。环境 core:asp net core 2.2开发机:win10 LTS服务器:window server 2019 (这里应该给我一顶原谅帽) 参考:Hosting ASP.NET Core Images with Docker over HT...
2019-09-09 18:10:00 716
转载 mysql5.6.0 的存储过程 与 定时器 实例
一、写mysql存储过程应注意的几点:1、声明变量(declare)时要注意字符集,用变量存储表字段时,表字段与变量的字符编码要一致。2、mysql的字符合并不能用‘+’号,必须用concat函数。3、每个游标必须使用不同的declare continue handler for not found set done=1来控制游标的结束。实例:delimiter ...
2019-09-08 21:55:00 133
转载 本地windows 修改mysql 的root密码无效,论 127.0.0.1与 localhost,搞明白所有方式
先说我遇到的问题: 有个项目中使用了127.0.0.1来连接本地的数据库,现在要设置本地数据库的密码。于是通过cmd 窗口使用命令:#mysql -uroot -p // 已经知道原来是不设密码的,这里可以登录mysql>update mysql.user set password=password(‘mypassword’) where user=’root...
2019-09-08 11:11:00 276
转载 centos7环境下 搭建单机版zookeeper集群
感谢博主的分享:https://www.cnblogs.com/zjiacun/p/7598294.html本文修正了博主的一些细节。第一步:下载zookeeper:wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz第二步:修改配置:解压文...
2019-09-05 21:14:00 133
转载 Item协同过滤(基于Python实现)
在众多召回策略里面,基于Item与基于User(可参考:https://www.cnblogs.com/SysoCjs/p/11466424.html)在实现上非常相似。所以这里使用了跟基于User协同过滤的数据u.data。u.data数据格式(user_id, item_id, rating, timestamp)实现原理: 区别于Use...
2019-09-05 16:16:00 232
转载 Spark实现TF-IDF——文本相似度计算
在Spark1.2之后,Spark自带实现TF-IDF接口,只要直接调用就可以,但实际上,Spark自带的词典大小设置较于古板,如果设置小了,则导致无法计算,如果设置大了,Driver端回收数据的时候,容易发生OOM,所以更多时候都是自己根据实际情况手动实现TF-IDF。不过,在本篇文章中,两种方式都会介绍。数据准备: val df = ss.s...
2019-09-05 16:10:00 723
转载 User协同过滤(基于Spark实现)
项目地址:https://github.com/ChanKamShing/UserCF_Spark.git推荐系统的作业流程:召回/match(推荐引擎)-> 物品候选集 -> 过滤 -> 排序 -> 策略(保证结果多样性) -> 推荐list协同过滤CF属于第一阶段,我们常常称之为“推荐引擎”。“推荐引擎”可以有多个基准,包括:基于相似用户、基...
2019-09-05 15:45:00 210
转载 User协同过滤(基于Python实现)
项目地址:https://github.com/ChanKamShing/UserCF_python.git推荐系统的作业流程:召回/match(推荐引擎)-> 物品候选集 -> 过滤 -> 排序 -> 策略(保证结果多样性) -> 推荐list协同过滤CF属于第一阶段,我们常常称之为“推荐引擎”。“推荐引擎”可以有多个基准,包括:基于相似用户、...
2019-09-05 15:35:00 187
转载 Spark存储原理——数据写入过程
Spark数据的写入过程的入口点位doPutIterator方法。下面是一些方法的调用关系图: 在该方法中,根据数据是否缓存到内存中处理。如果不缓存到内存中,则调用BlockManager的putIterator方法直接存储到磁盘中;如果缓存到内存中,则先判断数据存储级别是否对数据进行了反序列化操作:如果设置了反序列化操作,则调用putIterato...
2019-09-05 15:25:00 201
转载 Flink的WaterMark,及demo实例
实际生产中,由于各种原因,导致事件创建时间与处理时间不一致,收集的规定对实时推荐有较大的影响。所以一般情况时选取创建时间,然后事先创建flink的时间窗口。但是问题来了,如何保证这个窗口的时间内所有事件都到齐了?这个时候就可以设置水位线(waterMark)。概念:支持基于时间窗口操作,由于事件的时间来源于源头系统,很多时候由于网络延迟、分布式处理,以及源头系统等各种...
2019-09-05 15:22:00 682
转载 Spark的TaskSetManager(任务管理器)的排序算法
Spark作业执行中,有一个步骤是给任务进行资源分配,实际上这些任务由一些任务管理器TaskSetManager负责管理,资源分配过程中,会先根据某种排序算法排好序,然后根据就近原则给任务进行资源分配。那么关于TaskSetManager的排序是根据哪个算法呢?现在就来介绍。 排序算法由两种调度策略FIFOSchedulingAlorithm和FairS...
2019-09-05 15:19:00 96
转载 SparkSql中,关于Hive表与Parquet文件的Schema转化兼容
从表Schema处理角度对比Hive和Parquet,两者主要的区别:Hive区分大小写,Parquet不区分大小写;Hive允许所有的列为空,而Parquet不允许所有列为空;基于上述两点区别,在进行Hive metastore Parquet转换为SpqrkSql Parquet时,需要将两者的结构进行一致化,其一致化规则:两者同名字段必须具有相同的数据类型,一致化后的字段必...
2019-09-05 15:17:00 488
转载 SparkSQL自定义强类型聚合函数
自定义强类型聚合函数跟自定义无类型聚合函数的操作类似,相对的,实现自定义强类型聚合函数则要继承org.apache.spark.sql.expressions.Aggregator。强类型的优点在于:其内部与特定数据集紧密结合,增强了紧密型、安全性,但由于其紧凑的特性,降低了适用性。准备employ.txt文件:Michael,3000Andy,4500...
2019-09-05 15:14:00 184
转载 SparkSQL自定义无类型聚合函数
准备数据:Michael,3000Andy,4500Justin,3500Betral,4000一、定义自定义无类型聚合函数 想要自定义无类型聚合函数,那必须得继承org.spark.sql.expressions.UserDefinedAggregateFunction,然后重写父类得抽象变量和成员方法。package com.cj...
2019-09-05 15:09:00 88
转载 RDD转DataFrame常用的两种方式
随着Spark1.4.x的更新,Spark提供更高阶的对象DataFrame,提供了比RDD更丰富的API操作,同时也支持RDD转DataFrame(下面简称“DF”),但是要注意,不是任意类型对象组成的RDD都可以转换成DF,,只有当组成RDD[T]的每一个T对象内部具有鲜明的字段结构时,才能隐式或者显示地创建DF所需要的Schema(结构信息),从而进行RDD->...
2019-09-05 15:05:00 188
转载 Spark作业执行原理(六)——获取执行结果
对于Executor的计算结果,会根据结果的大小使用不同的处理策略:计算结果在(0,128MB-200KB)区间内:通过Netty直接发送给Driver终端;计算结果在[128MB, 1GB]区间内:将结果以taskId为编号存入到BlockManager中,然后通过Netty把编号发送给Driver终端;阈值可通过Netty框架传输参数设置spark.a...
2019-09-05 15:01:00 129
转载 【漏洞修复】IIS短文件名泄露漏洞
0x01.漏洞描述: Internet Information Services(IIS,互联网信息服务)是由微软公司提供的基于运行Microsoft Windows的互联网基本服务。 Microsoft IIS在实现上存在文件枚举漏洞,攻击者可利用此漏洞枚举网络服务器根目录中的文件。 危害:攻击者可以利用“~”字符猜解或遍历服务器中的文件名,或对IIS服务器中...
2019-09-02 14:55:00 374
转载 APICloud - 提交项目 点击右键 没有git这个选项
你们是不是也遇到过这个问题,吧项目检出来后,花了很久的时间,好不容易吧项目改完,提交的时候点击鼠标右键,发现git选项没有在里面了,找不到,但是这个问题也不是很常遇到,机率很小,下面我来告诉你们吧原因:去检查你电脑里面是不是装了有git吧之前检出的代码删了,编辑器里面的项目文件夹移除或许之前的项目你是从本地导入的,在本地删除检出,重复多几次,知道git...
2019-09-01 21:10:00 525
转载 pclzip PHP Notice: A non well formed numeric value encountered
在使用PHP7环境出现错误是因为现在PHP的语法检测相对严格了一点,你可以自行修改pclzip.lib.php 文件第 1837行:$v_memory_limit = trim($v_memory_limit);改为:$v_memory_limit = intval(trim($v_memory_limit));转载于:https://www.cnblogs.com...
2019-08-29 14:40:00 316
转载 8.27-8.28
图论II题目完成3道数论题目全部完成转载于:https://www.cnblogs.com/sunxiyue/p/11426813.html
2019-08-28 22:03:00 131
转载 快速专业搭建成熟的移动直播系统
一、移动直播推流端需要做哪些工作? 直播推流端即主播端,主要通过手机摄像头采集视频数据和麦克风采集音频数据,经过一系列前处理、编码、封装,然后推流到CDN进行分发。 1、采集 移动直播通过手机摄像头和麦克风直接采集音视频数据。其中,视频采样数据一般采用RGB或YUV格式、音频采样数据一般采用PCM格式。采集到的原始音视频的体积是非常大的,需要经过压缩技术处理来提高传输效率。 2、前处...
2019-08-27 01:18:09 138
转载 数论
今天看了质数相关内容。。。我是不会告诉你们我要干什么的(bushi做了三道题转载于:https://www.cnblogs.com/sunxiyue/p/11415547.html
2019-08-26 22:44:00 84
转载 linux环境变量
1. 设置环境变量的三种方式1、在/etc/profile文件中添加变量【对所有用户生效(永久的)】 注:修改文件后要想马上生效还要运行# source /etc/profile不然只能在下次重进此用户时生效2、在用户目录下的.bash_profile文件中增加变量【对单一用户生效(永久的)】每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该文件仅仅执行...
2019-08-26 11:51:00 107
转载 模版字符串
模版字符串是ES6的新语法之一,使用反引号``包含字符串,具有多行,变量,函数等多种特点。如:// 字符串中嵌入变量let name = 'Jack';let str = `Hello ${name}`; // Hello Jack// 多行字符串,会保留空格和换行`In JavaScript this is not legal.`// 模版字符串中使用反引号`,...
2019-08-24 20:24:00 81
转载 索引
1. 查询优化缓存查询全表扫描索引扫描Btree 查单个数据,或者是在同一个叶子上的(不在一个叶子上会拖慢查询效率)三层,根,枝,叶B+tree 记录了相邻叶子节点的指针(双向链表)更适合查一个范围(即使数据不在一个叶子上,通过指针跳转)b*tree在枝节点做上了双向链表,优化范围查询2. 索引索引种类Btree Rtree HASH F...
2019-08-23 16:00:00 103
转载 进程管理工具-Supervisord 使用
简介Supervisor 是一个用 Python 写的进程管理工具,可以很方便的用来在 UNIX-like 系统(不支持 Windows)下启动、重启(自动重启程序)、关闭进程(不仅仅是 Python 进程)Supervisor 是一个 C/S 模型的程序,supervisord 是 server 端,supervisorctl 是 client 端1. 基本命令安装:1、su...
2019-08-22 18:32:00 347
转载 小程序 - 上传图片 裁剪图片
有的时候我们上传头像,商品图片这些的时候有的希望上传的是自己想要的图片形状,吧图片宽高固定死的话,他又会变形,比列差不多的看起来没什么区别,不固定的话,他们会宽的高的不一样,看起来完全不舒服,不美观了。所以想了个这样的办法,用这个裁剪工具,在选择图片的时候,就把图片的大小裁剪成自己想要的大小,这样就都一致了,下面我们来看看吧!wxml:<view class=...
2019-08-21 22:40:00 190
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人