Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

深度学习与计算机视觉

机器学习 深度学习 计算机视觉 Python 目标检测 语义分割 OpenCV中文教程

  • 博客(1260)
  • 收藏
  • 关注

转载 最强总结!复盘kaggle计算机视觉竞赛!附top方案

我们在初学kaggle比赛时,可以找一些金牌or优秀解决方案参考学习。我已经整理好了,大家可以扫码领取(下滑更多干货内容)。金牌优秀解决方案扫码领但这些开源代码再优秀,可迁移性不高,无法帮助提分冲榜。其中解决方案和理解相关代码思维,对入门选手或代码思维弱的参赛者并不友好。所以我们请比赛经验丰富的Sam导师(Kaggle master)来带队开设《AI竞赛菁英班-kaggle竞赛冲牌》指导大家完成一...

2024-11-11 19:28:39 26

转载 计算机视觉顶尖期刊和会议有哪些?

链接:https://www.zhihu.com/question/37687006?utm_psn=1834499281605779456编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:一只火山https://www.zhihu.com/question/37687006/answer/1573957997?utm_psn=1834499394881318912最近看论文的感受:ICLR...

2024-11-03 09:05:55 21

转载 如何评价Ultralytics出的YOLOv11?

链接:https://www.zhihu.com/question/694696741?utm_psn=1833942257365020675编辑:深度学习与计算机视觉声明:仅做学术分享,侵删Ultralytics出了最新的YOLOv11,官方给出的速度、精度指标也都比YOLOv8要高,如何评价YOLOv11?实际效果如何?作者:MoonCancerhttps://www.zhihu.com/qu...

2024-10-28 08:08:58 36

转载 传统图像处理还有前景么?

链接:https://www.zhihu.com/question/342035031?utm_psn=1833684136675635200编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:random walkhttps://www.zhihu.com/question/342035031/answer/1824861930?utm_psn=1833682558279364608科研领域...

2024-10-27 01:57:31 34

原创 使用PyTorch Lightning从头开始实现并训练CNN

本文是对卷积神经网络(CNN)的简要介绍。本文详细介绍了PyTorch Lightning的优点,然后简要介绍了CNN组件的理论,并描述了使用PyTorch Lightning库从头开始编写的简单CNN架构的训练循环的实现。为什么选择PyTorch Lightning?PyTorch是一个灵活且用户友好的库。如果说PyTorch在研究方面非常优秀,我认为Lightning在工程方面更胜一筹。其主要...

2024-08-19 18:23:28 1238

原创 直方图均衡化:一步一步的指南(CV-06)

动机直方图是用条形图进行频率分布可视化的过程。在计算机视觉中,图像直方图是用条形图表示强度值频率的过程。通过图像直方图均衡化,我们可以轻松调整图像强度频率的分布。通常,这个过程帮助我们增加图像的对比度和亮度。这个过程简单易行。本文将讨论直方图均衡化的完整过程,并附有编程示例。目录图像直方图直方图均衡化的完整过程逐步实施图像直方图图像直方图是用条形图表示图像强度值频率的表示。在图-1中,我展示了一张...

2024-08-01 17:24:08 706

原创 使用NumPy和OpenCV进行计算机视觉的入门指南

动机我们人类通过我们的视觉系统感知环境和周围的事物。人眼、大脑和肢体共同工作,以感知环境并相应地行动。一个智能系统可以执行那些需要一定智力水平的任务,如果由人类执行的话。因此,对于执行智能任务,人工视觉系统对于计算机来说是重要的事物之一。通常,摄像头和图像用于收集执行工作所需的信息。计算机视觉和图像处理技术帮助我们执行类似于人类完成的任务,如图像识别、目标跟踪等。在计算机视觉中,摄像头充当人眼来捕...

2024-07-30 16:05:12 546

原创 前向映射与反向映射在计算机视觉中的应用

本文将介绍并解释图像变形的两种算法:前向映射和反向映射。除了在理论层面上介绍这些算法之外,还将它们应用于实际图像,以查看每种算法的结果和能力。为了完全理解本文中的所有内容,有必要熟悉2D变换矩阵,这在先前的文章中已经介绍和解释过。https://medium.com/@JavierMtz5/2d-matrix-transformations-for-computer-vision-80b4a4f2...

2024-07-23 17:28:44 1086

转载 CVPR 2024 录用数据出炉!这些方向是大趋势!

一年一度的计算机视觉和模式识别会议(CVPR)一直是 CV 界前沿研究的灯塔。CVPR 2024 录用结果显示,今年共有 2719 篇论文被接收,录用率 23.6%。那么大模型时代,今年的研究主题有哪些变化?最近,乔治亚理工学院计算机学院(College of Computing, Georgia Institute of Technology)对 CVPR 2024 录用数据的统计分析,直观呈...

2024-07-10 11:40:12 231

原创 OCR的有效数据增强

背景我面临着需要尽可能准确识别手写金额的挑战。难点在于保持误判率低于0.01%。由于数据集中样本数量固定,因此数据增强是合乎逻辑的选择。快速搜索未发现针对光学字符识别(OCR)的现成方法。因此,我挽起袖子,亲自创建了一个数据增强例程。它在训练过程中被使用,并帮助我的模型实现了目标。继续阅读以了解详情。通过每次训练图像时引入小的变化,模型不太可能过拟合,更容易泛化。我将其与TROCR一起使用,但任何...

2024-06-24 17:33:43 1104

原创 Python中用于从图像中提取文本的8大OCR库

介绍你是否曾想过你的电脑如何能够从图像中读取文字?这都要归功于一种叫做光学字符识别(Optical Character Recognition, OCR)的技术。在Python中,有一些非常酷的库可以帮助你的电脑理解图片中的文字。从谷歌强大的Tesseract到EasyOCR时髦的深度学习,这些库能够做一些非常了不起的事情。让我们来看看Python中的OCR库,了解这些库是如何将图像转换成可读文字...

2024-06-21 18:03:42 8883 1

转载 使用 OpenCV 检测并提取表格数据

此示例演示如何使用 OpenCV 进行表格数据检测和提取。我们将分析以下代码生成的一些示例输出。此代码的 Colab 链接可在文章末尾找到。示例输出:检测到表格的输出检测到单元格的表格输出表格单元格的裁剪图像表格提取数据的输出fromgoogle.colab.patchesimportcv2_imshowimportpandasaspdimportcv2importnumpy...

2024-06-19 18:37:34 376

原创 使用 Mask R-CNN 进行血细胞分割

介绍血细胞分析是诊断各种医学疾病的重要步骤,从感染和贫血到更严重的疾病如白血病。传统上,这一过程是通过老方法进行的——实验室技术员通过显微镜查看血涂片玻片,花费几个小时。这一过程不仅令人乏味,还容易出现人为错误,尤其是在处理大量样本或复杂病例时。难怪医疗专业人员一直渴望自动化这一重要分析。借助计算机视觉和深度学习算法的力量,我们可以以更高的准确性和效率处理血细胞检查。一项改变这一应用的技术是图像分...

2024-06-17 18:50:37 881

转载 GPT-4o炸裂登场!大模型仍是最大赢家!

从一年前ChatGPT突然爆火,到不久前文生视频大模型Sora以霸屏之势吸引全球舆论,再到OpenAI发布的王炸GPT-4o,与AI大模型相关的议题越来越多地被大众所讨论,如果说2023年的大模型风暴还集中在“对话”上,那么,今年AI带来的亿点点震撼,就突破了文字乃至图像的范畴!大模型相关内容之所以那么火,与其相结合的技术原理绝对不容忽视,为了能让大家更能进一步了解时下大模型相关前沿热点,我们特邀...

2024-06-13 11:30:23 71

转载 Transformer登上nature,到底凭什么这么火?

AI领域的研究者应该还记得,在 Transformer 诞生后的三年,谷歌将这一自然语言处理届的重要研究扩展到了视觉领域,也就是 Vision Transformer。视觉Transformer(ViT)依靠出色的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。正如德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说:我们有充分的理由尝试在整...

2024-06-12 11:30:41 90

转载 只要敢捞“偏门”,篇篇都是顶会顶刊!

最近经常收到读者在后台的留言:科研真是太难了!导师要求发SCI/CCF,不仅给不了指导,还一个劲的push。自己一个人拼命想选题、做实验、写论文,仍旧无法把论文写的又快又好,更别说高区位会议了!01为什么很多人觉得科研很难?大家之所以感觉发论文太难,主要原因在于能发SCI/CCF的文章,idea必须有创新性,其次写作也要条理清晰!如果导师不管,只靠自己几乎不具备独立提炼idea的能力。我师弟张含,...

2024-06-11 15:00:40 512

转载 独自一人,怒发顶会!

万物皆卷的时代,升学、就业的竞争越来越激烈,想要保研、申博、进大厂,没有高质量论文在手就相当于“裸奔”!尤其是这个人人惶恐又内卷的时代,想要抓住点什么来增强安全感。有一份拿得出手的成绩——发论文的数量和质量无疑是最好的背书。手握一篇甚至多篇高质量的论文,就是学术成果最好的展现,当然它也意味着未来更优质的工作和薪酬。但是论文很多人来说,是一种挑战。大部分同学的困难不是不想发,而是……1、不知该如何对...

2024-06-04 11:40:34 69

原创 用Python从PDF文件中提取文本:全面指南

引言在大语言模型(LLMs)的时代,它们的应用范围从简单的文本摘要和翻译到基于情感和财务报告主题预测股票表现,文本数据的重要性前所未有。有许多类型的文档共享这种非结构化信息,从网页文章和博客帖子到手写信件和诗歌。然而,这些文本数据的大部分以PDF格式存储和传输。具体而言,每年在Outlook中打开的PDF文档超过20亿份,而每天在Google Drive和电子邮件中保存的新PDF文件达7300万份...

2024-06-03 18:16:38 2260

原创 使用Python AI轻松编辑背景

你有一张自己很喜欢的照片,但你注意到周围图像的背景在照片上产生了抑制效果。你觉得如果背景不存在,或者通过在特定图像中保留你的照片并稍作修改,将会得到一张高质量的人像照片。执行以下操作的许多方式之一包括支付相当高的费用购买软件或聘请专业人员完成项目。还可能有一些显著的免费资源,但它们的可靠性或效率在某些限制下可能令人质疑。与解决这些问题的麻烦相比,设计自己的签名方法来处理此任务难道不是很酷吗?借助P...

2024-05-31 18:46:44 790

转载 完整实现迷你VGG网络进行图像识别

VGG网络是最流行的图像识别技术之一的基础。学习它是值得的,因为它打开了许多可能性。要理解VGGNet,你需要了解卷积神经网络(CNN)。在本文中,我们将仅关注VGGNet的实现部分。因此,我们将在这里迅速进行。关于VGG网络VGGNet是一种能够更成功地提取特征的卷积神经网络(CNN)。在VGGNet中,我们堆叠多个卷积层。VGGNet可以是浅层或深层。在浅层VGGNet中,通常只添加两组四个卷...

2024-05-29 18:29:09 113

原创 利用CNN和迁移学习检测太阳能电池板上的尘埃

太阳能电池板已经成为农业、交通、建筑和酒店等多个行业中受欢迎的可再生能源来源。通过利用太阳的能量,我们可以在不损害环境的情况下产生电力。然而,使用太阳能电池板面临着一些挑战,其中最大的之一是它们表面上尘埃的积累。这会显著降低它们的效率,限制它们在能源生产和其他应用中的实用性。为了解决这个问题,自动化可以在确保太阳能电池板定期及时维护方面发挥关键作用。通过自动化清洁过程,我们可以提高生产效率和效率,...

2024-05-28 18:47:20 791 1

转载 为啥本科生都能发顶会,而博士一篇都没有?

“已经5月了,大家的论文还顺利吗?”最近经常收到读者的留言 : 抱怨科研真是太难了,竞争压力大,想发SCI/CCF,拼命想选题,读文献,写论文,仍旧无法把论文写得又快又好,更别说顶刊顶会了!其实他不是个例,大家也会有这样的烦恼:前沿顶会、期刊论文、综述文献浩如烟海,不知道学习路径,无从下手?没时间读、不敢读、不愿读、读得少、读不懂、读不下去、读不透彻一篇完整的论文?CVPR、ICCV、ECCV、I...

2024-05-24 11:30:54 114

转载 超越NeRF,3DGS逆天了!52篇精选论文浅谈涨点技巧

3DGS作为先进的三维重建技术,通过3D高斯函数表示体积密度,可快速渲染出高质量图像,在计算机图形学和计算机视觉领域,呈现出巨大潜力,甚至超越NeRF重塑SLAM!今年火爆的算法岗招聘中,3DGS经验更是候选人加分项!研梦非凡于5月21日,特邀了自动驾驶AI专家杨导师,独家上线SIGGRAPH-Best Paper《AI前沿论文系列—3D Gaussian Splatting(3DGS)for R...

2024-05-22 11:30:29 329

转载 又一篇CV顶会!这个idea“杀疯了”

又水了一篇顶会。要说创新,也没啥大创新。要说没创新,确实也有一丢丢的新东西。毕竟能发顶会或者高区位会议的文章,idea必须有创新性。而一个科研新人几乎不具备独立提炼idea的能力。很多发了十几篇A会的科研大牛都在使用“简化、结合、迁移、解释分析”这4个高效的idea提炼方法。但是科研新人,即使知道了方法,也依旧无法挖掘到好的idea。我师弟张含,研二期间要发CV方向的CCF A类文章。奈何导师不给...

2024-05-15 11:31:15 96

转载 Transformer登上nature,被誉为大模型基石的它到底凭什么这么火?

Transformer模型最初由Google的研究人员在2017年提出,它是一种基于自注意力机制的深度学习模型,用于处理序列数据。不仅彻底改变了NLP领域,还在CV领域做出了一些开创性的工作。与卷积神经网络(CNN)相比,视觉 Transformer(ViT)依靠出色的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。随着Transformer的成功,研...

2024-05-14 12:57:34 163

转载 计算机视觉领域经久不衰的热点论文大盘点

特征提取是计算机视觉领域经久不衰的研究热点,不论是SLAM、SFM、三维重建等重要应用的底层都是建立在特征点跨图像可靠地提取和匹配之上。深度学习中的特征提取是指通过神经网络自动地学习出数据的高层次抽象表示。在传统机器学习中,特征工程是需要手动设计并选择特定的特征来描述数据,而这往往是一项非常耗时且需要专业知识的工作。深度学习进行特征提取的优势在于,它能够根据数据本身学习出最有用、最具区分力的特征,...

2024-05-13 11:33:44 87

转载 CVPR 2024 满分论文出炉!这些方向爆火!

作为计算机视觉方向的顶级会议,CVPR可以说是目前最前沿、权威的论文了。在众多研究中,EfficientSAM这篇工作以5/5/5满分收录于CVPR 2024!就连LeCun图灵奖得主也强烈推荐了该工作!“那么,你的论文什么时候发表呢?”升学、就业的竞争越来越激烈,想要保研、申博、进大厂,没有高质量论文在手就相当于“裸奔”!尤其是这个人人惶恐又内卷的时代,想要抓住点什么来增强安全感。有一份拿得出...

2024-05-08 11:30:14 206

转载 多模态融合56个创新点汇总,找idea必看!

大家好,今天分享一个我认为未来最好发论文的方向:多模态融合。我总结了56个多模态融合的创新点,并整理了对应论文,来自ICLR2024、AAAI2024等顶会。想发论文的同学们赶快扫下方二维码下载资料合集,找到你的顶会idea!下滑查看全部56个多模态融合创新点多模态融合的渐进式融合多模态学习中的正交序列融合视听融合中多任务学习的集成框架量化半监督多模态学习中的交互基于Hypergraph的自监督多...

2024-05-06 11:30:21 112

转载 yyds!谷歌更新了transformer新架构!

Transformer模型,作为深度学习领域中的一次重大突破,为自然语言处理(NLP)领域的发展注入了新的活力。ChatGPT和Sora这两个应用便是Transformer强大能力的生动体现,它们分别将Transformer应用于对话生成和文本到视频的转换,展现了Transformer的广泛适用性和巨大潜力。我们邀请到英国某名校博士,top一区期刊最佳论文获奖者Henry老师为我们带来——引爆顶会...

2024-04-29 11:30:38 81

转载 博士生们每天科研时间是多久?

链接:https://www.zhihu.com/question/27154943编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:森屿https://www.zhihu.com/question/27154943/answer/2541621824科研真正的投入可能并不是坐在电脑前或泡在实验室里的时间,真正区别你与他人的,是你吃饭走路都在思考某个悬而未决的问题,并遵从好奇的驱使无时无刻不...

2024-04-26 18:13:28 117

转载 最新大模型论文研究论文合集,包含谷歌/苹果/亚马逊/港大、阿里最新研究报告!...

清华团队推出 MiniCPM:利用可扩展的训练策略挖掘小模型潜力;苹果MM1大模型:30B参数,多模态,在预训练指标上达到SOTA;亚马逊提出大规模视频语言对齐方法VidLA;英伟达参与,高效视频扩散模型CMD发布;谷歌、Stability AI新研究:由文本引导生成纹理3D服装;港大、阿里新研究:只需一张图,轻松即时定制个性化照片;上海 AI Lab 新研究:将 LVLM 分辨率提升到 4K H...

2024-04-25 11:31:03 72

转载 国内 top2 高校研一在读,为什么感觉深度学习越学越懵?

链接:https://www.zhihu.com/question/429256719编辑:深度学习与计算机视觉声明:仅做学术分享,侵删大家好,题主目前国内top2研一在读,方向是AI和NLP.本科没有怎么接触过科研,这学期刚刚开始在实验室搬砖.读过的关于DL的书和资料包括:1.<neural networks and deep learning> --Michael Nielsen2...

2024-04-23 20:30:54 116

转载 最新11个SAM+医学图像创新点,冲Nature!

今天分享一个能登Nature的idea——医学图像SAM。其中,MedSAM作为首个为医学图像分割设计的基础模型在2024登上Nature。在这之后,学界也开始针对SAM在医学图像中的适应性问题进行定制化改进。目前医学图像SAM方向上能够冲顶会的idea有很多。分享我总结的11个最新SAM+医学图像改进方案,并提供了源码,方便大家复现!1.MedSAM:医学图像领域的SAM,2024登Nature...

2024-04-18 11:30:57 253

转载 为什么现在的LLM都是Decoder only的架构?

链接:https://www.zhihu.com/question/588325646编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:匿名用户https://www.zhihu.com/question/588325646/answer/2929459138关注点应该是模型属于Autoregressive(AR)还是Non-Autoregressive(NAR)范式,选择encoder+d...

2024-04-17 19:03:12 118

转载 炸裂!最新CVPR2024、ACL2024、AAAI2024、ICML2023论文+Code大合集!

我花了3个月的时间整理了包括CVPR 2023/2024、ECCV 2023、ICML 2023、ICLR 2024/2023、NeurIPS 2023、ACL 2024、EMNLP 2023、AAAI 2024/2023、WWW 2023/2024等顶会在内的超过20000篇人工智能优质论文,今天一次性分享给大家。为了方便大家阅读,我把各大顶会的论文整理打包,按会议合集、细分方向合集整理如下:0...

2024-04-16 11:30:42 642

转载 “大模型”根基—Transformer的360篇论文大盘点

2017年,来自谷歌的几个研究员写下《Attention is All you need》的题目,给世界带来了Transformer模型架构,它成为了今天“大模型”繁荣背后无可争议的根基。 OpenAI的GPT,Meta的Llama以及一众最主流大语言模型都是在Transformer的基础上生长起来,某种程度上,今天所有AI模型层面的研究都在围绕对Transformer的掌控与超越展开。如何快...

2024-04-11 11:54:19 128

转载 工科博士毕业去高校还是去研究所?

链接:https://www.zhihu.com/question/646227949编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:炭烧腰果Xhttps://www.zhihu.com/question/646227949/answer/3437948835我是建议去研究所或者非军工国央企(如果专业和研究方向对口的话)。高校目前博士已经过于饱和,且现在好的高校(985,211)一般只能做...

2024-04-10 18:30:21 400

转载 检测一切,分割一切,生成一切!最强计算机视觉应用——SAM

SAM无疑是当前计算机视觉领域的一项重大突破,其强大能力让人们对未来的图像处理技术充满了期待。这款应用通过深度学习技术,展现出了惊人的“检测一切、分割一切、生成一切”的能力,为图像处理和计算机视觉带来了革命性的变革。我们邀请到了大厂算法工程师,手握多个专利的侯老师带来——ICCV2023最佳论文提名——SAM,引爆CV圈!带我们探索SAM未来的发展趋势!扫码参与课程领取导师亲自整理SAM论文合集&...

2024-04-09 11:31:32 166

转载 独自一人,怒发AI顶会!

万物皆卷的时代,升学、就业的竞争越来越激烈,想要保研、申博、进大厂,没有高质量论文在手就相当于“裸奔”!尤其是这个人人惶恐又内卷的时代,想要抓住点什么来增强安全感。有一份拿得出手的成绩——发论文的数量和质量无疑是最好的背书。手握一篇甚至多篇高质量的论文,就是学术成果最好的展现,当然它也意味着未来更优质的工作和薪酬。但是论文很多人来说,是一种挑战。大部分同学的困难不是不想发,而是……1、不知该如何对...

2024-04-08 11:30:33 66

转载 【AAAI2023】利用旧知识持续学习医学图像中的新类别

论文标题: Leveraging Old Knowledge to Continually Learn New Classes in Medical Images论文链接:https://arxiv.org/abs/2303.13752代码:https://github.com/EvelynChee/LO2LN引用:Chee E, Lee M L, Hsu W. Leveraging Old Kn...

2024-04-03 19:01:37 223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?